CN111538766A

CN111538766A - 一种文本分类方法、装置、处理设备和票据分类系统

Info

Publication number: CN111538766A
Application number: CN202010423351.9A
Authority: CN
Inventors: 张洪
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-08-14
Anticipated expiration: 2040-05-19
Also published as: CN111538766B

Abstract

本说明书提供一种文本分类方法、装置、处理设备和票据分类系统。一个方法实施例中，可以利用一个或多个模型算法对文本数据进行调优，增加文本覆盖度，增加文本质量，从而整体提升分类准确性。本说明书实施例方案可以快速构建轻量级文本分类方案，并将多个模型的分类结果合并后作为输出，不但处理文本的质量得到提升，输出结果更加可靠，而且整体模型简单、复杂度低，能够快速迭代产生分类结果，提高了分类模型构建效率和文本分类处理效率。

Description

一种文本分类方法、装置、处理设备和票据分类系统

技术领域

本说明书实施例属于计算机文本分类数据处理领域，尤其涉及一种文本分类方法、装置、处理设备和票据分类系统。

背景技术

文本分类是自然语言处理(Natural Language Processing，NLP)的重要应用，是数据挖掘和机器学习领域的一个重要研究方向。目前文本分类模型从非结构化文本中抽取特征(如有字、词、词义、语法等)的传统机器学习模型逐步推进到深度学习模型，不断挖掘文本的语义特征，用于优化文本分类效果。

目前文本分类的各种算法模型主要通过改进自身的算法或者使用大量的训练数据来提高文本分类效果，训练数据量较大，模型也越来越趋向复杂化。一些深度学习算法中需要大量的数据训练，而在数据训练之前，又必须先对大量的数据进行标注，作为机器学习的先导经验。在实际生产应用中数据标注工作往往是人工手动处理，其量级动辄需要达到百万、千万量级。一些场景下采集到的数据还会存在大量数据缺失和数据错误，此类数据标注在文本分类建模之前还需要进行大量的数据校准工作。

发明内容

本说明书目的在于提供一种文本分类方法、装置、处理设备和票据分类系统，结合词义模型进行语料增强，并融合语义模型，不仅使得文本分类的实现方案能够简易、快速的构建，还有效的提升了语料质量，进而提升文本分类结果的准确性。

本说明书实施例提供的一种文本分类方法、装置、处理设备和票据分类系统是通过包括以下方式实现的：

一种文本分类方法，包括：

获取待处理文本，所述待处理文本包括文本内容所属的分类标签；

利用预选的词义模型算法对所述待处理文本进行数据增强处理，生成增强处理文本，所述数据增强处理至少包括确定和/或纠正待处理文本所属的分类标签、产生新的数据中的一种；

利用预选的语义模型算法对所述增强处理文本进行文本分类，生成语义分类文本；

将所述增强处理文本的词义分类文本和所述语义分类文本进行合并，确定文本分类结果。

一种文本分类装置，包括：

文本获取模块，用于获取待处理文本，所述待处理文本包括文本内容所属的分类标签；

词义增强模块，用于利用预选的词义模型算法对所述待处理文本进行数据增强处理，生成增强处理文本，所述数据增强处理至少包括确定和/或纠正待处理文本所属的分类标签、产生新的数据中的一种；

语义分类模块，用于利用预选的语义模型算法对所述增强处理文本进行文本分类，生成语义分类文本；

融合输出模块，用于将所述增

一种文本分类处理设备，包括：至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现本说明书中任一实施例所述的方法。

一种票据分类系统，包括至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取票据文本，所述票据文本包括物品名称和物品分类标签；

分别利用KNN和LPA算法对所述票据文本进行数据增强处理，生成第一增强票据文本和第二增强票据文本，所述数据增强处理至少包括确定和/或纠正票据文本所属的分类标签、产生新的数据中的一种；

将所述第一增强票据文本和第二增强票据文本合并后得到增强票据文本，利用FastText算法对所述增强票据文本进行文本分类，生成第三增强票据文本；

将所述第一增强票据文本、第二票据增强文本、第三增强票据文本进行合并，确定票据文本的分类结果。

一种文本分类模型的构建方法，包括：

选择KNN算法和LPA算法作为待处理文本的词义模型算法，用于对获取的待处理文本进行数据增强处理，生成增强处理文本，所述数据增强处理至少包括确定和/或纠正待处理文本所属的分类标签、产生新的数据中的一种；

选择FastText算法作为语义模型算法，用于对所述增强处理文本进行文本分类，生成语义分类文本；

将KNN算法、LPA算法输出的词义分类文本和FastText算法输出的语义分类文本进行合并后作为文本分类模型的输出结果。

本说明书实施例提供的一种文本分类方法、装置、处理设备和票据分类系统，可以利用一个或多个词义模型对文本数据进行调优，增加文本覆盖度，增加文本质量，从而整体提升分类准确性。另一方面本说明书实施例方案可以利用多个模型(可以选取弱模型)进行融合，快速构建轻量级文本分类实现方案，从而能够快速构建模型、优化模型，提升分类模型构建和处理效率。本说明书提供将词义模型和语义模型的结果合并融合后输出文本分类结果的实施方案，不但处理文本的质量得到提升，输出结果更加可靠，而且整体模型简单、复杂度低，能够快速迭代产生分类结果，提高了分类模型构建效率和文本分类处理效率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本说明书提供的一个文本分类方法实施例的流程示意图；

图2是本说明书提供的所述方法中进行数据增强处理的一个实施例流程示意图；

图3是本说明书提供的另一个文本分类方法实施例的流程示意图；

图4是本说明书提供的一种应用本说明书实施例方法的分类模型框架结构示意图；

图5是应用本发明实施例的一种文本分类方法的硬件结构框图；

图6是本说明书提供的一个文本分类装置实施例的模块结构示意图；

图7是本说明书提供的另一个文本分类装置实施例的模块结构示意图；

图8是本说明书提供的另一个文本分类装置实施例的模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都应当属于本说明书保护的范围。

自然语言处理(NLP)是人工智能中的一个重要领域，是计算机科学领域与人工智能领域中的一个重要方向。随着自然语言处理场景的不断扩展，对自然语言处理中的语料提出了越来越来越高的要求，一方面需要在特定场景下语料的数量能够达到模型优化的需求，另一方面需要保证语料的质量。另外随着模型挖掘的信息从字词的统计频率信息深入到语义信息，从传统的统计自然语言处理模型到深度学习语义模型，模型越来越复杂，资源成本越来越高，如何利用合理的资源成本来满足场景效果需要，也是亟需解决的问题。

在文本分类的处理中，深度学习模型使用需要使用大量的训练数据。训练数据通常需要进行打标，在实际生产应用中采集的数据多种多样，数据标注工作往往也是人工设计或进行标注。例如一些场景中，应用系统初期对外开放，累计用户数据，用户在行为过程中选择类别。比如税务发票开具场景下，在增值税开票环节，开票软件给出发票分类选项，用户选择填写分类编码。又比如企业分类，用户根据经营范围来选择企业行业等。包括以上所述的多种场景下采集到的数据往往存在大量数据缺失和数据错误，此类数据标注在文本分类建模之前通常需要进行数据校准工作。如税务场景数据分析，用户在发票开票过程中由用户填写发票中的商品名称和商品分类编码选项，由于面向的是一个开放环境，用户填写的数据质量参差不齐，可能存在填写随意，描述多种形式。并且商品的分类编码种类过多，需要用户有较强的专业知识。因此实际模型训练采集到的语料质量存在很多质量问题，文本分类时或分类处理之前需要消耗大量的工作对语料进行修复、调整。

例如一个具体的案例如下：有四个商品信息描述，分别是：1、“157克晨鸣雪鹰亚光铜版纸635×965，分切”；2、“157克晨鸣雪鹰亚光铜版纸965×1000，分切”；3、“157克晨鸣雪鹰亚光铜版纸965×620，分切”；4、“157克晨鸣雪鹰亚光铜版纸965×635，分切”。其中，只有4、“157克晨鸣雪鹰亚光铜版纸965×635，分切”被标记为“轻质建筑材料”。从实际案例分析来看，1，2，3之间都有细微的差别，并且都和4具有高度的文本相似性，所以可以利用文本相似信息进行标签传递。另一个案例二，如：1、“龙牌9.5石膏板建筑用木料”；2、“龙牌9.5厘石膏板谷物”；3、“龙牌1.2石膏板轻质建筑材料”；4、“龙牌9.5厘双防石膏板轻质建筑材料”，其中1，2，3，4所描述的产品信息基本一致，只有部分描述差异。但是第2个商品由于填写时存在错误，需要在进入模型之前进行纠正，利用3，4的标签信息修正1，2的标签，将其调整为“轻质建筑材料”，从而整体提升语料的标准准确率。

基于申请人发现的现有中存在的文本分类时的语料质量和/或数量问题、传统深度学习模型越来越复杂的问题，本说明书提高一种至少解决上述问题之一的技术方案。方案出实施处理中，可以利用一个或多个词义模型算法对待处理文本的词义进行信息挖掘，对没有标签的分词文本添加标签，或者对已经标注的标签进行更新、纠正等，可以扩展语料数据量和增强原始语料的质量。另一面，可以将增强后的语料作为轻量级语义模型的输入，得到语义分类结果。然后可以将语义模型算法和词义模型算法的多个输出结果进行融合，得到文本分类结果。这样，不但处理文本的质量得到提升，输出结果更加可靠，而且整体模型简单、复杂度低，能够快速迭代产生分类结果，提高了分类模型构建效率和文本分类处理效率。

需要说明的是，本说明书中所述的语料通常指的是语言材料，可以包括多种形式，如文本、音频、图像、视频等。为便于计算机的处理，这些语料可以通过一定的方式转换成计算机处理得到数据格式。在本说明书实施例中，可以将图像、音频等转换为相应的文本格式，例如将用户手写的发票商品信息转换成图像，然后识别图像中的商品名称，形成文本字符串。下述中所述的label和Label等可以不用区分大小写，在一些实施例中本领域技术人员可以理解为是表征的同一个含义。

下面以一个具体的税务场景下对发票数据进行分类的实施场景对本说明书实施方案进行说明。具体的，图1是本说明书提供的一个文本分类方法实施例的流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置、系统结构等，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或结构。所述的方法或系统结构的在实际中的装置、服务器、系统或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。

当然，下述实施例的描述并不对基于本说明书实施例得到的其它可扩展技术方案构成限制。具体的，本说明书提供的所述方法的一种实施例如图1所示，可以包括：

S2：获取待处理文本，所述待处理文本包括文本内容所属的分类标签。

原始的语料数据可能存在多种数据形式和数据内容。本说明书实施例中，在得到语料数据时，可以进行一些处理操作，包括但不限于对文本的筛选、组织、整理、分类等。例如在本实施例应用场景中，可以对获取的发票数据进行整理后分类，使得分类后的单个待处理文本可以包括商品信息和商品分类(或分类编码)。商品信息可以为文本信息，如“龙牌9.5厘石膏板”，“龙牌9.5厘双防石膏板”。商品分类编码信息商品和服务税收分类编码共19位，粒度从粗到细有篇、类、章、节、条、款、项、目、子目、细目，总共4000多类别。语料经过处理后形成的待处理文本的组织格式可以为<text(内容)，label(标签)>，其中label可以存在为空的情况，如用户未填写商品分类编码，如<龙牌9.5厘双防石膏板，轻质建筑材料>，<龙牌1.2石膏板，“”>。由于上述场景中文本语料在开放环境下获取，在有些文本描述中，可能会出现一些无意义的特殊字符或字符编码不一致，需要进行无意义自负剔除、全半角转换、去停用词等常规操作提升文本质量。如去掉无意义字符、日期，商品规格尺寸、单位、型号、重量等统一等。

在一些实施场景下，还可以对待处理文本进行分词操作。分词工具可以选用开源软件如jieba、AliWS等。如使用AliWS的一个分词示例中，可以在待处理文本“157克晨鸣雪鹰亚光铜版纸965×635，分切”的分词结果中标注出“铜版纸”为商品核心词，“晨鸣雪鹰”为品牌修饰词，“亚光”为型号修饰词。

在对待处理文本进行分词处理后，可以计算两两文本之间的相似度。基于所述相似度可以得到单个待处理文本相似文本序列。例如，可以两两文本之间进行计算相似度，对于每个待处理文本s，可以得到该待处理文本s的相似文本序列{s1，s2…}，每个文本的数据格式可以为<text，label＞。一些场景下，待处理文本或相似文本序列可以具有初始化标签，或者无标签。

文本相似度可以采用多种计算方式。本说明书实施例中可以采用的方式包括：

1、最长公共字串：

其中，lcs表示S1与s2两者的最长公共子序列，len_lcs最长公共子序列的长度；min_len表示两者之间较小者的长度，即min_len＝min{len(s1)，len(s2)}。

2、编辑距离：

其中，len_ed表示S1与s2两者的编辑距离，min_len表示两者之间较小者的长度，即min_len＝min{len(s1)，len(s2)}。

3、Jaccard系数：

其中，|s1∩s2|表示S1与s2两者的词交集，|s1∪s2|表示S1与s2两者的词并集。如国文本分词集合中能标注出来单词的重要程度权重，则可以使用加权Jaccard。

可以采用上述其中一种或多种方式来计算相似度。当然，本说明书其他的实施例中还可以采用算法来计算文本之间的相似度。本说明书提供的另一种实施例中，若采用了多种相似度计算方式，则可以将多种方式得到的相似度结果加权合并后得到作为待处理文本之间的相似度。如文本s1和s2相似度结果为融合上述三种算法后的加权结果：

sim(s1，s2)＝0.3×sim_lcs(s1，s2)+0.3×sim_ed(s1，s2)+0.4×sim_jaccard(s1，s2)。

本说明书提供的所述方法的另一个实施例中，文本节点通过相似度计算构建了相似关系之后，可以对相似度进行分段统计，过滤掉一些相似度不符合要求的文本或者将相似度不符合要求的文本之间的相似度的取值设置为0。例如，待处理文本s与s1的相似度为1.1％，低于设置的最低相似阈值20％，则，可以从待处理文本s的相似文本序列中删除相似度取值不符合要求的文本s1。因此，本说明书提供的所述方法的另一个实施例中，所述方法还可以包括：

S20：删除所述相似度低于设置的最低相似阈值的相似文本序列。

另一个实施例中，还可以对待处理文本进行单节点统计，然后对节点的邻居节点数量进行裁剪，减少整体干扰。所述的邻居节点可以指与待处理文本有相似度关系的文本。在KNN算法中可以指待处理文本的相似文本序列，在LPA算法中可以指与自己节点相连的其他节点。具体的可以包括对每个待处理文本的邻居节点按照一定比例或数量进行裁剪，或者邻居节点数量超过一定阈值时按照一定比例或数量进行裁剪。因此，本说明书提供的所述方法的另一个实施例中，所述方法还可以包括：

S22：将待处理文本的邻居节点按照一定比例或数量进行裁剪。

上述实施方式中可以通过相似度阈值或邻居节点裁剪的过滤手段，不仅可以减少数据量，还可以提高相似文本序列的质量，减少节点干扰，提升文本相似度效果。

S4：利用预选的词义模型算法对所述待处理文本进行数据增强处理，生成增强处理文本，所述数据增强处理至少包括确定和/或纠正待处理文本所属的分类标签、产生新的数据中的一种；

上述得到待处理文本或者经过计算待处理文本之间的相似度以及确定待处理文本的相似文本序列之后，可以采用一种或多个模型算法对待处理文本进行数据增强操作。如上述所述，本实施例中所述的数据增强处理可以包括确定和/或纠正待处理文本所属的分类标签(也可以称为分类标注)、产生新的数据中的一种。

具体的一些场景示例中，待处理文本(包括相似文本序列)的数据格式可以为<text，label>，其中可以存在一些文本的label为空的情况，如<龙牌1.2石膏板，“”>。可以通过一些模型算法对待处理文本进行处理，为label为空的待处理文本赋予分类标签。或者，另一些场景下，对已有分类标签的待处理文本，例如分类标签为初始化标签，可能与实际类型存在较大差异或者与其相似文本序列的标签偏差较大，经过一些模型算法的数据处理后可以更新其分类标签。包括上述对待处理文本赋予分类标签或者校验、更新分类标签的模型算法的处理方式都属于本实施例中所述的数据增强处理。另一些场景下，对原有的待处理文本进行了数据扩充，产生新的数据样本的处理，也属于本实施例中所述的数据增强处理。

具体的，实现上述数据增强处理的模型算法可以称为第一模型算法。第一模型算法可以选择一个或多个模型或算法实现。在本实施例中的NLP处理中，数据增强处理阶段通常是对文本中的词本身进行的统计、分类、校验等处理，例如统计词出现的概率、已知左边的词时紧接着右边的词出现的概率、文本s的相似文本序列{s1,s2…}中的类别分布等，因此，这一阶段选取的模型或算法可以称为词义模型算法。具体的词义模型算法可以包括但不限于KNN(利用最近邻算法，k-nearest neighbor，KNN)、LPA(标签传播算法，LabelPropagation Algorithm，LPA)等，或者词义模型算法经过变形、变换、衍生的一些算法。选取的词义模型算法可以经过一些参数或结构的变化，以针对适应相应的应用场景，产生相应的输出结果，达到相应的技术效果。

本说明书提供的所述方法的另一个实施例中，计算待处理文本之间的相似度以及确定待处理文本的相似文本序列之后，可以利用KNN和/或LPA的算法进行数据增强处理。其中，所述的KNN是一种分类与回归方法，其处理过程主要包括：给定测试实例，基于某种距离度量找出训练集中与其最靠近的k个实例点，然后基于这k个最近邻的信息来进行预测。LPA是一种基于标签传播的局部社区划分。对于网络中的每一个节点，在初始阶段，算法对于每一个节点初始化一个唯一的一个标签。每一次迭代可以根据与自己相连的节点所属的标签改变自己的标签，更改的原则通常是选择与其相连的节点中所属标签最多的属性标签为自己的属性标签。随着社区标签不断传播，通常连接紧密的节点将有共同的标签。图2是本说明书提供的所述方法中进行数据增强处理的一个实施例流程示意图，具体的，在本实施例中，所述利用预选的词义模型算法对所述待处理文本进行数据增强处理，生成增强处理文本，包括：

S40：基于待处理文本之间的相似度，确定待处理文本的相似文本序列；

S42：基于所述待处理文本的相似文本序列，利用KNN算法输出包含文本和文本所属第一标签的第一类文本；

S44：以待处理文本为网络节点、所述相似度为网络中节点和节点之间的边，利用LPA算法进行迭代计算，输出包含文本和文本所属第二标签的第二类文本；

S46：将所述第一类文本和第二类文本加权合并后，输出增强处理文本。

相似度的计算方式可以参照前述描述方式实现。以生成的待处理文本s以及其相似文本的集合(相似文本序列){s1,s2…}为示例进行说明，其中部分文本(可以是待处理文本或相似文本序列中的某些文本)可以具有初始化标签。对待处理文本s的相似文本标的签序列运用KNN算法，统计其邻居文本节点的类别分布，取其最高频的分类类别作为待处理文本s节点的分类标签。该方法可以在待处理文本s无标注标签时新增分类标签，对于待处理文本s已有初始化标注标签时会更新其分类标注。输出的数据格式可以为<Text，Label>。

使用LPA标签传播算法时，可以在上述已经计算文本相似度的基础上，可以待处理文本设计成为网络节点利用MD5编码或者排序机制生成唯一标识节点的ID，Node(节点)集合可以为{ID1，ID2…IDN}。待处理文本之间的相似度构建为网络中节点和节点之间的边(Edge)，Edge<ID1，weight，ID2>，其中weight为前述中符合条件的sim(s1,s2)，如文本之间的相似性分数。构建完成点集和边集后，可以利用LPA标签传播迭代算法进行迭代计算，输出包含文本和文本所属第二标签的第二类文本。输出的数据格式可以为<Text，Label>。

当然，上述的处理过程中还可以包括其他的处理步骤。例如文本分词处理后计算每两个文本之间的相似度时，如果文本本身条目数量较大，则再计算相似度时也会消耗较长的时间和硬件资源。因此，一些实施例中可以采用分桶策略，减少一些无意义的计算，比如“洗衣粉”与“钢材”这两个商品名称完全不相似，其文本没有相关度，那么在本实施例应用场景中没有必要对齐进行计算。本说明书的一种实施例中，可以对待处理文本进行分词，获取待处理文本的分词，统计分词中单词的文档频度。根据所述单词的文档频度对单词进行分桶。本实施例中可以对前述方式进行分词得到的分词结果统计单词的文档频度，统计单词在多少文章或所有待处理文本中出现过，按照单词进行分桶。一个实施例中，在分桶处理时，若文本A和文本B，在同时包含相同的单词C的情况下进入到单词C对应到桶中。同一个桶内的所有文本进行两两运算，如果两个文本没有在任何一个分桶中相遇，则可认为两个文本本身不存在字面相关性，所以可以不予计算。

另一种实施例场景中，对于每个单词的对应桶，可以统计其中文本条目数量，其数量分布也可能存在不均衡。因此，本说明书的一些实施例中，可以执行以下策略：1)单词分桶中，判断该单词是否具有业务含义，如果业务含义不符合预设条件，如仅仅是一个无意义的高频词，则该分桶可以丢弃不参与运算。2)针对单词数量超过预设值的超大单词分桶，可以再细化分桶，可以运用词组进行分桶切分，形成多个分桶，或者再进一步对分桶再划分，或者bigram、trigram等策略来控制分桶大小，从而控制计算量。不同的桶可以进行同时计算，这样便可以使用分布式并行计算框架，如MapReduce等，通过分布式计算并行运算各个分桶/，保证整体计算时间。3)并行计算优化，针对每个分桶同样假定存在M条样本，同样也需要进行M×M量级运算，假定M＝10w，整体计算量也存在10w×10w约100亿。因此，一些实施例中可以采用构建虚拟矩阵的方式，将每条数据在m×n的网格中进行分发，分发策略可以为m中的第i行和n中的第j行，从而所有的文本都会在m×n的网格进行一次碰撞运算，可以利用这种机制将该分桶的运算在m×n的网格进行并行计算，利用空间换时间的策略整体压缩运算时间。因此，本说明书的另一个实施例中，所述方法还可以包括：

构建m×n的虚拟矩阵，将分桶的数据分发到所述虚拟矩阵的网格中进行并行计算。

本实施例中可以将KNN和LPA两个算法的输出结果做投票加权。一些实施例每种算法可以采用一元和二元来计算，其区别包括分桶的时候选取的分桶条件差别，如必须有一个关键词相同还是两个关键词相同。其中，二元相对信息要求更高，最后设定过滤策略来对数据进行修正，从而生成新的语料数据，用于词义和语义模型文本分类操作。具体语料格式输出<Text，Label>，其中Label可以包括数据增强部分重新生成的语料数据。经过一些过滤条件或新生成的语料数据的统计分析后，可以将KNN算法和LPA算法的输出结果加权融合为一组样本数据Data{(Text₁,Label₁),(Text₂,Label₂),(Text₃,Label₃)…(Text_all,Label_all)}，这里可以将其为增强处理文本。另一些实施例中，也可以进一步融合全量数据，如将全部或部分原始的待处理文本甚至原始语料数据也融合到KNN和LPA的输出结果中，形成另一种数据量更加全面的增强处理文本，如Data{(Text₁,Label₁),(Text₂,Label₂),(Text₃,Label₃)…(Text_all,Label_all)}。

S6：利用预选的语义模型算法对所述增强处理文本进行文本分类，生成语义分类文本。

所述的语义模型算法通常可以包括通过一些算法预测出文本所要表征的真正含义或分类。由于词是能够独立运用的最小语言单位，句子中的每个词的含义及其在特定语境下的相互作用构成了整个句子的含义。目前语义分析的处理方法包括基于整数线性规划模型的融合、最小错误加权的系统融合方法等，一般可以是结合带监督的机器学习算法实。具体的例如可以采用Word2vec(一种支持词向量的语言模型)。Word2vec是一个“线性”的语言模型，训练出来的词向量支持一些线性的语义运算，如经典的“皇帝-皇后＝男-女”。上述得到的增强处理文本可以作为语义模型算法的输入。可以理解的是，本说明书所述描述的KNN、LPA、FastText算法对待处理文本进行分类的处理中，这些算法的模型训练同样可以按照本说明实施例的方式进行，区别在于模型训练时使用的是训练样本数据，在具体文本分类应用时输入的待处理文本，输出的是待处理文本的分类结果。

利用预选的语义模型算法对所述增强处理文本进行文本分类，可以生成语义分类文本。如本实施例中可以输出：

Data{(Text₁,Label₁,Score_ipa1)，(Text₂，Label₂,Score_ipa2)，…(Text_n，Label_n，，Score_lpan)}

本说明书提供的所述方法的另一个实施例中，可以选取FastText算法作为语义模型算法。FastText是基于word2vec基础上开源的一个词向量与文本分类工具，典型应用场景是“带监督的文本分类问题”。可以提供简单而高效的文本分类和表征学习的方法，相比深度学习处理速度更快。具体的，另一个实施例中，所述利用预选的语义模型算法对所述增强处理文本进行文本分类，生成语义分类文本，可以包括：

S60：利用FastText算法对所述增强处理文本进行文本分类，输出包含文本和文本所属第三标签的第三类文本；

相应的，所述将所述增强处理文本的词义分类文本和所述语义分类文本进行合并，确定文本分类结果，包括：

将所述第一类文本、第二类文本、第三类文本合并后，输出文本分类结果。

可以利用FastText算法进行语义抽取从而对文本分类。FastText算法对语料数据中的Text分词处理，可以利用语料数据Data{(Text₁,Label₁),(Text₂,Label₂),(Text₃,Label₃)…(Text_n,Label_n)}进行模型训练。FastText的架构和word2vec中的CBOW的架构类似，并且可以利用层次Softmax构建标签树，模型训练验证效果后输出词向量和分类模型。然后对于所有语料进行预测操作，输出第三类文本(语义分类文本)：

Data{(Text₁，Label₁，Score_fasttext1)，(Text₂，Label₂，Score_fasttext2)，…(Text_n，Label_n，Score_fasttextn)}

一种实施方式中，也可以将前述数据增强处理得到的第一类文本、第二类文本与第第三类文本进行合并，合并后作为待处理文本的文本分类结果。具体的合并方式可以根据场景进行设置，如可以采用加权合并。

S8：将所述增强处理文本的词义分类文本和所述语义分类文本进行合并，确定文本分类结果。

如前述所述，经过词义模型算法处理后的增强处理文本，其本身可以包括文本内容和文本内容所属的分类标签。本实施例中将增强处理文本输入到语义模型算法中可以得到语义分类文本。一种实施方式中可以直接将两者合并，输出待处理文本的分类结果。增强处理文本与语义分类文本合并的方式可以根据需要进行设置，如可以采取加权合并。当然，其他的实施方式中也可以包括对所增强处理文本进行其他的数据处理之后再与所述语义分类文本进行合并，如将所述增强处理文本进行数据筛选、裁剪、验证、标签更新等处理后得到词义分类文本。

本说明书实施例可以利用一个或多个词义模型对文本数据进行调优，增加文本覆盖度，增加文本质量，从而整体提升分类准确性。另一方面本说明书实施例方案可以利用多个模型(可以选取弱模型)进行融合，快速构建轻量级文本分类实现方案，从而能够快速构建模型、优化模型，提升分类模型构建和处理效率。本说明书提供将词义模型和语义模型的结果合并融合后输出文本分类结果的实施方案，相比于现有中的一些结构越来越复杂的深度机器学习算法，不但处理文本的质量得到提升，输出结果更加准确、可靠，而且整体模型简单、复杂度低，能够快速迭代产生分类结果，提高了分类模型构建效率和文本分类处理效率。

另一种实施场景中，对于数据增强处理后的新的语料数据或融合全量数据形成统一的数据集合Data{(Text₁,Label₁),(Text₂,Label₂),(Text₃,Label₃)…(Text_all,Label_all)}，其中部分数据可能无Label。本说明书的另一种实施例中，可以利用KNN+LPA算法对所述增强处理文本进行文本分类操作，一方面对于无Label的文本数据添加分类标签，另一方面，对已经数据增强处理后的增强处理文本再次使用KNN和LPA算法来纠正、更新分类标签，可以进一步提升分类的准确性。并且，使用KNN和LPA分类处理后得到的分类结果与前述所述的语义分类文本进行加权合并，多个模型的多个分类结果合并后作为待处理文本的分类结果，使得分类结果更加可靠，并且分类模型的构建也更加快速、简易。图3是本说明书提供的另一个文本分类方法实施例的流程示意图，具体的，本说明书所述方法的另一个实施例中，还可以包括：

S50：利用KNN算法对所述增强处理文本进行分类，得到第一分类结果；

S52：利用LPA算法对所述增强处理文本进行分类，得到第二分类结果；

相应的，所述将所述增强处理文本的词义分类文本和所述语义分类文本进行合并，确定文本分类结果包括：将所述第一分类结果、第二分类结果、语义分类结果进行加权合并后，确定所述待处理文本的分类结果。

具体一个处理示例中可以包括，KNN算法处理时，可以结合前文逻辑产生的相似度文本序列{s1，s2…}，计算统计其邻居文本节点的类别分布，取其最高频的分类类别为文本s节点的分类标注，形成输出：

Data{(Text₁，Label₁，Score_knn1)，(Text₂，Label₂，Score_knn2)，…(Text_n，Label_n，Score_knnn)}

Score_knn可以表示为KNN算法得到的文本属于相应分类标签的可信度分值。例如Score_knn1为80分可以表示文本Text的分类标签是Label₁的可信度分值为80分(满分100分)。本实施例中增加score过滤，剔除部分可信度低的分类结果，如删除可信度分值低于阈值40分的分类结果。

LPA算法中，将每个样本文本设计成为网络节点，将文本利用MD5编码或者排序机制生成唯一标识节点ID，Node集合为{ID1，ID2…IDN}。文本和文本之间的相似度量构建为网络中节点和节点之间的边，Edge＜ID1，weight，ID2>，其中weight为上文中符合条件的sim(s1，s2)，即文本之间的相似性分数。构建完成点集和边集后，利用LPA标签传播迭代算法进行迭代计算，输出：

Data{(Text₁，Label₁，Score_lpa1)，(Text₂，Label₂，Score_lpa2)，…(Text_n，Label_n，Score_lpan)}

Score_lpan可以表示为LPA算法得到的文本属于相应分类标签的可信度分值，同样增加score过滤，剔除部分可信度低的分类结果。

结合前述中语义模型算法输出的语义分类文本：

可以利用加权融合多个模型的分类结果作为待处理文本的输出结果。上述每个模型的输出可以是(text，label，score)的数据格式，多个模型则会产生多个label。因此，本实施例中可以采用加权产生唯一的label。具体的，例如可以设置语义模型算法FastText的权重为0.6，KNN和LPA算法的权重分别为0.2。然后可以分别计算其加权后的分值，选择加权后分值最高的label作为待处理文本的分类标签。对于每个待处理文本，其文本内容对应的分类标签的分值可以为：

Score(Text_i,Label_i)＝0.2×Score_knni+0.2×Score_rpai+0.6×Score_fasttexti

Score(Text_i,Label_i)可以表示第i个待处理文本Text_i的分类标签为Label_i的可信度分值。

也可以利用Score(Text_i,Label_i)进行过滤排序，针对每个待处理文本Text选取分值最高的Label作为该待处理文本的分类标签。因此本说明书的另一个实施例中，所述进行加权合并后，确定所述待处理文本的分类结果，包括：

根据模型算法的权重对分类结果中的可信度分值进行加权计算；

选择加权计算后可信度分值最高的分类标签作为所待处理文本的分类标签。

具体的一个示例中，对于待处理文本s，分别经过上述KNN、LPA和FastText处理后得到的分类结果中，可信度分值分别为：KNN为80分，LPA为70分，FastText为80分。经过加权后的可信度分值分别为：KNN为80×0.2＝16分，LPA为70×0.2＝14分，FastText为80×0.6＝48分，因此可以选择FastText输出的语义分类结果中的分类标签作为该待处理文本s的分类标签。则该待处理文本s加权合并后的可信度分值为80×0.2+70×0.2+80×0.6＝78分。当然，各个模型算法的权重可以根据实际应用场景进行相应的设置。

本说明书其他的实施例中还可以根据设计需求对构建不同的处理分类模型。图4是本说明书提供的一种应用本说明书实施例方法的分类模型框架结构示意图。图4中的分类模型中使用KNN和LPA算法来进行数据增强，其中每种算法可以采用一元和二元来计算。语义模型可以选择FastText算法。然后词义模型+语义模型的结果合并融合候输出文本分类结果。

本说明书实施例提供的一种文本分类方法，可以利用一个或多个词义模型对文本数据进行调优，增加文本覆盖度，增加文本质量，从而整体提升分类准确性。另一方面本说明书实施例方案可以利用多个模型(可以选取弱模型)进行融合，快速构建轻量级文本分类实现方案，从而能够快速构建模型、优化模型，提升分类模型构建和处理效率。本说明书提供将词义模型和语义模型的结果合并融合后输出文本分类结果的实施方案，不但语料数据的质量得到提升，输出结果更加可靠，而且整体模型简单、复杂度低，能够快速迭代产生分类结果，提高了分类模型构建效率和文本分类处理效率。

本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。相关之处参见方法实施例的部分说明即可。

本说明书实施例所提供的方法实施例可以在计算机终端、服务器、服务器集群、移动终端、区块链系统、分布式网络或者类似的运算装置中执行。所述的装置可以包括使用了本说明书实施例的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。以运行在服务器上的处理设备为例，图5是应用本发明实施例的一种文本分类方法的硬件结构框图。如图5所示，服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器200、以及用于通信功能的传输模块300。本邻域普通技术人员可以理解，图5所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器10还可包括比图5中所示更多或者更少的组件，例如还可以包括其它的处理硬件，如数据库或多级缓存、显示器，或者具有与图5所示不同的配置。

存储器200可用于存储应用软件的软件程序以及模块，处理器100通过运行存储在存储器200内的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器200可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其它非易失性固态存储器。在一些实例中，存储器200可进一步包括相对于处理器100远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器10的区块链专用网络或者万维网或者通信供应商提供的网络。在一个实例中，传输模块300包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其它网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块300可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

基于上述所述的文本分类方法实施例的描述，本说明书一个或多个实施例还提供一种文本分类装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思，本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参见前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

具体地，图6是本说明书提供的一个文本分类装置实施例的模块结构示意图，如图6所示，所述装置可以包括：

文本获取模块601，可以用于获取待处理文本，所述待处理文本包括文本内容所属的分类标签；

词义增强模块602，可以用于利用预选的词义模型算法对所述待处理文本进行数据增强处理，生成增强处理文本，所述数据增强处理至少包括确定和/或纠正待处理文本所属的分类标签、产生新的数据中的一种；

语义分类模块603，可以用于利用预选的语义模型算法对所述增强处理文本进行文本分类，生成语义分类文本；

融合输出模块604，可以用于将所述增强处理文本的词义分类文本和所述语义分类文本进行合并，确定文本分类结果。

基于前述方法实施例描述，本说明书提供所述装置的另一个实施例中，所述词义增强模块602可以包括：

相似计算模块，可以用于基于待处理文本之间的相似度，确定待处理文本的相似文本序列；

KNN模型模块，可以用于基于所述待处理文本的相似文本序列，利用KNN算法输出包含文本和文本所属第一标签的第一类文本；

LPA模型模块，可以用于以待处理文本为网络节点、所述相似度为网络中节点和节点之间的边，利用LPA算法进行迭代计算，输出包含文本和文本所属第二标签的第二类文本；

合并模块，可以用于将所述第一类文本和第二类文本加权合并后，输出增强处理文本。

基于前述方法实施例描述，本说明书提供所述装置的另一个实施例中，所述语义分类模块603利用预选的语义模型算法对所述增强处理文本进行文本分类，生成语义分类文本，包括：

利用FastText算法对所述增强处理文本进行文本分类，输出包含文本和文本所属第三标签的第三类文本；

基于前述方法实施例描述，本说明书提供所述装置的另一个实施例中，所述装置还可以包括：

KNN增强模块，可以用于利用KNN算法对所述增强处理文本进行分类，得到第一分类结果；

LPA增强模块，可以用于利用LPA算法对所述增强处理文本进行分类，得到第二分类结果；

相应的，所述融合输出模块604将所述增强处理文本的词义分类文本和所述语义分类文本进行合并，确定文本分类结果包括：将所述第一分类结果、第二分类结果、语义分类结果进行加权合并后，确定所述待处理文本的分类结果。

基于前述方法实施例描述，本说明书提供所述装置的另一个实施例中，所述进行加权合并后，确定所述待处理文本的分类结果，包括：

基于前述方法实施例描述，本说明书提供所述装置的另一个实施例中，还可以包括：

文本清洗模块，可以删除所述相似度低于设置的最低相似阈值的相似文本序列。

文本裁剪模块，可以用于将待处理文本的邻居节点按照一定比例或数量进行裁剪。

图7是本说明书提供的另一个文本分类装置实施例的模块结构示意图。基于前述方法实施例描述，本说明书提供所述装置的另一个实施例中，还可以包括：

分桶处理模块70，可以用于获取待处理文本的分词，统计分词中单词的文档频度，以及根据所述单词的文档频度对单词进行分桶。

图8是本说明书提供的另一个文本分类装置实施例的模块结构示意图。基于前述方法实施例描述，本说明书提供所述装置的另一个实施例中，还可以包括：

矩阵计算模块80，可以用于构建m×n的虚拟矩阵，将分桶中的数据分发到所述虚拟矩阵的网格中执行并行计算。

需要说明的，上述所述的装置根据方法实施例的描述还可以包括其它的实施方式，具体的实现方式可以参照相关方法或系统实施例的描述，在此不作一一赘述。

本说明书中上述装置的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见或参照对应的方法实施例描述即可，每个实施例重点说明的都是与其它实施例的不同之处。相关之处参见方法实施例的部分说明即可。具体的可以根据前述方法实施例的描述的可以得到，且都应属于本申请所保护的实施范围之内，在此不做逐个实施例实现方案得到赘述。

本说明书实施例提供的上述文本分类方法或装置可以在计算机中由处理器执行相应的程序指令来实现，如使用Windows操作系统的C++语言在PC端实现、基于Linux系统实现，或其它例如使用Android、iOS系统程序设计语言在智能终端实现，或者服务器集群、云处理/云计算，以及基于量子计算机的处理逻辑实现等。本说明书实施例还提供实现上述方法或装置的一种处理设备，包括：至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现本说明书任意一个方法实施例所述的实施步骤。

本说明书还提供一种文本分类处理设备，所述的处理设备可以为包括使用了本说明书的一个或多个方法或装置或系统实施例的服务器或服务器集群，或系统中的节点、软件(应用)、或者包括量子计算机处理设备等并结合必要的实施硬件的服务器。所述处理设备包括：至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现本说明书任意一个方法实施例所述的实施步骤。

基于前述方法或装置实施例描述，本说明书还提供一种票据分类系统。如前所述，针对税务场景中票据数据的分类处理中，用户在发票开取过程中由用户填写发票中的商品名称和商品分类编码选项，由于面向的是一个开放环境，用户填写的质量参差不齐，存在填写随意多种形式描述的情况，并且商品的分类编码种类过多，需要用户有较强的专业知识，从整体来判别语料质量存在很多问题，导致分类前需要对语料进行修复调整。本说明书针对该应用场景中提供一种能快速构造轻量级方案，可以有效解决上述场景中的问题。具体的一个实施例中，所述票据分类系统可以包括至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

所述的票据文本可以包括上述用户手工填写后扫描、提前的文本数据，也可以包括用户通过页面给出的选项选择的票据文本。所述的票据可以包括发票，也可以包括收据、行程单等多种类型的语料数据。一般的，票据中的商品信息较短，通常在150字，甚至50个字以内。此类文本可以称为短文本。一般的，对于短文本的分类通常要求能够快速建立分类模型，快速输出分类结果。因此，上述实施例的文本分类方法和分类模型构建方法在短文本分类的场景中效果更加明显，有明显的技术效果提升。据此，本说明书还提供一种文本分类模型的构建方法，具体的可以包括：

如前所述，上述所述的处理设备或票据分类系统或文本分类模型构建方法实施例具体的实现方式可以参见前述文本分类方法实施例的描述。并且根据文本分类方法相关实施例的描述还可以包括其它的实施方式，具体的实现方式可以参照对应方法实施例的描述，在此不作一一赘述。

本说明书提供的上述实施例所述的方法或装置或节点可以通过计算机程序实现业务逻辑并记录在存储介质上，所述的存储介质可以计算机读取并执行，实现本说明书实施例所描述方案的效果。

上述中所述存储器的存储介质可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其它方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

上述对本说明书特定实施例进行了描述。基于上述实施例描述的可扩展的实施例仍在本说明书提供的实施范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例并不局限于必须是KNN或LPA模型/算法标准、行业通信标准、标准程序语言和数据存储规则或本说明书一个或多个实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例，仍然可以属于本说明书实施例的可选实施方案范围之内。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为服务器系统。当然，本申请不排除随着未来计算机技术的发展，实现上述实施例功能的计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。例如若使用到第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其它数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其它光学存储、磁盒式磁带，磁带磁磁盘存储、石墨烯存储或其它磁性存储设备或任何其它非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书一个或多个实施例的实施例而已，并不用于限制本本说明书一个或多个实施例。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在权利要求范围之内。

Claims

1.一种文本分类方法，包括：

2.如权利要求1所述的方法，所述利用预选的词义模型算法对所述待处理文本进行数据增强处理，生成增强处理文本，包括：

基于待处理文本之间的相似度，确定待处理文本的相似文本序列；

基于所述待处理文本的相似文本序列，利用KNN算法输出包含文本和文本所属第一标签的第一类文本；

以待处理文本为网络节点、所述相似度为网络中节点和节点之间的边，利用LPA算法进行迭代计算，输出包含文本和文本所属第二标签的第二类文本；

将所述第一类文本和第二类文本加权合并后，输出增强处理文本。

3.如权利要求2所述的方法，所述利用预选的语义模型算法对所述增强处理文本进行文本分类，生成语义分类文本，包括：

4.如权利要求2或3所述的方法，还包括：

利用KNN算法对所述增强处理文本进行分类，得到第一分类结果；

利用LPA算法对所述增强处理文本进行分类，得到第二分类结果；

5.如权利要求2所述的方法，所述进行加权合并后，确定所述待处理文本的分类结果，包括：

6.如权利要求2所述的方法，在计算出待处理文本之间的相似度之后，所述方法还包括：

删除所述相似度低于设置的最低相似阈值的相似文本序列。

7.如权利要求2所述的方法，所述方法还包括：

将待处理文本的邻居节点按照一定比例或数量进行裁剪。

8.如权利要求1所述的方法，所述方法还包括：

获取待处理文本的分词，统计分词中单词的文档频度；

根据所述单词的文档频度对单词进行分桶。

9.如权利要求8所述的方法，所述方法还包括：

构建m×n的虚拟矩阵，将分桶中的数据分发到所述虚拟矩阵的网格中执行并行计算。

10.一种文本分类装置，包括：

融合输出模块，用于将所述增强处理文本的词义分类文本和所述语义分类文本进行合并，确定文本分类结果。

11.如权利要求10所述的装置，所述词义增强模块包括：

相似计算模块，用于基于待处理文本之间的相似度，确定待处理文本的相似文本序列；

KNN模型模块，用于基于所述待处理文本的相似文本序列，利用KNN算法输出包含文本和文本所属第一标签的第一类文本；

LPA模型模块，用于以待处理文本为网络节点、所述相似度为网络中节点和节点之间的边，利用LPA算法进行迭代计算，输出包含文本和文本所属第二标签的第二类文本；

合并模块，用于将所述第一类文本和第二类文本加权合并后，输出增强处理文本。

12.如权利要求11所述的装置，所述语义分类模块利用预选的语义模型算法对所述增强处理文本进行文本分类，生成语义分类文本，包括：

13.如权利要求11或12所述的装置，所述装置还包括：

KNN增强模块，用于利用KNN算法对所述增强处理文本进行分类，得到第一分类结果；

LPA增强模块，用于利用LPA算法对所述增强处理文本进行分类，得到第二分类结果；

相应的，所述融合输出模块将所述增强处理文本的词义分类文本和所述语义分类文本进行合并，确定文本分类结果包括：将所述第一分类结果、第二分类结果、语义分类结果进行加权合并后，确定所述待处理文本的分类结果。

14.如权利要求13所述的装置，所述进行加权合并后，确定所述待处理文本的分类结果，包括：

15.如权利要求11所述的装置，还包括：

文本清洗模块，删除所述相似度低于设置的最低相似阈值的相似文本序列。

16.如权利要求11所述的装置，还可包括：

文本裁剪模块，用于将待处理文本的邻居节点按照一定比例或数量进行裁剪。

17.如权利要求10所述的装置，还包括：

分桶处理模块，用于获取待处理文本的分词，统计分词中单词的文档频度，以及根据所述单词的文档频度对单词进行分桶。

18.如权利要求17所述的装置，还包括：

矩阵计算模块，用于构建m×n的虚拟矩阵，将分桶中的数据分发到所述虚拟矩阵的网格中执行并行计算。

19.一种文本分类处理设备，包括：至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1-9中任一项所述的方法。

20.一种票据分类系统，包括至少一个处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

21.一种文本分类模型的构建方法，包括：