CN116186257A

CN116186257A - 一种基于混合特征对短文本进行分类的方法及系统

Info

Publication number: CN116186257A
Application number: CN202211719581.5A
Authority: CN
Inventors: 王斌斌; 肖冰; 贾川; 杨瑞; 林文辉; 张平印; 刘欢欢
Original assignee: Hebei Aisino Co ltd; Aisino Corp
Current assignee: Hebei Aisino Co ltd; Aisino Corp
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-05-30

Abstract

本发明公开了一种基于混合特征对短文本进行分类的方法及系统，属于数据分类技术领域。本发明方法，包括：在用于存储短文本数据的数据库中调取批量的短文本数据，对所述短文本数据进行预处理，以得到训练数据集；根据训练数据集，对训练集数据进行特征提取，以生成文本分类模型；获取目标短文本数据，对所述目标短文本数据预处理后，输入至所述文本分类模型，对所述目标短文本数据进行分类，以得到针对所述目标短文本数据的分类数据。本发明能够提供高效的数据整理方案，并能够给用户以高效的提示信息。

Description

一种基于混合特征对短文本进行分类的方法及系统

技术领域

本发明涉及数据分类技术领域，并且更具体地，涉及一种基于混合特征对短文本进行分类的方法及系统。

背景技术

数据治理得目标是在管理数据资产的过程中，确保数据的相关决策始终是正确、及时和有前瞻性的，确保数据管理活动始终处于规范、有序和可控的状态，确保数据资产得到正确有效的管理，并最终实现数据资产价值的最大化。数据治理关乎组织的所有部门和全流程，贯穿数据的整个生命周期。要打破数据分割的窘迫，实现数据价值的最大化，就要聚合分散孤立、类型各异的数据集，将庞大的数据集进行梳理与归类并为各种数据定位使用的场景。因此，对数据进行精确分类打标签，确定其应用场景与范围成为了数据治理系统不可或缺的一环。目前数据资产标签任务主要依靠人工核准、手动操作完成，这种方式缺乏对数据的资产数据的整体把握且有一定的盲目性，遇到陌生数据时容易陷入个主观臆断、缺乏参考的标准，因此需要通过一个文本分类模型来对数据进行精准分类，赋予标签操作人员自动化操作能力且提供一个可选的标签空间方便操作人员进行修正。

目前文本分类模型大多基于文本的语义向量进行分类，经典算法主要通过CNN、RNN、BERT等模型对文本进行向量化后，借助决策树、随机森林、逻辑回归等机器学习模型实现对文本的分类。这些模型可以对已有的数据进行分类并提示标签类型，但是由于数据中语句较短、特征稀疏、多歧义等问题，造成文本分类精度较低、提示的标签不够准确。有些模型使用LDA、BTM等语义模型来扩展短文本的语义范围，以克服短文本语义不足的缺陷，但是无法挖掘与业务相关的关键词信息，造成分类精度不足。上述模型推荐的标签类型都是业务数据中预先设置的，无法进行主动推荐进而造成用户体验较差。

发明内容

针对上述问题，本发明提出了一种基于混合特征对短文本进行分类的方法，包括：

在用于存储短文本数据的数据库中调取批量的短文本数据，对所述短文本数据进行预处理，以得到训练数据集；

根据训练数据集，对训练集数据进行特征提取，以生成文本分类模型；

获取目标短文本数据，对所述目标短文本数据预处理后，输入至所述文本分类模型，对所述目标短文本数据进行分类，以得到针对所述目标短文本数据的分类数据。

可选的，根据训练数据集，对训练集数据进行特征提取，以生成文本分类模型，包括：

针对所述训练数据集，对所述训练数据集中的每条短文本数据进行混合特征的提取，并基于所述混合特征对所述训练数据集中短文本数据进行分类，以得到针对所述短文本数据的分类数据，将所述训练数据集，及所述训练数据集中每条短文本数据所对应的混合特征，作为预设训练模型的输入数据，将所述分类数据作为所述预设训练模型的输出数据；

将所述输入数据及所述输出数据，输入至预设训练模型，对所述预设训练模型进行训练，以得到文本分类模型。

可选的，预处理包括：对所述短文本数据或目标短文本数据进行清洗，以剔除重复数据和不合规数据。

可选的，混合特征，包括：语句向量特征、文本特征、关键词特征和主题特征。

可选的，方法还包括：将所述输入数据及所述输出数据，输入至预设训练模型，对所述预设训练模型进行训练，以得到文本分类模型，包括：

将所述输入数据及所述输出数据，按预设比例进行分类，以得到训练数据和验证数据，将所述训练数据输入至预设训练模型，对所述预设训练模型进行训练，以得到文本分类模型，将所述验证数据输入至文本分类模型，对所述文本分类模型进行验证，以获取验证数据，并基于所述验证数据对所述文本分类型的参数进行调整。

再一方面，本发明还提出了一种基于混合特征对短文本进行分类的系统，包括：

预处理模块，在用于存储短文本数据的数据库中调取批量的短文本数据，对所述短文本数据进行预处理，以得到训练数据集；

训练模块，用于根据训练数据集，对训练集数据进行特征提取，以生成文本分类模型；

分类模块，获取目标短文本数据，对所述目标短文本数据预处理后，输入至所述文本分类模型，对所述目标短文本数据进行分类，以得到针对所述目标短文本数据的分类数据。

可选的，将所述输入数据及所述输出数据，输入至预设训练模型，对所述预设训练模型进行训练，以得到文本分类模型，包括：

可选的，训练模块，包括：语句向量子模块，实体识别子模块，模板匹配子模块和主题提取子模块；

所述语句向量子模块，实体识别子模块，模板匹配子模块和主题提取子模块分别用于，针对训练数据集对语句向量特征、文本特征、关键词特征和主题特征进行提取。

再一方面，本发明还提供了一种计算设备，包括：一个或多个处理器；

处理器，用于执行一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，实现如上述所述的方法。

再一方面，本发明还提供了一种计算机可读存储介质，其上存有计算机程序，所述计算机程序被执行时，实现如上述所述的方法。

与现有技术相比，本发明的有益效果为：

本发明提出了一种基于混合特征对短文本进行分类的方法，包括：在用于存储短文本数据的数据库中调取批量的短文本数据，对所述短文本数据进行预处理，以得到训练数据集；根据训练数据集，对训练集数据进行特征提取，以生成文本分类模型；获取目标短文本数据，对所述目标短文本数据预处理后，输入至所述文本分类模型，对所述目标短文本数据进行分类，以得到针对所述目标短文本数据的分类数据。本发明从数据治理系统中数据资产管理角度出发，以数据标签的高效管理、自动预测、主动推荐为目的，最大化方便用户对数据资产进行汇总与分类，可以辅助其快速定位数据的应用场景。从数据整理的角度看，本发明能够提供高效的数据整理方案，并能够给用户以高效的提示信息。

附图说明

图1为本发明一种基于混合特征对短文本进行分类的方法的流程图；

图2为本发明一种基于混合特征对短文本进行分类的系统的结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

实施例1：

本发明提出了一种基于混合特征对短文本进行分类的方法，如图1所示，包括：

步骤1、步在用于存储短文本数据的数据库中调取批量的短文本数据，对所述短文本数据进行预处理，以得到训练数据集；

步骤2、根据训练数据集，对训练集数据进行特征提取，以生成文本分类模型；

步骤3、获取目标短文本数据，对所述目标短文本数据预处理后，输入至所述文本分类模型，对所述目标短文本数据进行分类，以得到针对所述目标短文本数据的分类数据。

其中，根据训练数据集，对训练集数据进行特征提取，以生成文本分类模型，包括：

其中，预处理包括：对所述短文本数据或目标短文本数据进行清洗，以剔除重复数据和不合规数据。

其中，混合特征，包括：语句向量特征、文本特征、关键词特征和主题特征。

其中，方法还包括：将所述输入数据及所述输出数据，输入至预设训练模型，对所述预设训练模型进行训练，以得到文本分类模型，包括：

实施例2：

本发明还提出了一种基于混合特征对短文本进行分类的系统200，如图2所示，包括：

预处理模块201，在用于存储短文本数据的数据库中调取批量的短文本数据，对所述短文本数据进行预处理，以得到训练数据集；

训练模块202，用于根据训练数据集，对训练集数据进行特征提取，以生成文本分类模型；

分类模块203，获取目标短文本数据，对所述目标短文本数据预处理后，输入至所述文本分类模型，对所述目标短文本数据进行分类，以得到针对所述目标短文本数据的分类数据。

其中203，根据训练数据集，对训练集数据进行特征提取，以生成文本分类模型，包括：

其中，将所述输入数据及所述输出数据，输入至预设训练模型，对所述预设训练模型进行训练，以得到文本分类模型，包括：

其中，训练模块202，包括：语句向量子模块301，实体识别子模块302，模板匹配子模块303和主题提取子模块304；

所述语句向量子模块301，实体识别子模块302，模板匹配子模块303和主题提取子模块304分别用于，针对训练数据集对语句向量特征、文本特征、关键词特征和主题特征进行提取。

下面结合实施例对本发明进行进一步的说明：

本实施例的实时过程，如下：

首先获取数据资产库中已经打标签的数据，每条数据包括文本X及其对应的标签t，并进行一些手工标注形成训练数据集。然后通过文本预处理、文本向量特征提取、主题特征提取、实体特征提取、关键词特征提取等的处理后得到文本对应的向量，以使文本数据数字化。然后将这些数据注入分类模型进行训练、参数优化，得到一个分类模型f。最后就可以利用此模型对用户输入的数据进行分类以及打标签了，如果分类标签的阈值大于r则会根据分类的结果标签给用户予以推荐，如果某条数据最大标签分值低于阈值r，则主动通过主题模型给用户进行标签推荐。采用此方法可以为数据资产的提供数据分类与标签推荐服务，最大限度提高用户的使用体验。

其中，具体包括：

首先抓取数据资产库中的标签数据，主要包括：1.金融业、2.租赁和商务服务业、3.教育、4.批发和零售业、5.房地产业、6.建筑业、7.制造业、8.农、林、牧、渔业、9.住宿和餐饮业、获取数据资产库中的关键词库形成关键词集K＝(k1，k2，k3，k4，...ki，...kp)，其中的xi表示第i个关键词。

获取数据资产库中已打标签的数据，形成训练集(X|t)。其中X为文本数据，t为文本数据对应的标签。其训练模型的过程如下：

语句向量子模块：

是对文本数据进行编码，以获取文本的语义向量。本专利采用BERT模型对训练数据中的文本进行编码，输入是文本集合A，其构建的为语义向量S＝(s1，s2，s3...si...sn)，其中si表示第i个文本对应的语义向量，其维度与BERT的初始化设置有关。

实体识别子模块：

首先需要对文本数据进行标注，其形式如“[增值税发票]{invoice}业务已经停止”其中“invoice”是“增值税”的一个标记。构建标注数据集B＝(b1，b2，...bi...bn)，构建实体标签集合E＝(e1，e2，e3...，ei，...eq)，其中ei表示第i个标签，q表示标签数量。

实体识别子模块的训练需要借助分词工具、词性识别工具的支持，本专利基于jieba工具实现文本的分词、词性识别，以获取文本的特征，然后基于CRF算法的开源工具sklearn_crfsuite完成实体识别模型的构建。训练时其输入为标注数据集B，且构建出来的特征为C＝(c1，c2，...ci，...cn)，其中ci为第i个文本对应的实体向量，如(1，0，1，0，0...)q表示此本文本中包含签集合E中的第1、3个标签，其中q表示此向量的维度。

模板匹配子模块：

识别文本中关键词如IP地址、日期、车牌号、邮编、身份证号、军官证号、组织机构代码、邮箱等数据资产中比较敏感的数据。上文已经汇总形成了关键词集合X，本模块主要是通过正则表达式，判断文本中是否具有X中的关键词。本模块的输入为文本A，构建关键词向量M＝(m1，m2，m3，...mi...mn)，其中mi表示第i个文本对应的关键词向量，如(1，1，0，0，0....)p表示此文本中包含关键词集合X中的第1，2个关键词。

主题识别子模块：

对文本进行主题向量化以及主题词的提取。本专利基于BTM模型实现短文本的主题向量化，可以得到主题词向量Z＝(z1，z2，z3，...zi，...zn)，其中zi表示第i个文本对应的主题向量。将结果中主题概率最大时对应的主题-词分布作为该文本的主题词予以保存。

通过上述模块的处理，构建分类模型训练数据集F＝(S，C，M，Z|t)。由于样本数据分布不均衡，造成有些标签对应大量的数据，有些标签对应的数据量比较少。因此，本模块首先通过SVMSMOTE算法处理样本不均衡的问题，得到训练数据集L。然后基于SVM算法实现对文本分类模型的构建，得到分类模型f。

经过上述模型的训练得到了一个NLP流水线，在预测过程中，流水线会经过动提取文本中的特征，并经过分类f的处理后得到分类结果如(0.6，0.02，0.03，...)选择其中最大的值对应的标签作为本数据对应的标签进行推荐。设定阈值r＝0.3，如果最大值对应的阈值小于r，则将主题识别中保存的主题词返回给用户，实现标签的主动推荐。

本发明从数据治理系统中数据资产管理角度出发，以数据标签的高效管理、自动预测、主动推荐为目的，最大化方便用户对数据资产进行汇总与分类，可以辅助其快速定位数据的应用场景。从数据整理的角度看，本发明能够提供高效的数据整理方案，并能够给用户以高效的提示信息。

实施例3：

基于同一种发明构思，本发明还提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能，以实现上述实施例中方法的步骤。

实施例4：

基于同一种发明构思，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于混合特征对短文本进行分类的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据训练数据集，对训练集数据进行特征提取，以生成文本分类模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述预处理包括：对所述短文本数据或目标短文本数据进行清洗，以剔除重复数据和不合规数据。

4.根据权利要求1所述的方法，其特征在于，所述混合特征，包括：语句向量特征、文本特征、关键词特征和主题特征。

5.根据权利要求2所述的方法，其特征在于，所述将所述输入数据及所述输出数据，输入至预设训练模型，对所述预设训练模型进行训练，以得到文本分类模型，包括：

6.一种基于混合特征对短文本进行分类的系统，其特征在于，所述系统包括：

7.根据权利要求6所述的系统，其特征在于，所述根据训练数据集，对训练集数据进行特征提取，以生成文本分类模型，包括：

8.根据权利要求6所述的系统，其特征在于，所述预处理包括：对所述短文本数据或目标短文本数据进行清洗，以剔除重复数据和不合规数据。

9.根据权利要求6所述的系统，其特征在于，所述混合特征，包括：语句向量特征、文本特征、关键词特征和主题特征。

10.根据权利要求7所述的系统，其特征在于，所述将所述输入数据及所述输出数据，输入至预设训练模型，对所述预设训练模型进行训练，以得到文本分类模型，包括：

11.根据权利要求6所述的系统，其特征在于，所述训练模块，包括：语句向量子模块，实体识别子模块，模板匹配子模块和主题提取子模块；

12.一种计算机设备，其特征在于，包括：

一个或多个处理器；

处理器，用于执行一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，实现如权利要求1-5中任一所述的方法。

13.一种计算机可读存储介质，其特征在于，其上存有计算机程序，所述计算机程序被执行时，实现如权利要求1-5中任一所述的方法。