CN113505228A

CN113505228A - 一种多维文本数据分类方法、训练方法和装置

Info

Publication number: CN113505228A
Application number: CN202110831830.9A
Authority: CN
Inventors: 王健
Original assignee: Shanghai Hongji Information Technology Co Ltd
Current assignee: Shanghai Hongji Information Technology Co Ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-10-15

Abstract

本申请涉及多维文本数据分类领域，公开了一种多维文本数据分类方法、训练方法和装置。多维文本数据分类训练包括：将多维文本数据分为非结构化数据和结构化数据；对所述非结构化数据进行合并与分词；根据分词结果使用TF‑IDF生成每个类别的类关键词列表；对所述类关键词列表进行优化，得到最优化的类关键词列表；基于所述最优化的类关键词列表对所述非结构化数据进行分类，获输出向量S＝<s1,s2,…,sk>，其中k为类别数。从所述结构化数据提取结构数据特征向量；将所述向量S与所述结构数据特征向量拼接后作为训练样本，对分类器进行训练。本申请的多维文本数据分类训练方法适用于小样本数据，并可以基于关键词高效分类。

Description

一种多维文本数据分类方法、训练方法和装置

技术领域

本申请涉及多维文本数据分类领域，特别涉及一种多维文本数据分类方法、训练方法和装置。

背景技术

在许多工业和商业实践中，需要对文本内容进行自动分类。例如，在电网设备故障管理系统中，需要根据多个系统字段来预测故障类型。其中包括非结构化文本字段，和结构化文本字段或数值字段。

多维数据下的文本分类场景，在很多场合都可能发生，如在金融、交通等。如何有效准确的进行文本分类是一个非常有意义的技术问题。

发明内容

本申请的目的在于提供一种多维文本数据分类方法、训练方法和装置，本申请的多维文本数据分类方法、训练方法和装置适用于小样本数据，并可以基于关键词高效分类。

本申请公开了一种多维文本数据分类训练方法，包括：

将多维文本数据分为非结构化数据和结构化数据；

对所述非结构化数据进行合并与分词；

根据分词结果使用TF-IDF生成每个类别的类关键词列表；

对所述类关键词列表进行优化，得到最优化的类关键词列表；

基于所述最优化的类关键词列表对所述非结构化数据进行分类，获输出向量S＝<s1,s2,...,sk>，其中k为类别数，si的值与所述非结构化数据属于第i种类别的概率相关，i的范围是1至k；

从所述结构化数据提取结构数据特征向量；

将所述向量S与所述结构数据特征向量拼接后作为训练样本，对分类器进行训练；

其中，通过重复执行以下步骤实现对所述类关键词列表进行优化：

基于所述类关键词列表对所述非结构化数据进行分类；

评估分类性能，并根据分类性能的评估结果对所述类关键词列表中的类关键词权重进行优选。

在一个优选例中，所述根据分词结果使用TF-IDF生成每个类别的类关键词列表，进一步包括：

按照分类的类别将语料进行分组；

使用TF-IDF对所有类别中的词进行统计，找到每个类别中的TF-IDF分值最高的前J个词作为该类别的类关键词列表，J为大于1的整数。

在一个优选例中，所述基于所述类关键词列表对所述非结构化数据进行分类，进一步包括；

统计输入的所述非结构化数据中各个关键词适配各种类别的命中次数；以命中次数最多的类别作为所述非结构化数据的类别。

在一个优选例中，所述评估分类性能，并根据分类性能的评估结果对所述类关键词列表中的类关键词权重进行优选，进一步包括：

依次对每个关键词加重或减少权重后评估对分类准确性的影响，直到获得最优化的类关键词列表，所述最优化的类关键词列表包括类关键词及对应最优权重。

本申请还公开了一种多维文本数据分类方法包括：

将输入的多维文本数据分为非结构化数据和结构化数据；

对所述非结构化数据进行合并与分词；

基于各类别所对应的最优化关键词列表对所述非结构化数据进行分类并输出向量S＝<s1,s2,...,sk>，其中k为类别数，si的值与所述非结构化数据属于第i种类别的概率相关，i的范围是1至k；

从所述结构化数据提取结构数据特征向量；

根据所述向量S和所述结构数据特征向量进行分类。

在一个优选例中，所述根据所述向量S和所述结构数据特征向量进行分类，进一步包括：

当所述多维文本数据仅有非结构化部分时，取向量S中数值最大的类别作为分类结果。

当数据包括结构化数据和非结构化数据时，将所述向量S与所述结构数据特征向量拼接后输入训练好的分类器，得到分类结果。

本申请还公开了一种多维文本数据分类训练装置包括：

存储器，用于存储计算机可执行指令；以及，

处理器，与所述存储器耦合，用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。

本申请还公开了一种多维文本数据分类装置包括：

存储器，用于存储计算机可执行指令；以及，

本申请还公开了一种计算机可读存储介质所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。

本申请的多维文本数据分类方法、训练方法和装置具有如下技术效果：

(1)适用于小样本数据，可基于关键词提取对文本高效分类；

(2)对每个类别对应的关键词表中的关键词进行重要性评估的方法,并基于重要性对该词汇进行加权，以提高文本分类准确性；

(3)适用于非结构化与结构化信息共存的文本。

本申请的说明书中记载了大量的技术特征，分布在各个技术方案中，如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话，会使得说明书过于冗长。为了避免这个问题，本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征，都可以自由地互相组合，从而构成各种新的技术方案(这些技术方案均应该视为在本说明书中已经记载)，除非这种技术特征的组合在技术上是不可行的。例如，在一个例子中公开了特征A+B+C，在另一个例子中公开了特征A+B+D+E，而特征C和D是起到相同作用的等同技术手段，技术上只要择一使用即可，不可能同时采用，特征E技术上可以与特征C相组合，则，A+B+C+D的方案因技术不可行而应当不被视为已经记载，而A+B+C+E的方案应当视为已经被记载。

附图说明

图1是根据本申请第一实施方式的多维文本数据分类训练方法的流程示意图；

图2是根据本申请第二实施方式的多维文本数据分类方法的流程示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

本申请的第一实施方式涉及一种多维文本数据分类训练方法，其流程如图1所示，该方法包括以下步骤：

将多维文本数据分为N维非结构化数据和M维结构化数据。

此后进入步骤101：对非结构化数据进行合并与分词。其中包括对全部数据进行领域新词的发现。并且将新词添加到分词工具，例如：Jieba分词，利用Jieba对非结构化文本字段进行分词。

此后进入步骤103：根据分词结果使用TF-IDF生成每个类别的类关键词列表。具体地，包括：按照分类的类别将语料进行分组；使用TF-IDF对所有类别中的关键词进行统计，找到每个类别中的TF-IDF分值最高的前J个关键词，这些词最能代表这个类别，称为类关键词，并生成该类别的类关键词列表，其中J为大于1的整数。

对类关键词列表进行优化，得到最优化的类关键词列表。其中，通过重复执行以下步骤实现对类关键词列表进行优化：步骤105：基于类关键词列表对非结构化数据进行分类；步骤107:评估分类性能；步骤109：根据分类性能的评估结果对类关键词列表中的类关键词权重进行优选。可选的，依次对每个关键词加重或减少权重后评估对分类准确性的影响，直到获得最优化的类关键词列表，该最优化的类关键词列表包括类关键词及对应最优权重。

基于最优化的类关键词列表对非结构化数据进行分类，包括：统计输入的所述非结构化数据中各个关键词适配各种类别的命中次数；以命中次数最多的类别作为所述非结构化数据的类别。获输出向量S＝<s1,s2,...,sk>，其中k为类别数，si的值与非结构化数据属于第i种类别的概率相关，i的范围是1至k。

与步骤101同时进行步骤113：从结构化数据提取结构数据特征向量。

此后进入步骤115、117、119：使用最终优化后的关键词作为N维文本数据的分类特征，将向量S与结构数据特征向量拼接后作为训练样本，对分类器进行训练。

本申请的第二实施方式涉及一种多维文本数据分类方法，如图2所示，该多维文本数据分类方法包括：

将输入的多维文本数据分为非结构化数据和结构化数据。

此后进入步骤201：对非结构化数据进行合并与分词。

此后进入步骤203、205：基于各类别所对应的最优化关键词列表对非结构化数据进行分类并输出向量S＝<s1,s2,...,sk>，其中k为类别数，si的值与非结构化数据属于第i种类别的概率相关，i的范围是1至k。

与步骤201同时进行步骤213：从结构化数据提取结构数据特征向量。

根据向量S和结构数据特征向量进行分类。

当多维文本数据仅有非结构化部分时，进入步骤207、211：取向量S中数值最大的类别作为分类结果。

当数据包括结构化数据和非结构化数据时，进入步骤215、217、219：将向量S与结构数据特征向量拼接后输入训练好的分类器，得到分类结果。

第一实施方式是与本实施方式相对应的方法实施方式，第一实施方式中的技术细节可以应用于本实施方式，本实施方式中的技术细节也可以应用于第一实施方式。

本申请的第三实施方式涉及一种多维文本数据分类训练装置，该多维文本数据分类训练装置包括：

存储器，用于存储计算机可执行指令。以及处理器，与存储器耦合，用于在执行计算机可执行指令时实现如前文描述的方法中的步骤。

本申请的第四实施方式涉及一种多维文本数据分类装置，该多维文本数据分类装置包括：

为了能够更好地理解本申请的技术方案，下面结合一个具体的例子来进行说明，该例子中罗列的细节主要是为了便于理解，不作为对本申请保护范围的限制。

本申请的多维文本数据分类训练示例如下：

(1)加载缺陷样本和缺陷类别，如表1所示(每个样本都对应一个分类)表1缺陷类别-缺陷样本

缺陷类别包括：控制回路故障，导、地线接头和补修管安装距离不满足要求，安全距离不足，跳线距离不足，绝缘地线间隙，部件缺损，缺损，冷却系统缺陷，连接部件缺陷，松脱、位移，SF6气体渗漏，塔材及螺栓缺损、松动，螺栓松动、丢失，接线端子松动、断裂，销子松脱，保护帽未浇筑或损坏，带串联间隙避雷器损坏，标志牌损坏，防护设施损坏，机械损伤，接地装置损坏，密度继电器损坏，无间隙避雷器损坏，塔上异物等。

(2)对缺陷样本进行分词,得到每个缺陷样本的词汇集合。

(2.1)分词

(2.2)去停顿词

分词结果如下表2所示：

表2分类结果

(3)计算每个词汇的TF-IDF

将缺陷样本按照缺陷类别分组，每组全部样本作为一个文档(即Document)，计算词频TF和逆文档词频IDF。

(4)选择每个缺陷类别词汇集合中TF-IDF最大的J个词，作为该类别的关键词。获得的类关键词列表如表3所示：

表3类关键词列表(J＝20)

(5)针对测试数据集，进行测试，其中，测试数据集可以是全部缺陷样本或部分缺陷样本。

(5.1)对于一个测试样本，获得该样本的分词列表。判断每个词汇是否命中DefectType中的关键词，如果命中，则该Defect Type的对应分值(Score)加一。所有Type的得分值形成一个向量S＝<s1,s2,...,sk>，其中,k为缺陷类型数，得分高的为此样本的预测缺陷类型。

(5.2)针对所有测试样本进行上述计算，获得每个样本的预测缺陷类型。

(5.3)根据样本的预测缺陷类型与实际缺陷类型，计算性能评价(accuracy)。

(6)针对每个Defect Type中的每个类关键词，在类关键词列表中增加重复的该关键词。这样在执行5.1时，如果样本命中重复的该关键词，则score加上该词的数量(不是只加1)。计算重复该词后的性能评价(accuracy),如果accuracy增加，则保留该词的重复，否则取消该关键词的重复。依此类推，得到优化后的类关键词列表。

上述步骤(1)-(6)是针对非结构化数据的分类算法。上述算法可以在样本数量少，分类数量多的场合进行有效分类，其中步骤(6)可使分类相关提升1-4％。

(7)当上述非结构化数据有N列时，可以简单将N列字符串合并为一个字符串，再进行上述步骤(1)-(6)。如果样本包含M列结构化数据作为辅助分类项，则将步骤(1)-(5.1)产生的非结构化分类结果向量S＝<s1,s2,...,sk>与M列结构化数据合并形成k+M列的向量，使用常规分类器(例如:XGBoost,RandomForest等)进行分类，得到最终的分类结果。

需要说明的是，本领域技术人员应当理解，上述多维文本数据分类装置和多维文本数据分类训练装置的实施方式中所示的各模块的实现功能可参照前述多维文本数据分类方法和多维文本数据分类训练方法的相关描述而理解。上述多维文本数据分类装置和多维文本数据分类训练装置的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现，也可通过具体的逻辑电路而实现。本申请实施例上述多维文本数据分类方法和多维文本数据分类训练方法如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

相应地，本申请实施方式还提供一种计算机可读存储介质，其中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于，相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读存储介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

此外，本申请实施方式还提供一种多维文本数据分类装置和多维文本数据分类训练装置，其中包括用于存储计算机可执行指令的存储器，以及，处理器；该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中，该处理器可以是中央处理单元(Central Processing Unit，简称“CPU”)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，简称“DSP”)、专用集成电路(ApplicationSpecific Integrated Circuit，简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory，简称“ROM”)、随机存取存储器(random access memory，简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

需要说明的是，在本专利的申请文件中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中，如果提到根据某要素执行某行为，则是指至少根据该要素执行该行为的意思，其中包括了两种情况：仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。

在本说明书提及的所有文献都被认为是整体性地包括在本申请的公开内容中，以便在必要时可以作为修改的依据。此外应理解，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

Claims

1.一种多维文本数据分类训练方法，其特征在于，包括：

将多维文本数据分为非结构化数据和结构化数据；

对所述非结构化数据进行合并与分词；

根据分词结果使用TF-IDF生成每个类别的类关键词列表；

从所述结构化数据提取结构数据特征向量；

基于所述类关键词列表对所述非结构化数据进行分类；

2.如权利要求1所述的多维文本数据分类训练方法，其特征在于，所述根据分词结果使用TF-IDF生成每个类别的类关键词列表，进一步包括：

按照分类的类别将语料进行分组；

3.如权利要求1所述的多维文本数据分类训练方法，其特征在于，所述基于所述类关键词列表对所述非结构化数据进行分类，进一步包括；

4.如权利要求1所述的多维文本数据分类训练方法，其特征在于，所述评估分类性能，并根据分类性能的评估结果对所述类关键词列表中的类关键词权重进行优选，进一步包括：

5.一种多维文本数据分类方法，其特征在于，包括：

将输入的多维文本数据分为非结构化数据和结构化数据；

对所述非结构化数据进行合并与分词；

从所述结构化数据提取结构数据特征向量；

根据所述向量S和所述结构数据特征向量进行分类。

6.如权利要求5所述的多维文本数据分类方法，其特征在于，所述根据所述向量S和所述结构数据特征向量进行分类，进一步包括：

7.如权利要求5所述的多维文本数据分类方法，其特征在于，所述根据所述向量S和所述结构数据特征向量进行分类，进一步包括：

8.一种多维文本数据分类训练装置，其特征在于，包括：

存储器，用于存储计算机可执行指令；以及，

处理器，与所述存储器耦合，用于在执行所述计算机可执行指令时实现如权利要求1至4中任意一项所述的方法中的步骤。

9.一种多维文本数据分类装置，其特征在于，包括：

存储器，用于存储计算机可执行指令；以及，

处理器，与所述存储器耦合，用于在执行所述计算机可执行指令时实现如权利要求5至7中任意一项所述的方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如权利要求1至7中任意一项所述的方法中的步骤。