CN111400606B

CN111400606B - 一种基于全局和局部信息抽取的多标签分类方法

Info

Publication number: CN111400606B
Application number: CN202010487053.6A
Authority: CN
Inventors: 张天龙; 殷姣; 马世申
Original assignee: Jiangsu Institute Of Quality And Standardization
Current assignee: Jiangsu Institute Of Quality And Standardization
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-12-01
Anticipated expiration: 2040-06-02
Also published as: CN111400606A

Abstract

本发明提供了一种基于全局和局部信息抽取的多标签分类方法，包括如下步骤：S10、通过文本数据获取词汇表，并获得所有词以及所有所述候选标签的分布式表示；S20、经计算获得所有所述词的综合全局编码结果和局部求和结果；S30、将全局编码和局部求和结果进行加权求和，获得求和结果，将每个所述候选标签的分布式表示依次与所述求和结果计算内积，获得每个所述候选标签的概率；以及S40、保留所有概率大于0.5的所述候选标签作为选中标签，输出结果。本发明的一种基于全局和局部信息抽取的多标签分类方法，通过全局和局部信息的抽取，对输入文本进行不同维度的数据处理，进一步提升数据编码的准确性，提升分类的精度。

Description

一种基于全局和局部信息抽取的多标签分类方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于全局和局部信息抽取的多标签分类方法。

背景技术

随着互联网的发展以及人工智能时代的到来，信息交流变得日益频繁，使得信息总量有着巨大增长。在电子商务广泛应用的背景下，背后的各大电商平台的海量数据将具有不可估计的挖掘价值。虽然电子商务发展迅猛，但是也存在着不少问题。其中一个重要的问题就是电子商务产品质量。

在电商数据中进行缺陷产品预测是一个全新的尝试，缺陷级别的分类属于多标签分类问题。多标签分类问题是指在一个标签集合下，一个样本可能具有多个标签。具体来说，一个产品的事件描述中，可能体现出气味、密闭性、功能性、漏电方面的问题，需要通过文本来识别出这些类别。

为了处理这个问题，有很多有效的方法被提出来。经典的方法，如BinaryRelevence（BR）将多标签分类问题转换为多个单标签的分类问题，采用独立的方式，在训练每个标签的二元分类模型时，忽略其余标签的存在，然而该方法忽视了标签之前的相关性。另外一种方法关注于神经网络的使用，尤其是Sequence-to-Sequence（seq2seq）模型在多标签分类上的应用，使该任务的指标（如micro-F1,micro-Precision）有了很大提高，然而该方法依赖于预定义的标签顺序，不同的标签顺序会对预测结果产生较大影响，同时会造成误差累计，当前时刻预测的结果会对下一时刻的预测造成较大影响，若当前时刻预测错误，会直接导致其后时刻的偏差。

发明内容

为了解决上述问题，本发明提供一种基于全局和局部信息抽取的多标签分类方法，通过全局和局部信息的抽取，对输入文本进行不同维度的数据处理，进一步提升数据编码的准确性，提升分类的精度。

为了实现以上目的，本发明采取的一种技术方案是：

一种基于全局和局部信息抽取的多标签分类方法，包括如下步骤：S10、对电商应用场景中的关于缺陷产品的文本数据进行预处理，建立词汇表，将所述词汇表中的词与候选标签通过所述词汇表转换为对应的词汇id与标签id；通过Word2Vec算法得到所述词汇表内所有词以及所有所述候选标签的分布式表示；S20、使用双向长短时记忆网络作为所述词的全局和局部编码器，经计算获得所有所述词的综合全局编码结果和局部求和结果；S30、将全局编码和局部求和结果进行加权求和，获得求和结果，将每个所述候选标签的分布式表示依次与所述求和结果计算内积，每个所述候选标签对应的内积即为每个所述候选标签的分数，将所有所述候选标签的分数归一化后，获得每个所述候选标签的概率；以及S40、保留所有概率大于0.5的所述候选标签作为选中标签，并将概率大于0.5的所述选中标签的标签id转换成对应的字符序列，输出结果。

进一步地，所述步骤S20包括：S21将当前所有所述词通过全局编码器得到全局编码结果；以及S22将当前所有所述词通过第i个类别的局部编码器，得到K个局部编码结果，将K个所述局部编码结果进行对应列求和，获得局部求和结果；其中，K为局部编码器的数量，i∈[1,K]，所述局部编码结果以及所述全局编码结果为一个行向量。

进一步地，所述步骤S30包括：S31将所述全局编码结果和所述局部求和结果进行加权求和，获得求和结果；以及S32将第j个所述候选标签对应的分布式表示与所述求和结果计算内积，计算结果代表第j个所述候选标签在当前所述文本数据的分数，将N个所述候选标签的分数归一化后，获得每个所述候选标签的概率；其中，所述全局编码结果的权值为a，所述局部求和结果的权值为1-a，a是一个可学习的参数，且为标量，满足a∈[0,1]，j∈[1,N]，N为所述候选标签的总数量。

进一步地，所述预处理包括文本分词和过滤停用词，所述文本分词为将一个所述文本数据切分成一个一个单独的词，所述停用词为不能表达产品缺陷的词。

进一步地，所述步骤S10还包括依据所述文本数据中所有词的词频，将出现频率大于20%的词保存到词汇表中，过滤出不在词汇表中的词；通过众包的方式为所述文本数据标注对应的所述候选标签，每个所述候选标签为一种缺陷的具体类别；所述词汇表中包含所述候选标签的标签id以及所述文本数据中所述词对应的词汇id。

本发明的上述技术方案相比现有技术具有以下优点：

本发明的一种基于全局和局部信息抽取的多标签分类方法，针对已有多标签分类方法的问题，考虑到电商数据中缺陷产品多标签分类任务的特点，采用神经网络与传统方法相结合的方式，在发挥神经网络方法较高的拟合能力的同时，避免生成式方法所造成的误差累计问题；并且在使用传统方法计算标签分数时，避免了标签之间的独立性所产生的影响，挖掘标签之间的相关性；通过全局编码器，从文本数据中抽取分类任务中有用的共用数据；通过局部编码器，从同一段文本数据中抽取到不同类别所关心的不同数据，进一步地提升了信息抽取效率，对输入文本进行不同维度的数据处理，进一步提升数据编码的准确性，提升分类的精度；与此同时，模型的参数相对于生成式模型较少，使得能够进一步增加模型运行的速度。

附图说明

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其有益效果显而易见。

图1所示为本发明一实施例的一种基于全局和局部信息抽取的多标签分类方法流程图；

图2所示为本发明一实施例的数据预处理过程的流程图；

图3所示为本发明一实施例的分类计算的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本实施例中，提供一种基于全局和局部信息抽取的多标签分类方法，如图1所示，包括如下步骤：S10、对电商应用场景中的关于缺陷产品的文本数据进行预处理，建立词汇表，将所述词汇表中的词与候选标签通过所述词汇表转换为对应的词汇id与标签id；通过Word2Vec算法得到所述词汇表内所有词以及所有所述候选标签的分布式表示。S20、使用双向长短时记忆网络作为所述词的全局和局部编码器，经计算获得所有所述词的综合全局编码结果和局部求和结果。S30、将全局编码和局部求和结果进行加权求和，获得求和结果，将每个所述候选标签的分布式表示依次与所述求和结果计算内积，每个所述候选标签对应的内积即为每个所述候选标签的分数，将所有所述候选标签的分数归一化后，获得每个所述候选标签的概率。以及S40、保留所有概率大于0.5的所述候选标签作为选中标签，并将概率大于0.5的所述选中标签的标签id转换成对应的字符序列，输出结果。

使用机器学习的方法对所述候选标签进行验证。将所述文本数据按8:1:1的比例，随机划分为训练集、验证集、测试集。在训练阶段采用训练集中的数据，在验证阶段采用验证集中的数据，在交付阶段采用测试集中的数据，各阶段采用的数据集之间没有交集。各阶段模型的预测效果由Hamming loss(汉明损失)来评估，表示所有标签中错误样本的比例，该值越小则模型的分类能力越强。

所述步骤S10通过众包的方式为所述文本数据标注对应的所述候选标签，每个所述候选标签为一种缺陷的具体类别。所述文本数据以<文本，对应标签>的格式保存。

如图2所示，所述预处理包括文本分词和过滤停用词，所述文本分词为将一个文本数据切分成一个一个单独的词。所述停用词包括：使用十分广泛，甚至是过于频繁的一些词，如“我”、“就”之类词几乎在每个文档上均会出现，这样的词无法准确表达文本的意思，难以提高关键字的准确性，降低处理效率；含有不良暗示、政治敏感信息的关键词，以及部分虚词，这类词对于缺陷产品分析没有助益。对于所述文本数据，确定词汇表大小，依据所有词的词频，将出现频率大于20%的词保存到词汇表中，过滤出不在词汇表中的词。处理所有文本，过滤出不在词汇表中的词。

所述词汇表中包含所述候选标签的标签id以及所述文本数据中所述词对应的词汇id。将经预处理的所述文本数据中的词通过所述词汇表转换为对应的词汇id，保证在模型运算过程中，输入的数据是数字化的。所述候选标签同样根据所述词汇表转换为对应标签id。通过Word2Vec算法得到全部所述词的分布式表示（向量形式）。类似地，将所述候选标签视作一句话，采用Word2Vec得到全部所述候选标签的分布式表示。

所述步骤S20，如图3所示，为本发明进行分类计算的流程图。作为后续操作的基础，需要将所有所述候选标签划分为几类。具体地，可通过所述候选标签自身的语义进行划分，如可划分一级标签为运动、美食等。一级标签运动所对应的二级标签，包括篮球、足球、排球等标签。若所述候选标签不包括具体的语义，如用字母序列表达的标签，如M12、C33等，可通过聚类的方法，如K-Means，将所述候选标签划分为几类，为每一类设置一个根标签，所述根标签的分布式表示可采用随机初始化的方法。聚类的原理是使用标签的共现特性。对于一个样本的标签序列中的标签，其共同出现这一特性共同预示着某些类别信息。特别地，对于K-Means算法，可通过肘型方法（Elbow method）来选取具体的分类个数，并对每一组分类情况，计算SSE（Sum of squared errors）。通过将所有所述候选标签进行分层，不再是将所有所述候选标签处于同一维度对待，可充分挖掘同一类别下标签的关联特性，进一步提升数据编码的准确性，提升分类的精度。

在以下流程中，假设共有K类候选标签，所述候选标签数量总数量为N。考虑候选标签的层级关系，可以进一步地提升模型的精度。

对所述词汇表中的词进行全局和局部编码。全局编码器是一个Bi-LSTM神经网络，作为K个类别共享的编码器，用于抽取不同类别均相关一些信息。每个类别（共K个）各有一个Bi-LSTM神经网络，用于抽取每个类别特有的数据。

所述步骤S20包括：S21将当前所有所述词通过全局编码器得到全局编码结果，作为步骤S30的输入。S22将当前所有所述词通过第i个类别的局部编码器，得到K个局部编码结果，将K个所述局部编码结果进行对应列求和，获得局部求和结果。其中，K为局部编码器的数量，i∈[1,K]，所述局部编码结果、所述全局编码结果以及所述局部求和结果为一个行向量。

所述步骤S30包括S31将所述全局编码结果和所述局部求和结果进行加权求和，获得求和结果，同样为一个行向量。求和结果综合了全局和局部编码器抽取到的特定信息。

S32将第j个所述候选标签对应的分布式表示与所述求和结果计算内积，为一个标量，计算结果代表第j个所述候选标签在当前所述文本数据的分数，将N个所述候选标签的分数归一化后，获得每个所述候选标签的概率。其中，所述全局编码结果的权值为a，所述局部求和结果的权值为1-a，a是一个可学习的参数，且为标量，满足a∈[0,1]，j∈[1,N]。

保留所有概率大于0.5的所述候选标签作为选中标签，并将概率大于0.5的所述选中标签的标签id转换成对应的字符序列，输出分类结果。

综上所述，本发明提出一种基于全局和局部信息抽取的多标签分类方法，能够通过不同级别信息的抽取提升性能，并且长短时记忆网络的参数量较少，在保证模型精度的同时提高运行速度。并针对电商缺陷产品识别给出了预处理策略，可进一步提升性能。

以上所述仅为本发明的示例性实施例，并非因此限制本发明专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于全局和局部信息抽取的多标签分类方法，其特征在于，包括如下步骤：

S10、对电商应用场景中的关于缺陷产品的文本数据进行预处理，建立词汇表，将所述词汇表中的词与候选标签通过所述词汇表转换为对应的词汇id与标签id；通过Word2Vec算法得到所述词汇表内所有词以及所有所述候选标签的分布式表示；

S20、使用双向长短时记忆网络作为所述词的全局和局部编码器，经计算获得所有所述词的综合全局编码结果和局部求和结果，其中所述全局编码器是一个Bi-LSTM神经网络，作为所有类别的共享编码器，所述全局编码器用于抽取不同类别均相关的信息，每个类别各有一个Bi-LSTM神经网络，用于抽取每个类别特有的数据；所述步骤S20包括：

S21、将当前所有所述词通过全局编码器得到全局编码结果；以及

S22、将当前所有所述词通过第i个类别的局部编码器，得到K个局部编码结果，将K个所述局部编码结果进行对应列求和，获得局部求和结果；其中，K为局部编码器的数量，i∈[1,K]，所述局部编码结果以及所述全局编码结果为一个行向量；

S30、将全局编码和局部求和结果进行加权求和，获得求和结果，将每个所述候选标签的分布式表示依次与加权求和所获得的求和结果计算内积，每个所述候选标签对应的内积即为每个所述候选标签的分数，将所有所述候选标签的分数归一化后，获得每个所述候选标签的概率；以及

S40、保留所有概率大于0.5的所述候选标签作为选中标签，并将概率大于0.5的所述选中标签的标签id转换成对应的字符序列，输出结果。

2.根据权利要求1所述的一种基于全局和局部信息抽取的多标签分类方法，其特征在于，所述步骤S30包括：

S31、将所述全局编码结果和所述局部求和结果进行加权求和，获得求和结果；以及

S32、将第j个所述候选标签对应的分布式表示与加权求和所获得的求和结果计算内积，计算结果代表第j个所述候选标签在当前所述文本数据的分数，将N个所述候选标签的分数归一化后，获得每个所述候选标签的概率；其中，所述全局编码结果的权值为a，所述局部求和结果的权值为1-a，a是一个可学习的参数，且为标量，满足a∈[0,1]，j∈[1,N]，N为所述候选标签的总数量。

3.根据权利要求1所述的一种基于全局和局部信息抽取的多标签分类方法，其特征在于，所述预处理包括文本分词和过滤停用词，所述文本分词为将一个所述文本数据切分成一个一个单独的词，所述停用词为不能表达产品缺陷的词。

4.根据权利要求2所述的一种基于全局和局部信息抽取的多标签分类方法，其特征在于，所述步骤S10还包括依据所述文本数据中所有词的词频，将出现频率大于20％的词保存到词汇表中，过滤出不在词汇表中的词；通过众包的方式为所述文本数据标注对应的所述候选标签，每个所述候选标签为一种缺陷的具体类别；所述词汇表中包含所述候选标签的标签id以及所述文本数据中所述词对应的词汇id。