CN111782804B

CN111782804B - 基于TextCNN同分布文本数据选择方法、系统及存储介质

Info

Publication number: CN111782804B
Application number: CN202010519304.4A
Authority: CN
Inventors: 秦小林; 王立可; 崔小莉; 杨涌; 曹晟
Original assignee: Chengdu Information Technology Co Ltd of CAS
Current assignee: Chengdu Information Technology Co Ltd of CAS
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2023-05-02
Anticipated expiration: 2040-06-09
Also published as: CN111782804A

Abstract

本发明公开了一种基于TextCNN同分布文本数据选择方法、系统及存储介质，该方法通过对文本机器学习任务所使用的训练集和测试集的数据添加标签，使该训练集的数据的标签为0，该测试集的数据的标签为1，接着随机交换训练集与测试集的数据，构建出新的训练集与测试集；然后使用构建出的训练集与测试集，训练基于TextCNN网络结构的文本二分类模型而得到预测模型；最后，利用该预测模型对训练集的数据进行预测，得到每条数据对应的概率值p_i，并选择若干个概率值p_i较大的数据作为该文本机器学习任务的训练数据。因此，本发明通过获得每条训练数据被预测为测试数据的概率，并根据概率大小从训练数据中选择出更好的数据进行模型训练，从而提高机器学习在训练数据上的拟合能力和准确率。

Description

基于TextCNN同分布文本数据选择方法、系统及存储介质

技术领域

本发明涉及机器学习领域中的数据同分布判别技术，尤其涉及基于TextCNN同分布文本数据选择方法、系统及存储介质。

背景技术

在机器学习任务中，经常会遇到在训练集上模型表现得非常好，各项评价指标都非常高，但是模型在测试集上却表现非常差，出现这种情况可能的原因在于：训练集与测试集相差非常大，即训练集和测试集是不同分布的。因此，在机器学习任务中确定训练集与测试集特征是否同分布是很重要的工作，只有满足训练集与测试集同分布这个条件，文本机器学习任务才有意义。

而目前，通常使用KDE核密度、KL散度、MMD距离等方法来判断训练数据集与测试数据集是否为同分布，但是面对文本数据时，上述的这些方法均无法高效可靠地判定数据集是否同分布，因此，有必要提出一种高效可靠地针对文本数据同分布判定方案。

发明内容

鉴于以上所述现有技术的不足，本发明的目的在于：一种高效可靠地针对文本数据同分布判定与数据选择方案，以解决文本机器学习任务中训练数据集与测试数据集分布差距大造成模型拟合能力差的问题，使其在准确率和时间效率上均有提升。

为实现上述发明目的，本发明提供以下技术方案：

一种基于TextCNN同分布文本数据选择方法，其包括以下步骤：

S1：对文本机器学习任务所使用的训练集和测试集进行数据预处理，并选取合适的词向量维度k，对经所述数据预处理后的训练集和测试集进行字词嵌入处理；

S2：对所述训练集与所述测试集的数据添加标签，使所述训练集的数据的标签为0，所述测试集的数据的标签为1，并随机交换所述训练集与所述测试集的数据，以构建出新的训练集与测试集；

S3：利用所述训练集和所述测试集对基于TextCNN网络结构的文本二分类模型进行训练，得到预测模型；

S4：利用所述预测模型分别对所述训练集中的每条数据进行预测，并输出每条数据对应的概率值p_i；

S5：从所述训练集中选择出若干个概率值p_i较大的数据作为所述文本机器学习任务的训练数据。

根据一种具体的实施方式，本发明基于TextCNN同分布文本数据选择方法中，所述文本二分类模型为四层神经网络结构；其中，第一层为n*k的句矩阵，每行为词向量，维度为k；第二层为一维卷积层，其每个卷积核有两个输出通道；第三层为最大池化层，用于将不同长度的句子池化为一定的相同长度；第四层为全连接层+softmax层，用于输出每个类别的概率。

进一步地，本发明基于TextCNN同分布文本数据选择方法中，所述字词嵌入处理具体为：

加载训练集和测试集的数据，将句子分割成词来表示，并去除低频词和停用词；

将词映射成索引来表示，以构建词汇-索引映射表，并保存为json数据格式；

使用word2vec预训练而产生相应的词向量，以完成文字的向量表示。

进一步地，本发明基于TextCNN同分布文本数据选择方法中，步骤S3中，对所述文本二分类模型进行训练的方式为：在所述一维卷积层中利用不同尺寸的卷积核提取特征，再通过所述最大池化层进行池化，最后由全连接层将提取到的特征拼接在一起，并输入至softmax层。

进一步地，本发明基于TextCNN同分布文本数据选择方法中，步骤S5中，设置概率阈值α，从所述训练集中选择出概率值p_i大于概率阈值α的数据作为所述文本机器学习任务的训练数据。

本发明在具体实施的一方面，还提供一种基于TextCNN同分布文本数据选择系统，其特包括：

预处理模块，用于对文本机器学习任务所使用的训练集和测试集进行数据预处理；

字词嵌入处理模块，用于选取合适的词向量维度k，对经所述数据预处理后的训练集和测试集进行字词嵌入处理；

标签添加模块，用于对所述训练集与所述测试集的数据添加标签，使所述训练集的数据的标签为0，所述测试集的数据的标签为1，并随机交换所述训练集与所述测试集的数据，以构建出新的训练集与测试集；

模型训练模块，用于利用所述训练集和所述测试集对基于TextCNN网络结构的文本二分类模型进行训练，得到预测模型；

模型运行模块，用于运行所述预测模型，以分别对所述训练集中的每条数据进行预测，并输出每条数据对应的概率值p_i；

数据选择模块，用于从所述训练集中选择出若干个概率值p_i较大的数据作为所述文本机器学习任务的训练数据。

根据一种具体的实施方式，本发明基于TextCNN同分布文本数据选择系统中，所述字词嵌入处理模块包括：

数据分割子模块，用于加载训练集和测试集的数据，将句子分割成词来表示，并去除低频词和停用词；

索引映射子模块，用于将词映射成索引来表示，以构建词汇-索引映射表，并保存为json数据格式；

词向量生成子模块，用于运行word2vec进行预训练而产生相应的词向量，以完成文字的向量表示。

根据一种具体的实施方式，本发明基于TextCNN同分布文本数据选择系统中，所述标签添加模块包括：

标签添加子模块，用于对所述训练集和所述测试集添加标签，使所述训练集的标签为0，所述测试集的标签为1；

数据交换子模块，用于随机交换所述训练集与所述测试集的数据，以构建出新的训练集与测试集。

本发明在具体实施的一方面，还提供一种可读存储介质，其上存储有一个或多个程序，该一个或多个程序被一个或多个处理器执行时实现本发明基于TextCNN同分布文本数据选择方法。

与现有技术相比，本发明的有益效果：

本发明基于TextCNN同分布文本数据选择方法，该方法通过对文本机器学习任务所使用的训练集和测试集的数据添加标签，使该训练集的数据的标签为0，该测试集的数据的标签为1，接着随机交换训练集与测试集的数据，以构建出新的训练集与测试集；然后使用构建出的训练集与测试集，训练基于TextCNN网络结构的文本二分类模型，并得到预测模型；最后，利用该预测模型对训练集的数据进行预测，得到每条数据对应的概率值p_i，并从训练集中选择出若干个概率值p_i较大的数据作为该文本机器学习任务的训练数据。因此，本发明通过获得每条训练数据被预测为测试数据的概率，并根据概率大小选择训练数据，从而提高文本机器学习在训练数据上的拟合能力和准确率。

附图说明

图1为本发明方法的流程示意图；

图2为本发明基于TextCNN网络结构的文本二分类模型的结构示意图；；

图3为实施例1中tf-idf+LR模型的ROC曲线对比图；

图4为实施例1中word2vec+lstm模型的ROC曲线对比图；

图5为本发明系统的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

如图1所示，本发明基于TextCNN同分布文本数据选择方法，其包括以下步骤：

S1：对文本机器学习任务所使用的训练集和测试集进行数据预处理，并选取合适的词向量维度k，对经所述数据预处理后的训练集和测试集进行字词嵌入处理。其中，数据预处理的方式为进行数据清洗，即删除空值和无效的字符编码。

具体的，所述字词嵌入处理具体为：加载训练集和测试集的数据，将句子分割成词来表示，并去除低频词和停用词；然后，将词映射成索引来表示，以构建出词汇-索引映射表，并保存为json数据格式；然后，使用word2vec预训练模型直接根据词汇-索引映射表产生相应的词向量，以完成文字的向量表示。其中，若有词不在预训练词向量中，这种词直接用UNK表示。

S2：对所述训练集与所述测试集的数据添加标签，使所述训练集的数据的标签为0，所述测试集的数据的标签为1，然后将训练集与测试集的数据合并后重新划分训练集和测试集，划分过程完全随机。

S3：利用所述训练集和所述测试集对基于TextCNN网络结构的文本二分类模型进行训练，得到预测模型。其中，本发明基于TextCNN网络结构的文本二分类模型的结构如图2所示。该文本二分类模型为四层神经网络结构；其中，第一层为n*k的句矩阵，每行为词向量，维度为k，类比为图像中的原始像素点；第二层为kernel_sizes＝(x,y,z)的一维卷积层，其每个卷积核有两个输出通道；第三层为最大池化层，用于将不同长度的句子池化为一定的相同长度；第四层为全连接层+softmax层，用于输出每个类别的概率。

而且，文本二分类模型的训练过程具体为：将数据集划分为训练集与测试集，然后将训练集放入一维卷积层中利用不同尺寸的卷积核提取特征，再通过所述最大池化层进行池化，最后由全连接层将提取到的特征拼接在一起，并输入至softmax层。其中，训练过程中动态调整词向量，加速训练速度。

S4：利用所述预测模型分别对所述训练集中的每条数据进行预测，并输出每条数据对应的概率值p_i。由于本发明基于TextCNN网络结构的文本二分类模型最后一层为softmax层，那么该文本二分类模型输出结果为概率值。而且，概率值越接近1，则说明其分布越与测试集分布越接近，相应地，也说明该数据越适合被选择来训练模型。

S5：从所述训练集中选择出若干个概率值p_i较大的数据作为所述文本机器学习任务的训练数据。具体的，设置概率阈值α，从训练集中选择出概率值p_i大于概率阈值α的数据作为所述文本机器学习任务的训练数据。

因此，本发明通过获得每条训练数据被预测为测试数据的概率，并根据概率大小选择训练数据，从而提高文本机器学习在训练数据上的拟合能力和准确率，比如在情感识别、命名实体识别、神经网络翻译、人机对话等机器学习任务中的表现都会有所提升。

实施例

在获得一批新闻数据后，需要完成一个文本情感识别任务，但是由于训练数据集很大，需要选择出与测试数据集同分布的训练数据。

表1本实施例的相关设定参数

在本实施例中，采用python编程进行仿真，并分别使用tf-idf+LR模型与word2vec+lstm模型进行情感分析，得到如图2所示的f-idf+LR模型使用原数据集与使用本专利所选择的数据集所得到ROC曲线对比图，以及如图3所示的word2vec+lstm模型使用原数据集与使用本专利所选择的数据集所得到ROC曲线对比图。

表2给出了两种情感分析模型在原数据集和本发明选择的数据集上训练模型得到的结果，可以看出两种方法在本发明选择的数据集上均表现出了可观的提升，其中在tf-idf+LR模型上提升了8.131％，在word2vec+lstm模型上提升了2.891％。这个提升是非常可观的，说明本发明的数据选择方法的有效性和应用价值。

表2本实施例两种模型进行情感分析的实验数据表

如图5所示，本发明在具体实施的一方面，，还提供一种基于TextCNN同分布文本数据选择系统，其特包括：

具体的，本发明基于TextCNN同分布文本数据选择系统中，所述字词嵌入处理模块包括：数据分割子模块，用于加载训练集和测试集的数据，将句子分割成词来表示，并去除低频词和停用词；索引映射子模块，用于将词映射成索引来表示，以构建词汇-索引映射表，并保存为json数据格式；词向量生成子模块，用于运行word2vec进行预训练而产生相应的词向量，以完成文字的向量表示。

本发明基于TextCNN同分布文本数据选择系统中，所述标签添加模块包括：

本发明在具体实施的一方面，还提供一种可读存储介质，其上存储有一个或多个程序，其特征在于，该一个或多个程序被一个或多个处理器执行时实现本发明基于TextCNN同分布文本数据选择方法。

应该理解到，本发明所揭露的系统，可通过其它的方式实现。例如所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，模块之间的通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于TextCNN同分布文本数据选择方法，其特征在于，包括以下步骤：

S3：利用所构建的训练集和测试集对基于TextCNN网络结构的文本二分类模型进行训练，得到预测模型；

S5：从所述训练集中选择出若干个概率值p_i较大的数据作为所述文本机器学习任务的训练数据；

其中，所述文本二分类模型为四层神经网络结构；其中，第一层为n*k的句矩阵，每行为词向量，维度为k；第二层为一维卷积层，其每个卷积核有两个输出通道；第三层为最大池化层，用于将不同长度的句子池化为一定的相同长度；第四层为全连接层+softmax层，用于输出每个类别的概率；

所述字词嵌入处理具体为：

2.如权利要求1所述的基于TextCNN同分布文本数据选择方法，其特征在于，步骤S3中，对所述文本二分类模型进行训练的方式为：在所述一维卷积层中利用不同尺寸的卷积核提取特征，再通过所述最大池化层进行池化，最后由全连接层将提取到的特征拼接在一起，并输入至softmax层。

3.如权利要求2所述的基于TextCNN同分布文本数据选择方法，其特征在于，步骤S5中，设置概率阈值α，从所述训练集中选择出概率值p_i大于概率阈值α的数据作为所述文本机器学习任务的训练数据。

4.一种基于TextCNN同分布文本数据选择系统，其特征在于，包括：

数据选择模块，用于从所述训练集中选择出若干个概率值p_i较大的数据作为所述文本机器学习任务的训练数据；

其中，所述字词嵌入处理模块包括：

词向量生成子模块，用于运行word2vec进行预训练而产生相应的词向量，以完成文字的向量表示；

所述文本二分类模型为四层神经网络结构；其中，第一层为n*k的句矩阵，每行为词向量，维度为k；第二层为一维卷积层，其每个卷积核有两个输出通道；第三层为最大池化层，用于将不同长度的句子池化为一定的相同长度；第四层为全连接层+softmax层，用于输出每个类别的概率。

5.如权利要求4所述的基于TextCNN同分布文本数据选择系统，其特征在于，所述标签添加模块包括：

6.一种可读存储介质，其上存储有一个或多个程序，其特征在于，该一个或多个程序被一个或多个处理器执行时实现权利要求1～3任一项所述的基于TextCNN同分布文本数据选择方法。