CN115759027A

CN115759027A - 文本数据处理系统及方法

Info

Publication number: CN115759027A
Application number: CN202211490199.1A
Authority: CN
Inventors: 张福缘; 陈晓峰; 何盼
Original assignee: Shanghai Cangque Information Technology Co ltd
Current assignee: Shanghai Cangque Information Technology Co ltd
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-03-07
Anticipated expiration: 2042-11-25
Also published as: CN115759027B

Abstract

本发明提供了一种文本数据处理系统及方法，包括：文本分层模块、分层采样模块和数据划分模块；文本分层模块用于根据原文本之间的相似度对原文本进行分层，得到标准模板文本二元组集和基础模板文本三元组集；分层采样模块用于根据基础模板文本三元组集对标准模板文本二元组集进行采样，得到采样文本组集；数据划分模块用于将采样文本组集划分为训练集和验证集。本发明可以提高数据集中样本分布的均衡性。

Description

文本数据处理系统及方法

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种文本数据处理系统及方法。

背景技术

在金融风控领域中，经常会涉及大量多类别分类任务，且涉及的未标注文本往往是百万级以上，将这些海量文本去重后完成一次性人工打标工作量处理几乎是不现实的处理方式。基于此，传统处理方法则是先通过采样得到采样文本，再将采样文本划分为训练集/验证集/测试集等。通常采用的采样方法分为：随机采样和聚类分层采样。然而，两种采样方式得到的采样数据均存在分布不均衡的问题，无法满足全部类别文本的采样训练要求；其次，在深度学习领域，数据集划分中，通用的做法一般都是按比例随机划分训练集/验证集/测试集，由于随机性误差，这种划分方式不易兼顾样本的分布以及重点类别的关注度，且训练出的神经网络模型其预测类别的精度存在一定的随机性，尤其是对于一些样本较少的类别其预测准确性往往难以保证。综上所述，现有的数据集划分方法中，存在样本分布不均衡的问题，从而影响模型训练的准确性。

发明内容

有鉴于此，本发明的目的在于提供一种文本数据处理系统及方法，以提高了数据集中样本分布的均衡性。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种文本数据处理系统，包括：文本分层模块、分层采样模块和数据划分模块；文本分层模块用于根据原文本之间的相似度对原文本进行分层，得到标准模板文本二元组集和基础模板文本三元组集；分层采样模块用于根据基础模板文本三元组集对标准模板文本二元组集进行采样，得到采样文本组集；数据划分模块用于将采样文本组集划分为训练集和验证集。

在一种实施方式中，文本分层模块包括：第一子模块、第二子模块和第三子模块；第一子模块用于：根据预先设定的规则处理器对原文本进行处理，得到标准模板文本，并将标准模板文本与原文本进行对齐，得到标准模板文本二元组集；其中，标准模板文本二元组包括：标准模板文本和标准模板文本对应的原文本；第二子模块用于：根据标准模板文本匹配相似度算法，并根据匹配到的相似度算法计算标准模板文本二元组集中每两个标准模板文本二元组的相似度，以及剔除相似度大于相似度阈值的标准模板文本二元组，得到基础模板文本二元组；其中，基础模板文本二元组包括：基础模板文本和基础模板文本对应的原文本；第二子模块还用于：统计剔除的标准模板文本二元组的频数，并将频数添加到基础模板文本二元组中，得到基础模板文本三元组集；第三子模块用于：根据第二子模块确定的语种风格、标准模板文本的字符长度或分词长度匹配对应的相似度阈值的经验计算公式，并基于相似度阈值的经验计算公式计算相似度阈值，将相似度阈值发送至第二子模块。

在一种实施方式中，第二子模块还用于：将第一预设数量的原文本与预先确定的各语种语言字符词典进行匹配，确定原文本的语种风格，并根据语种风格匹配相似度算法。

在一种实施方式中，分层采样模块用于：根据基础模板文本三元组集中的频数，判断是否进行采样；如果频数大于第一频数阈值，则根据频数和第一采样算法确定采样数，并基于采样数对标准模板文本二元组集进行采样，得到采样文本组集。

在一种实施方式中，分层采样模块还用于：如果频数大于第二频数阈值，则根据频数和第二采样算法确定采样数，并基于采样数对标准模板文本二元组集进行采样，得到初始采样文本；将初始采样文本进行分段，并在每段抽取第二预设数量的初始采样文本作为采样文本组集；其中，第二频数阈值大于第一频数阈值。

在一种实施方式中，分层采样模块还用于：对基础模板文本三元组集进行标注，得到标签信息；根据基础模板文本三元组集中的频数判断是否进行采样；如果频数大于第一频数阈值，则根据标签信息确定采样算法，并根据频数和采样算法确定采样数；基于采样数对标准模板文本二元组集进行采样，得到采样文本组集。

在一种实施方式中，分层采样模块还用于：将频数小于第一频数阈值的基础模板文本三元组中的基础模本文本和基础模本文本对应的原文本合并到采样文本组集中，得到最终的采样文本组集。

在一种实施方式中，数据划分模块用于：将采样文本组集划分为基础模板文本和采样文本；将基础模板文本对应的原文本划分为第一训练集和第一验证集；将采样文本划分对应的原文本划分为第二训练集和第二验证集；将第一训练集和第二训练集合并为训练集，以及将第一验证集和第二验证集合并为训练集。

第二方面，本发明实施例提供了一种文本数据处理方法，该方法应用于上述第一方面提供的任一项的文本数据处理系统，该方法包括：获取原文本，并根据原文本之间的相似度对原文本进行分层，得到标准模板文本二元组集和基础模板文本三元组集；根据基础模板文本三元组集对标准模板文本二元组集进行采样，得到采样文本组集；将采样文本组集划分为训练集和验证集。

在一种实施方式中，将采样文本组集划分为训练集和验证集，包括：将采样文本组集划分为基础模板文本和采样文本；将基础模板文本对应的原文本划分为第一训练集和第一验证集；将采样文本划分对应的原文本划分为第二训练集和第二验证集；将第一训练集和第二训练集合并为训练集，以及将第一验证集和第二验证集合并为训练集。

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述第二方面提供的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述第二方面提供的方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供的上述文本数据处理系统及方法，该系统包括：文本分层模块、分层采样模块和数据划分模块；文本分层模块用于根据原文本之间的相似度对原文本进行分层，得到标准模板文本二元组集和基础模板文本三元组集；分层采样模块用于根据基础模板文本三元组集对标准模板文本二元组集进行采样，得到采样文本组集；数据划分模块用于将采样文本组集划分为训练集和验证集。上述系统首先根据原文本之间的相似度进行数据分层，能够得到满足一定差异性的基础模板文本；然后，根据基础模板文本进行采样，能够提高采样文本组集中数据分布的均衡性和多样性，进而利用由采样文本组集划分得到的训练集和验证集进行模型训练，由于训练集的数据分布更加均衡和多样，从而能够提高模型的准确性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文本数据处理系统的结构图；

图2为本发明实施例提供的一种文本分层模块的架构图；

图3为本发明实施例提供的一种分层采样模块的架构图；

图4为本发明实施例提供的一种数据划分模块的架构图；

图5为本发明实施例提供的一种文本数据处理方法的流程图；

图6为本发明实施例提供的一种电子设备的结构示意图。

图标：

101-文本分层模块；102-分层采样模块；103-数据划分模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，对于海量文本的数据集的划分通常是先通过采样得到采样文本，再将采样文本划分为训练集/验证集/测试集等。通常采用的采样方法分为：随机采样和聚类分层采样。然而，随机采样方式经常会忽略掉一些中低频的样本，而风控领域中，很多重要的业务指标性分类的文本往往都来自于一些中低频的样本，这会使得后续在训练算法模型，学习这些采样样本的过程中，难以学习到一些关键、重要的分类特征，使得后续模型在上线过程中难以取得较好的实际效果。对于常规的聚类分层抽样方式，则是将大量文本分为多个类别，再依次按分层的类别各抽取一定数量的样本后再进行融合，这种方式相比于随机采样极大地提升了样本覆盖度与丰富度，但是，由于聚类方式往往是自动形成的若干分层的类别，且类别划分粒度不够细，同时划分粒度控制精度也难以把握，对于一些重要类别文本，其依旧缺乏关注度，这种自动生成的分层采样方式也难以满足一些低频重要类别的采样训练要求；另外，大致的分层划分很难更深化的具体样本分布情况。

其次，在深度学习领域，数据集划分中，通用的做法一般都是按比例随机划分训练集/验证集/测试集，由于随机性误差，这种划分方式不易兼顾样本的分布以及重点类别的关注度，且训练出的神经网络模型其预测类别的精度存在一定的随机性，尤其是对于一些样本较少的类别其预测准确性往往难以保证。综上所述，现有的数据集划分方法中，存在样本分布不均衡的问题，从而影响模型训练的准确性。

基于此，本发明实施例提供的一种文本数据处理系统及方法，可以提高数据集中样本分布的均衡性。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种文本数据处理系统进行详细介绍，参见图1所示的一种文本数据处理系统的结构图，示意出该系统主要包括：文本分层模块101、分层采样模块102和数据划分模块103。

文本分层模块101用于根据原文本之间的相似度对原文本进行分层，得到标准模板文本二元组集和基础模板文本三元组集。在一种实施方式中，文本分层模块101的逻辑基础是原文本之间的相似度，根据相似度生成大量满足一定差异性的基础模板文本。具体的，文本分层模块101可以先对原文本进行预处理，得到标准模板文本二元组集，然后根据原文本之间的相似度对原文本进行去重，得到满足一定差异性的基础模板文本三元组集。

分层采样模块102用于根据基础模板文本三元组集对标准模板文本二元组集进行采样，得到采样文本组集。在一种实施方式中，分层采样模块102的采样数据是文本分层模块101得到的标准模板文本二元组集，采样的基础文本是文本分层模块101得到的基础模板文本三元组集，即根据基础模板文本三元组集进行采样计算，并对标准模板文本二元组集实施采样，得到采样文本组集。具体的，采样方式包括自动采样方式和人工标注后采样方式。

数据划分模块103用于将采样文本组集划分为训练集和验证集。在一种实施方式中，数据划分模块103是基于前述分层采样模块102得到的特定分布的采样文本组集来展开的，在具体实施时，数据集的划分分为两个阶段进行，第一阶段将所有基础文本对应的原文本进行划分，第二阶段将剩余的采样文本进行随机划分，并将两次划分的结果进行合并后得到最终的训练集和验证集。

本发明实施例提供的上述文本数据处理系统，首先根据原文本之间的相似度进行数据分层，能够得到满足一定差异性的基础模板文本；然后，根据基础模板文本进行采样，能够提高采样文本组集中数据分布的均衡性和多样性，进而利用由采样文本组集划分得到的训练集和验证集进行模型训练，由于训练集的数据分布更加均衡和多样，从而能够提高模型的准确性。

可选的，上述文本分层模块包括：第一子模块、第二子模块和第三子模块：

第一子模块用于：根据预先设定的规则处理器对原文本进行处理，得到标准模板文本，并将标准模板文本与原文本进行对齐，得到标准模板文本二元组集；其中，标准模板文本二元组包括：标准模板文本和标准模板文本对应的原文本。

在具体实施时，第一子模块即文本统一模块，为了去掉原文本中不必要的复杂度，第一子模块中预先设定了规则处理器，规则处理器可以将连续的数字字符串、网址地址字符串、一些文本固定格式抬头与结尾等统一替换为预先定义好的特定标识符，以形成标准模板文本；同时将处理后的标准模板文本与原文本进行对齐操作，即形成标准模板文本与对应原文本的标准模板文本二元组(标准模板文本，原文本)。此外，该文本统一模块在后续模型学习与预测的数据预处理环节可以同步保留使用，在进行预处理后的分词操作中，其分词出来的这些特定标识符不会被当作停用词而得以保留。

第二子模块用于：将第一预设数量的原文本与预先确定的各语种语言字符词典进行匹配，确定原文本的语种风格，并根据语种风格匹配相似度算法；根据匹配到的相似度算法计算标准模板文本二元组集中每两个标准模板文本二元组的相似度，并剔除相似度大于相似度阈值的标准模板文本二元组，得到基础模板文本二元组；其中，基础模板文本二元组包括：基础模板文本和基础模板文本对应的原文本；统计剔除的标准模板文本二元组的频数，并将频数添加到基础模板文本二元组中，得到基础模板文本三元组集。

在具体实施时，第二子模块即相似度去重模块，相似度去重的依据是根据第一子模块处理得到的标准模板文本进行相似度计算，相似度的计算方法根据原文本的语种风格决定。基于此，第二子模块首先通过随机抽取第一预设数量的原文本匹配预先设定的各语种高频(Top100)语言字符字典，即通过计算原文本与各语种语言字符词典中各语言字符的相似度，得到原文本与各语种风格的匹配度，并根据匹配度排序确定原文本的语种风格；然后，第二子模块可以根据语种风格匹配相似度算法(诸如：计算字符相似度、simHash相似度算法等)，并根据匹配到的相似度算法计算标准模板文本二元组集中每两个标准模板文本二元组的相似度，如果两两标准模板文本的相似度大于相似度阈值，则剔除其中一个标准模板文本二元组，否则保留，以达到相似度去重的操作，得到基础模板文本二元组。

进一步，考虑到样本不均衡性的分布情况，在生成基础模板文本的过程中，第二子模块中还设定了计数功能，即统计因与基础模板文本相似度接近被剔除的标准模板文本二元组的频数N，并将频数添加到基础模板文本二元组中，最终得到相互之间具有一定差异性的基础模板文本三元组(基础模板文本，原文本，频数)集。

第三子模块用于：根据第二子模块确定的语种风格、标准模板文本的字符长度或分词长度匹配对应的相似度阈值的经验计算公式，并基于相似度阈值的经验计算公式计算相似度阈值，并将相似度阈值发送至第二子模块。

在具体实施时，第三子模块即阈值自适应调整模块，主要用于辅助第二子模块。一般的相似度去重做法为固定某个相似度阈值下限来进行剔除操作，而第三子模块提供了一套精准、可变的处理方式来对相似度阈值进行动态调整。具体的，第三子模块可以根据第一子模块生成的标准模板文本二元组中的标准模板文本，进行文本字符长度或分词后词组个数L的计算，然后根据预先确定的相似度下限阈值的经验计算公式R(L)，计算出相似度阈值，并将相似度阈值返回至第二子模块，之后第二子模块会根据第三子模块输出的相似度阈值R(L)来进行相似度去重操作。其中，相似度阈值的经验计算公式R(L)包括：R(L)＝3+max(10*(1-L/100),0)，或者，R(L)＝0.75+max(0.25*(1-L/200),0)。需要说明的是，经验公式一般非通用，可根据实际情况进行修改。

为了便于理解，本发明实施例还提供了一种文本分层模块的架构图，参见图2所示，具体包括：第一，将海量文本输入到文本统一模块，通过规则处理器将连续的数字字符串、网址地址字符串、一些文本固定格式抬头与结尾等统一替换为预先定义好的特定标识符，以形成标准模板文本；同时将处理后的标准模板文本与原文本进行对齐操作，即形成标准模板文本与对应原文本的标准模板文本二元组(标准模板文本，原文本)。第二，将标准模板文本二元组输入到相似度去重模块进行相似度计算与去重，具体的，先抽取第一预设数量的原文本匹配预先设定的各语种高频(Top100)语言字符字典，确定语种风格，并根据语种风格确定相似度计算方法，计算标准模板文本二元组集中每两个标准模板文本二元组的相似度，如果两两标准模板文本的相似度大于相似度阈值，则剔除其中一个标准模板文本二元组，否则保留，以达到相似度去重的操作。同时，统计因与基础模板文本相似度接近被剔除的标准模板文本二元组的频数N，得到基础模板文本三元组(基础模板文本，原文本，频数)集。第三，通过阈值自适应调整模块根据文本统一模块生成的标准模板文本二元组中的标准模板文本，进行文本字符长度或分词后词组个数L的计算，并根据相似度去重模块确定的语种风格去匹配对应的相似度阈值的经验计算公式，诸如：根据汉明距离计算相似度阈值，或者根据字符相似度计算相似度阈值。

可选的，分层采样模块即采样模块，其采样原理中的采样数据是基于文本分层模块后得到的标准模板文本二元组，采样的基础文本是基于含频数信息的去重基础模板文本三元组进行采样计算，并实施分层采样。考虑到实际应用中存在对某些特定少量类别样本集的重点关注性及相应预测高准确性的特殊要求，采样方式可以被分为两种方式来选择进行，即：自动采样方式和人工标注后采样方式。

(1)自动采样方式

分层采样模块用于：根据基础模板文本三元组集中的频数，判断是否进行采样；如果频数大于第一频数阈值，则根据频数和第一采样算法确定采样数，并基于采样数对标准模板文本二元组集进行采样，得到采样文本组集；如果频数大于第二频数阈值，则根据频数和第二采样算法确定采样数，并基于采样数对标准模板文本二元组集进行采样，得到初始采样文本；将初始采样文本进行分段，并在每段抽取第二预设数量的初始采样文本作为采样文本组集；其中，第二频数阈值大于第一频数阈值。

在具体实施时，自动采样方式即没有任何人工干预，其自适应采样策略完成依据前述文本分层模块的频数N来自动判断并完成采样。在采样判断时，当基础模板文本三元组集中的频数N大于第一频数阈值时，则进行采样操作，其采样数通过经验公式F1(N)(即第一采样算法)计算得到。同时，针对一些中高频文本，本发明实施例提供了一种分段采样策略，即当频数N大于第二频数阈值(第二频数阈值大于第一频数阈值)时，实际采样数多倍于采样数，即：实际采样数F＝k*F1(N)(即第二采样算法)，此时，对中高频文本采样可以得到F个初始采样文本；然后将采样得到的F个初始采样文本按照与基础模板文本的相似度进行排序，并将排序后的初始采样文本分成m段，每段抽取前F1(N)/m(即第二预设数量)个样本，最终合并为F1(N)个采样样本，得到采样文本组集；对于频数N大于第一频数阈值且小于第二频数阈值的低频文本，则直接根据经验公式F1(N)计算采样数，并对标准模板文本二元组集进行采样，得到采样文本组集，最后将低频文本、中高频文本得到的采样文本组集合并，并将极低频基础模板文本(即频数小于第一频数阈值的文本)，则直接保留到采样文本组集中，得到最终的采样文本组集。

本发明实施例中，通过计算采样与分段采样策略的结合方式，可达到中低频样本过度采，高频样本适度采的效果，同时扩大了中高频采样样本的丰富性与差异性，最终达到模型学习训练的样本集既多样且均衡，对于极低频基础模板文本，则直接保留到采样样本中，另外，文本频率的定级是依据样本相似度计数情况(即频数)与业务需求而定。

(2)人工标注后采样方式

分层采样模块用于：对基础模板文本三元组集进行标注，得到标签信息；根据基础模板文本三元组集中的频数判断是否进行采样；如果频数大于第一频数阈值，则根据标签信息确定采样算法，并根据频数和采样算法确定采样数；基于采样数对标准模板文本二元组集进行采样，得到采样文本组集。

在具体实施时，人工标注后采样方式与自动采样方式的最大区别在于：第一，对经过文本分层模块得到的基础模板文本三元组集增加了人工标注环节，之后才进行采样，第二，在采样判断与采样数的计算逻辑中需同时依赖频数N和人工标签信息T。在采样环节中，对于重点关注标签类别的极低频样本，其依旧参与后续采样计算；在采样计算逻辑中，对于属于重点关注的类别标签T(T∈{T1、T2、T3...Tn})，其采样数的经验计算公式为F2(N,T)，对于不属于重点关注的类别标签T

则采样数的经验计算公式为F1(N)，其后的采样方式均依旧沿用前述的自动采样方式以及分段策略等。需要指出的是，由于数据的人工标注是算法模型训练前的必备环节，实际实施过程中，一般建议采用人工标注后采样方式，通过分层采样得到的大规模训练数据集会沿用对应的基础模板文本的标签信息T，而后续只需进行相应校正，便可完成全量采样样本的快速标注。

具体的，首先，根据基础模板文本三元组集中的频数N判断是否进行采样，如果频数大于第一频数阈值，则进行采样，然后根据标签信息T确定采样算法，即当T(T∈{T1、T2、T3...Tn})时，根据经验计算公式F2(N,T)计算采样数，当T

时，根据验计算公式F1(N)计算采样数；同时，对于低频文本直接进行采样，对于中高频文本采用前述分段采样策略进行采样，对于极低频文本直接将基础模板文本保留至采样文本组集中，得到最终的采样文本组集。

为了便于理解，本发明实施例还提供了一种分层采样模块的架构图，参见图3所示，具体包括：对于自动采样方式：首先，根据基础模板文本三元组集中的频数N判断是否采样，如果采样，对于低中高频文本，按照经验公式F1(N)计算采样数Fx，并计算采样总数F＝k*Fx(需要注意的是，低频文本的频数N≤k*Fx，故取F＝Fx)；然后，对于低频文本，直接根据采样总数对标准模板文本二元组集进行采样，得到F个采样文本1(也即Fx个采样文本2)，对于中高频文本，对采样总数对标准模板文本二元组集进行采样得到F个采样文本1，然后，将F个采样文本1分成m段，每段抽取前Fx/m(即第二预设数量)个样本，最终合并为Fx个采样样本2；同时，将极低频的基础模板文本直接合并到采样文本2中得到最终的采样文本。

对于人工标注后采样方式：首先，根据基础模板文本三元组集中的频数N判断是否采样，如果采样，对于低中高频文本，属于重点关注的类别标签按照经验公式F2(N,T)计算采样数Fx，不属于重点关注的类别标签按照经验公式F1(N)计算采样数Fx，并计算采样总数F＝k*Fx(需要注意的是，低频文本的频数N≤k*Fx，故取F＝Fx)；然后，对于低频文本，直接根据采样总数对标准模板文本二元组集进行采样，得到F个采样文本1(也即Fx个采样文本2)，对于中高频文本，对采样总数对标准模板文本二元组集进行采样得到F个采样文本1，然后，将F个采样文本1分成m段，每段抽取前Fx/m(即第二预设数量)个样本，最终合并为Fx个采样样本2；同时，将极低频且非重点关注有标注的基础模板文本直接合并到采样文本2中得到最终的采样文本。

在具体实施中，F1(N)和F2(N,T)均为分段函数：(1)F1(N)：常数或f1*N{系数f1取值范围:10e-4～1}；(2)F2(N,T)：T(T∈{T1、T2、T3...Tn})条件下分段判断取值：常数或f2*N{系数f1取值范围:10e-4～1}。

可选的，数据划分模块用于：将采样文本组集划分为基础模板文本和采样文本；将基础模板文本对应的原文本划分为第一训练集和第一验证集；将采样文本划分对应的原文本划分为第二训练集和第二验证集；将第一训练集和第二训练集合并为训练集，以及将第一验证集和第二验证集合并为训练集。

在具体实施中，参见图4所示的一种数据划分模块的架构图，将采样文本组集划分为基础模板文本和采样文本；数据集的划分分为两个阶段进行，第一阶段，将基础模板文本对应的原文本划分为第一训练集和第一验证集；第二阶段，将剩余的采样文本对应的原文本通过随机划分模块随机划分为第二训练集和第二验证集，并最终将两类数据集合并，得到训练集和验证集。

本发明实施例提供的上述系统，结合短文本的特点情况，尤其涉及风控领域中，常常面临的标注文本数量巨大、分布不均衡性、不同标签的重要性以及多样性等问题，提供了一套自适应文本分层、采样与训练数据划分的系统，其能够根据海量文本的特点与业务的需求自动地调节相应参数，并据此提供了适合于该分层采样模式下算法模型需要的数据集划分方式，使得构建算法模型的过程在样本数据分析与采样、数据划分阶段就变得自动、智能且精准化，其能自动精准地生成出算法模型所需的均衡、多样、数量适中且具备类别侧重性的高质量训练学习样本，这使得算法模型的实际提升潜力在学习训练的样本源选择上就得到了根本性的改善与保障，并在一定程度上改善算法预测的泛化能力与增加预测准确度的侧重性。

在各类文本数据源中，尤其涉及风控领域的海量相似度较高的短文本数据源中，本发明实施例提供的上述系统可将海量待标注的不重复文本缩小至原规模数据的1/1000以下，另外，在采样环节新增的大量采样训练文本，通过人工标注后采样方式，可以使得所有采样文本自动标注，由于相似度下类别的相关性，后续只需人工快速校正即可。

对于前述文本数据处理系统，本发明实施例还提供了一种文本数据处理方法，参见图5所示的一种文本数据处理方法的流程图，示意出该方法主要包括以下步骤S501至步骤S503：

步骤S501：获取原文本，并根据原文本之间的相似度对原文本进行分层，得到标准模板文本二元组集和基础模板文本三元组集。

步骤S502：根据基础模板文本三元组集对标准模板文本二元组集进行采样，得到采样文本组集。

步骤S503：将采样文本组集划分为训练集和验证集。

本发明实施例提供的上述文本数据处理方法，首先根据原文本之间的相似度进行数据分层，能够得到满足一定差异性的基础模板文本；然后，根据基础模板文本进行采样，能够提高采样文本组集中数据分布的均衡性和多样性，进而利用由采样文本组集划分得到的训练集和验证集进行模型训练，由于训练集的数据分布更加均衡和多样，从而能够提高模型的准确性。

在一种实施方式中，在将采样文本组集划分为训练集和验证集时，可以采用包括但不限于以下方式：首先，将采样文本组集划分为基础模板文本和采样文本；然后，将基础模板文本对应的原文本划分为第一训练集和第一验证集；接着，将采样文本划分对应的原文本划分为第二训练集和第二验证集；最后，将第一训练集和第二训练集合并为训练集，以及将第一验证集和第二验证集合并为训练集。

需要说明的是，本发明实施例所提供的方法，其实现原理及产生的技术效果和前述系统实施例相同，为简要描述，方法实施例部分未提及之处，可参考前述系统实施例中相应内容。本发明实施中提供的语种匹配字典、匹配相似度算法及对应阈值经验公式、采样数计算Fx的对应函数、采样总数F的计算规则、分段策略及对应分段m值、随机划分模块等，仅为是示例性的，在此不做限定。

本发明实施例还提供了一种电子设备，具体的，该电子设备包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被处理器运行时执行如上实施方式的任一项所述的方法。

图6为本发明实施例提供的一种电子设备的结构示意图，该电子设备100包括：处理器60，存储器61，总线62和通信接口63，所述处理器60、通信接口63和存储器61通过总线62连接；处理器60用于执行存储器61中存储的可执行模块，例如计算机程序。

其中，存储器61可能包含高速随机存取存储器(RAM，Random Acc ess Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器61用于存储程序，所述处理器60在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中，或者由处理器60实现。

处理器60可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61，处理器60读取存储器61中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见前述方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Me mory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文本数据处理系统，其特征在于，包括：文本分层模块、分层采样模块和数据划分模块；

所述文本分层模块用于根据原文本之间的相似度对所述原文本进行分层，得到标准模板文本二元组集和基础模板文本三元组集；

所述分层采样模块用于根据所述基础模板文本三元组集对所述标准模板文本二元组集进行采样，得到采样文本组集；

所述数据划分模块用于将所述采样文本组集划分为训练集和验证集。

2.根据权利要求1所述的系统，其特征在于，所述文本分层模块包括：第一子模块、第二子模块和第三子模块；

所述第一子模块用于：根据预先设定的规则处理器对所述原文本进行处理，得到标准模板文本，并将所述标准模板文本与所述原文本进行对齐，得到标准模板文本二元组集；其中，所述标准模板文本二元组包括：标准模板文本和所述标准模板文本对应的原文本；

所述第二子模块用于：根据所述标准模板文本匹配相似度算法，并根据匹配到的相似度算法计算所述标准模板文本二元组集中每两个标准模板文本二元组的相似度，以及剔除所述相似度大于相似度阈值的标准模板文本二元组，得到基础模板文本二元组；其中，所述基础模板文本二元组包括：基础模板文本和所述基础模板文本对应的原文本；

所述第二子模块还用于：统计剔除的标准模板文本二元组的频数，并将所述频数添加到所述基础模板文本二元组中，得到基础模板文本三元组集；

所述第三子模块用于：根据所述第二子模块确定的语种风格、所述标准模板文本的字符长度或分词长度匹配对应的相似度阈值的经验计算公式，并基于所述相似度阈值的经验计算公式计算所述相似度阈值，将所述相似度阈值发送至所述第二子模块。

3.根据权利要求2所述的系统，其特征在于，所述第二子模块还用于：将第一预设数量的原文本与预先确定的各语种语言字符词典进行匹配，确定所述原文本的语种风格，并根据所述语种风格匹配所述相似度算法。

4.根据权利要求1所述的系统，其特征在于，所述分层采样模块用于：根据所述基础模板文本三元组集中的频数，判断是否进行采样；如果所述频数大于第一频数阈值，则根据所述频数和第一采样算法确定采样数，并基于所述采样数对所述标准模板文本二元组集进行采样，得到采样文本组集。

5.根据权利要求4所述的系统，其特征在于，所述分层采样模块还用于：如果所述频数大于第二频数阈值，则根据所述频数和第二采样算法确定采样数，并基于所述采样数对所述标准模板文本二元组集进行采样，得到初始采样文本；将所述初始采样文本进行分段，并在每段抽取第二预设数量的初始采样文本作为采样文本组集；其中，所述第二频数阈值大于所述第一频数阈值。

6.根据权利要求4所述的系统，其特征在于，所述分层采样模块还用于：对所述基础模板文本三元组集进行标注，得到标签信息；根据所述基础模板文本三元组集中的频数判断是否进行采样；如果所述频数大于所述第一频数阈值，则根据所述标签信息确定采样算法，并根据所述频数和所述采样算法确定采样数；基于所述采样数对所述标准模板文本二元组集进行采样，得到采样文本组集。

7.根据权利要求4所述的系统，其特征在于，所述分层采样模块还用于：将所述频数小于所述第一频数阈值的基础模板文本三元组中的基础模本文本和所述基础模本文本对应的原文本合并到所述采样文本组集中，得到最终的采样文本组集。

8.根据权利要求4所述的系统，其特征在于，所述数据划分模块用于：将采样文本组集划分为基础模板文本和采样文本；将所述基础模板文本对应的原文本划分为第一训练集和第一验证集；将所述采样文本划分对应的原文本划分为第二训练集和第二验证集；将所述第一训练集和所述第二训练集合并为训练集，以及将所述第一验证集和所述第二验证集合并为训练集。

9.一种文本数据处理方法，其特征在于，所述方法应用于权利要求1至8任一项所述的文本数据处理系统，所述方法包括：

获取原文本，并根据所述原文本之间的相似度对所述原文本进行分层，得到标准模板文本二元组集和基础模板文本三元组集；

根据所述基础模板文本三元组集对所述标准模板文本二元组集进行采样，得到采样文本组集；

将所述采样文本组集划分为训练集和验证集。

10.根据权利要求9所述的方法，其特征在于，将所述采样文本组集划分为训练集和验证集，包括：

将采样文本组集划分为基础模板文本和采样文本；

将所述基础模板文本对应的原文本划分为第一训练集和第一验证集；

将所述采样文本划分对应的原文本划分为第二训练集和第二验证集；

将所述第一训练集和所述第二训练集合并为训练集，以及将所述第一验证集和所述第二验证集合并为训练集。