CN116468037A

CN116468037A - 一种基于nlp的数据处理方法及系统

Info

Publication number: CN116468037A
Application number: CN202310274143.0A
Authority: CN
Inventors: 韩三普; 陈竑; 薛全华
Original assignee: Beijing Shenwei Zhixun Technology Co ltd
Current assignee: Beijing Shenwei Zhixun Technology Co ltd
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-07-21

Abstract

本发明公开了一种基于NLP的数据处理方法及系统，属于数据处理领域，先通过对待处理数据进行处理，将对待处理数据转换为多步数据处理网络可以识别的特征数据，然后通过多步数据处理网络对特征数据进行识别，确定待处理数据对应的数据类别，从而完成对用户的倾向性分析。本发明构建有多步数据处理网络，并对多步数据处理网络进行训练，从而增强了模型预测的准确性和泛化能力。

Description

一种基于NLP的数据处理方法及系统

技术领域

本发明属于数据处理领域，具体涉及一种基于NLP的数据处理方法及系统。

背景技术

随着互联网的迅速发展，各种各样的文本迅速增加，根据应用场景的不同，人们需要将海量文本进行分类。例如，在社交平台中，往往存在大量的用户，这些用户在平台上建立关系、获取信息以及发表大量的内容。挖掘社交平台上用户发表内容中的观点以及倾向，可以确定流行的趋势和热点，从而帮助企业分析用户的消费倾向，进行精准化的推广与营销，也可以使企业或者政府对舆论立场做出及时反应。因此，对社交平台上的内容进行倾向性分析，完成用户发表文章的立场判定，是亟需解决的问题。

为了对用户数据进行分析，现有技术常常依赖人工对文章进行标定，以确定用户发表文章的类型。但是采用人工标定的方式的工作量较大，产生了费时费力的问题，导致效率较低以及容易出错的问题。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于NLP的数据处理方法及系统，解决了现有技术采用人工标定，导致效率较低以及容易出错的问题。

为了达到上述发明目的，本发明采用的技术方案为：

第一方面，本发明提供一种基于NLP的数据处理方法，其包括：

获取待处理数据，所述待处理数据为文本数据或者图像数据，且所述待处理数据为预先存储于数据库中的数据、通过设备采集的数据或者通过人机交互输入的数据；

采用NLP方法对待处理数据进行预处理，得到预处理后的待处理数据，并根据预处理后的待处理数据进行特征编码，得到待处理特征数据；

构建多步数据处理网络，并对多步数据处理网络进行训练，得到训练完成的多步数据处理网络；

以待处理特征数据作为多步数据处理网络的输入数据，获取待处理数据对应的数据类别，完成数据处理。

在一种可能的实施方式中，采用NLP方法对待处理数据进行预处理之前，还包括：判断待处理数据是否为图像数据，若是，则将待处理数据转换为文字数据，再进行预处理，否则直接进行预处理。

在一种可能的实施方式中，采用NLP方法对待处理数据进行预处理，得到预处理后的待处理数据，包括：

采用SnowNLP分词工具对待处理数据进行分词，得到分词后的待处理数据；

去除分词后的待处理数据中的停用词，得到预处理后的待处理数据，所述停用词用于表征待处理数据中的噪音。

在一种可能的实施方式中，根据预处理后的待处理数据进行特征编码，得到待处理特征数据，包括

采用独热编码、布尔模型、向量空间模型或者词向量模型对预处理后的待处理数据进行编码，得到编码数据；

对编码数据进行降维处理，并将降维后的编码数据作为待处理特征数据。

在一种可能的实施方式中，构建多步数据处理网络，包括：

构建输入层，所述输入层用于输入待处理特征数据；

构建一级数据处理层，所述一级数据处理层包括多个一级分类模型，每个所述一级分类模型均以输入层所接收的待处理特征数据作为输入数据；

构建二级数据处理层，所述二级数据处理层包括一个二级分类模型，所述二级分类模型以所有一级分类模型的输出数据作为其输入数据，且所述二级分类模型的输出数据为多步数据处理网络的最终输出数据，该最终输出数据用于表征待处理数据的数据类别；

构建输出层，所述输出层用于将多步数据处理网络的最终输出数据输出。

在一种可能的实施方式中，所述一级分类模型设置为随机森林模型、GBDT模型、XGBoost模型、LightGBM模型或者BP神经网络模型；

所述二级分类模型设置为随机森林模型、GBDT模型、XGBoost模型、LightGBM模型或者BP神经网络模型。

在一种可能的实施方式中，对多步数据处理网络进行训练，得到训练完成的多步数据处理网络，包括：

采集训练数据集，所述训练数据集包括多个训练数据对，每个所述训练数据对包括输入特征数据以及输入特征数据对应的标签数据；

将训练数据集划分为k个容量一致的训练数据子集；

以第j个训练数据子集的输入特征数据作为一级分类模型的输入数据，以第j个训练数据子集的输入特征数据对应的标签数据作为一级分类模型的期望输出数据，并采用第j个训练数据子集对一级分类模型进行第j轮训练；

以第j个训练数据子集的输入特征数据作为一级分类模型的输入数据，获取一级分类模型的输出数据，将所有一级分类模型的输出数据组成二级分类模型的输入数据，将输入特征数据对应的标签数据作为二级分类模型的期望输出数据，对二级分类模型进行第j轮训练；

当j的取值从1达到k之后，完成对多步数据处理网络的训练，得到训练完成的多步数据处理网络。

在一种可能的实施方式中，以待处理特征数据作为多步数据处理网络的输入数据，获取待处理数据对应的数据类别，包括：

以待处理特征数据作为多步数据处理网络的输入数据，通过多个一级分类模型对输入数据进行处理，得到多个第一类别；

将多个第一类别组成二级分类模型的输入数据，并通过二级分类模型进行识别，获取待处理数据对应的数据类别。

第二方面，本发明提供一种基于NLP的数据处理系统，包括获取模块、数据处理模块、训练模块以及分类模块；

所述获取模块用于，获取待处理数据，所述待处理数据为文本数据或者图像数据，且所述待处理数据为预先存储于数据库中的数据、通过设备采集的数据或者通过人机交互输入的数据；

所述数据处理模块用于，采用NLP方法对待处理数据进行预处理，得到预处理后的待处理数据，并根据预处理后的待处理数据进行特征编码，得到待处理特征数据；

所述训练模块用于，构建多步数据处理网络，并对多步数据处理网络进行训练，得到训练完成的多步数据处理网络；

所述分类模块用于，以待处理特征数据作为多步数据处理网络的输入数据，获取待处理数据对应的数据类别，完成数据处理。

在一种可能的实施方式中，所述多步数据处理网络包括输入层、多个一级数据处理层、二级数据处理层以及输出层；

所述输入层接收待处理特征数据，并将待处理特征数据作为多个一级数据处理层的输入数据；每个所述一级数据处理层对待处理特征数据进行处理后，得到一级数据处理层的输出数据；所有一级数据处理层的输出数据组成数据向量后，将该数据向量作为二级数据处理层的输入数据，二级数据处理层预测待处理特征数据的类别后，通过输出层将待处理特征数据的类别输出。

本发明的有益效果为：

(1)本发明提供了一种基于NLP的数据处理方法及系统，先通过对待处理数据进行处理，将待处理数据转换为多步数据处理网络可以识别的特征数据，然后通过多步数据处理网络对特征数据进行识别，确定待处理数据对应的数据类别，从而完成对用户的倾向性分析，不仅提升了分析效率，还避免了人工操作产生的失误。

(2)本发明构建有多步数据处理网络，并对多步数据处理网络进行训练，从而增强了模型预测的准确性和泛化能力。

附图说明

图1为本发明实施例提供的一种基于NLP的数据处理方法的流程图。

图2为本发明实施例提供的一种基于NLP的数据处理系统的结构示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

下面结合附图详细说明本发明的实施例。

实施例1

如图1所示，一种基于NLP的数据处理方法，其包括：

S11、获取待处理数据，所述待处理数据为文本数据或者图像数据，且所述待处理数据为预先存储于数据库中的数据、通过设备采集的数据或者通过人机交互输入的数据。

用户发表的文章或者博文可能是文本数据，也可能是记载有文字的截图，因此待处理数据为文本数据或者图像数据。当获取待处理数据时，可以直接从社交平台的数据库中拉取待处理数据，即社交平台对用户发表的文章或者博文进行倾向性分析。也可以通过爬虫工具爬取社交平台上的数据，即他人通过设备采集社交平台上的用户发表的文章或者博文，并进行倾向性分析。也可以通过人机交互的方式输入某一篇或者多篇需要分析倾向性的数据，即对某些特定的数据进行倾向性分析。

S12、采用NLP方法对待处理数据进行预处理，得到预处理后的待处理数据，并根据预处理后的待处理数据进行特征编码，得到待处理特征数据。

由于待处理数据是一段或者多段文字，因此可以对待处理数据进行分词处理。中文分词是文本预处理过程中的一个重要步骤。对于英文型文本数据来说，词与词之间有空格来区分，但是中文的词语之间是相连的，因此当计算机在处理中文文本时首先要处理的任务就是将中文型的文本数据切分成相互独立的单个词语。而分词后的待处理数据仍然包括大量对识别无用的数据，这些数据就是干扰最终识别结果的噪音，不仅会影响最终识别结果的准确性，还会使数据量比较大，降低数据处理效率，因此需要将分词后的待处理数据中的停用词去除，从而提高数据处理效率。

由于待处理数据是中文，不能被分类模型或者神经网络直接识别，因此还需要对其进行编码，以得到分类模型能够直接识别的待处理特征数据。

S13、构建多步数据处理网络，并对多步数据处理网络进行训练，得到训练完成的多步数据处理网络。

多步数据处理网络可以包括多个进行一次识别的模型以及一个进行二次识别的模型，一次识别的模型与二次识别的模型各不相同。先通过一次识别，获取多个不同预测结果，再将多个不同的预测结果组成数据，对组成的数据进行二次识别，获取最终的识别结果，从而通过异质算法的差异性来增强模型预测的准确性和泛化能力。

S14、以待处理特征数据作为多步数据处理网络的输入数据，获取待处理数据对应的数据类别，完成数据处理。

训练完成的多步数据处理网络具有对待处理特征数据进行识别的能力，将待处理特征数据作为多步数据处理网络的输入数据，获取待处理特征数据对应的数据类别，从而实现对社交平台中用户的倾向性分析，实现省时省力的效果，并且提升了对用户倾向性的分析效率。

在一种可能的实施方式中，采用NLP(Neuro-Linguistic Programming，自然语言处理)方法对待处理数据进行预处理之前，还包括：判断待处理数据是否为图像数据，若是，则将待处理数据转换为文字数据，再进行预处理，否则直接进行预处理。

在用户发表文章时，可能会是保存于笔记或者其他文档中文字数据的截图，因此可以采用OCR(Optical Character Recognition，光学字符识别)设备、装置或者方法对图像数据中的文字数据进行识别，从而实现图像与文字之间的转换。

采用SnowNLP分词工具对待处理数据进行分词，得到分词后的待处理数据。值得说明的是，除了采用SnowNLP分词工具进行分词外，也可以采用其他分词工具进行分词，例如：jieba分词工具、NLPIR分词工具和Pkuseg分词工具等等。

去除分词后的待处理数据中的停用词，得到预处理后的待处理数据。停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words(停用词)。

采用独热编码、布尔模型、向量空间模型或者词向量模型对预处理后的待处理数据进行编码，得到编码数据；值得说明的是，上述编码方法仅仅作为本实施提供的示例，还可以采用其他编码方法对预处理后的待处理数据进行编码。

可选的，对编码数据进行降维处理可以采用文档频次法(Document Frequency，DF)或者互信息(Mutual Information，MI)法进行特征选择，以实现数据降维。

在一种可能的实施方式中，构建多步数据处理网络，包括：

构建输入层，所述输入层用于输入待处理特征数据；

在一种可能的实施方式中，所述一级分类模型设置为随机森林模型、GBDT模型、XGBoost模型、LightGBM模型或者BP神经网络模型；所述二级分类模型设置为随机森林模型、GBDT模型、XGBoost模型、LightGBM模型或者BP神经网络模型。

可选的，每个一级分类模型可以设置为不同，并且二级分类模型与每个以及分类模型也可以设置为不同。例如，一级数据处理层可以包括四个一级分类模型，这四个一级分类模型可以分别设置为随机森林模型、GBDT模型、XGBoost模型以及LightGBM模型，二级分类模型则可以设置为BP神经网络模型，从而利用了异质算法的差异性来增强网络预测的准确性和泛化能力。一级分类模型的数量不局限于四个，也可以为两个、三个或者其他个数。

值得说明的是，也可以将其中部分分类模型或者全部分类模型设置为相同，例如，当一级数据处理层包括三个一级分类模型时，三个一级分类模型可以分别设置为随机森林模型、GBDT模型以及XGBoost模型；若分类模型需要全部不同，二级分类模型就可以设置LightGBM模型或者BP神经网络模型；若没有要求，二级分类模型就可以设置随机森林模型、GBDT模型、XGBoost模型、LightGBM模型或者BP神经网络模型中的任意一个。

采集训练数据集，所述训练数据集包括多个训练数据对，每个所述训练数据对包括输入特征数据以及输入特征数据对应的标签数据。

将训练数据集划分为k个容量一致的训练数据子集。

以第j个训练数据子集的输入特征数据作为一级分类模型的输入数据，以第j个训练数据子集的输入特征数据对应的标签数据作为一级分类模型的期望输出数据，并采用第j个训练数据子集对一级分类模型进行第j轮训练。

以第j个训练数据子集的输入特征数据作为一级分类模型的输入数据，获取一级分类模型的输出数据，将所有一级分类模型的输出数据组成二级分类模型的输入数据，将输入特征数据对应的标签数据作为二级分类模型的期望输出数据，对二级分类模型进行第j轮训练。

在本实施例中，随机森林模型、GBDT模型、XGBoost模型以及LightGBM模型的结构、过程以及训练方法均采用可以采用常规的方法，而BP神经网络存在学习速度慢且容易陷入局部最优的问题，因此本实施例提供一种BP神经网络模型的训练方法，以提升BP神经网络模型的训练速度与精度。

该BP神经网络模型的训练方法，包括：

A1、设种群包含多个个体X，个体X表示BP神经网络的权重组成的向量；对鲸鱼算法中的各项参数a、A、C、l、最大迭代次MAXT和搜索精度ε进行初始化。

A2、计算比较每个个体的适应度值，找到最优个体X*。可以通过多个训练数据求取多次个体的误差函数值，将误差函数值取平均后，并取倒数作为适应度值，适应度越大，表示个体越优。

A3、开始算法主体，生成[0,1]中的随机数p；若p<0.5且A<1，则每个个体按照第一更新方法更新自身位置；否则按照第二更新方法更新其位置；若p≥0.5，则每个个体按照第三更新方法更新其位置。

第一更新方法包括：

X(t+1)＝X(t)-A·D

D＝|C·X*(t)-X(t)|

其中，X(t)表示第t次更新时的个体X，X(t+1)表示更新后的个体X，X*(t)表示第t次更新时的最优个体，A·D表示包围步长，A表示第一系数向量，C表示第二系数向量，D表示中间系数，A＝2a·r-a，C＝2·r，随着迭代次数的增加，a由2线性递减至0，r表示随机向量，且r中每个元素均属于[1，0]。

A的范围受a值的影响，即A随a的减少而降低，当a从2线性递减至0时，A的范围为[-a，a]。当A范围在[-1，1]时，在原始位置和猎物之间一定存在位置更新后的鲸鱼，即种群中所有鲸鱼都向猎物靠近，形成包围圈。

第二更新方法包括：

X(t+1)＝D'·e^bl·cos(2πl)+X*(t)

D'＝|X*(t)-X(t)|

其中，e表示自然常数，b表示常数，l表示均匀分布在[0，1]中的随机数，π表示圆周率，D'表示第二中间系数。

第三更新方法包括：

X(t+1)＝X_rand-A·D”

D”＝|C·X_rand-X(t)|

其中，X_rand表示种群中的随机个体位置，D”表示第三中间系数。

A4、引入全局学习机制，使得新产生的个体向历史最优个体学习。

针对每个个体，产生新个体为：

X_inew＝c1·c2·(X_i-X*)

其中，c1＝1.4，c2表示服从[0，1]分布的随机向量，X_i表示种群中第i个个体，种群一共包括I个个体，则i＝1,2,…,I，X*表示历史训练中适应度最大的个体。

若新个体X_inew的适应度大于原来个体X_i的适应度，则采用新个体X_inew替换原来个体X_i。

A5、重新对种群内个体评价，确定全局最优的个体与位置。

A6、如果达到最大迭代次数或误差函数值满足搜索精度ε，则算法结束，输出最优个体；否则转到A2继续运算。

误差函数可以设置为：

其中，E表示误差函数值，p＝1,2,...,P，P表示输入数据的总数，k＝1,2,...,K，K表示输出层的神经元总数，t_pk表示输出层中第k个神经元对应的期望输出数据，y_pk表示输出层中第k个神经元对应的实际输出数据，j＝1,2,...,J，J表示隐含层的神经元总数，h_pj表示隐含层中第j个神经元的输出。

或者，误差函数可以设置为：

通过上述训练方法，不仅实现简单，收敛精度高，并且避免了不易收敛至全局最优的问题。

实施例2

如图2所示，本发明提供一种基于NLP的数据处理系统，包括获取模块21、数据处理模块22、训练模块23以及分类模块24。

获取模块21用于，获取待处理数据，待处理数据为文本数据或者图像数据，且待处理数据为预先存储于数据库中的数据、通过设备采集的数据或者通过人机交互输入的数据；

数据处理模块22用于，采用NLP方法对待处理数据进行预处理，得到预处理后的待处理数据，并根据预处理后的待处理数据进行特征编码，得到待处理特征数据；

训练模块23用于，构建多步数据处理网络，并对多步数据处理网络进行训练，得到训练完成的多步数据处理网络，多步数据处理网络用于对待处理数据进行多步识别，以获取待处理数据的数据类别；

分类模块24用于，以待处理特征数据作为多步数据处理网络的输入数据，获取待处理数据对应的数据类别，完成数据处理。

在一种可能的实施方式中，多步数据处理网络包括输入层、多个一级数据处理层、二级数据处理层以及输出层；输入层接收待处理特征数据，并将待处理特征数据作为多个一级数据处理层的输入数据；每个一级数据处理层对待处理特征数据进行处理后，得到一级数据处理层的输出数据；所有一级数据处理层的输出数据组成数据向量后，将该数据向量作为二级数据处理层的输入数据，二级数据处理层预测待处理特征数据的类别后，通过输出层将待处理特征数据的类别输出。

本实施例提供的一种基于NLP的数据处理系统可以实现实施例所述的方法技术方案，其原理及有益效果类似，此处不再赘述。

本发明提供了一种基于NLP的数据处理方法及系统，先通过对待处理数据进行处理，将对待处理数据转换为多步数据处理网络可以识别的特征数据，然后通过多步数据处理网络对特征数据进行识别，确定待处理数据对应的数据类别，从而完成对用户的倾向性分析。本发明构建有多步数据处理网络，并对多步数据处理网络进行训练，从而增强了模型预测的准确性和泛化能力。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于NLP的数据处理方法，其特征在于，包括：

采用NLP方法对待处理数据进行预处理，得到预处理后的待处理数据，并对预处理后的待处理数据进行特征编码，得到待处理特征数据；

2.根据权利要求1所述的基于NLP的数据处理方法，其特征在于，采用NLP方法对待处理数据进行预处理之前，还包括：判断待处理数据是否为图像数据，若是，则将待处理数据转换为文字数据，再进行预处理，否则直接进行预处理。

3.根据权利要求2所述的基于NLP的数据处理方法，其特征在于，采用NLP方法对待处理数据进行预处理，得到预处理后的待处理数据，包括：

4.根据权利要求2所述的基于NLP的数据处理方法，其特征在于，根据预处理后的待处理数据进行特征编码，得到待处理特征数据，包括：

5.根据权利要求1-4任一所述的基于NLP的数据处理方法，其特征在于，构建多步数据处理网络，包括：

构建输入层，所述输入层用于输入待处理特征数据；

构建输出层，所述输出层用于将多步数据处理网络的最终输出数据进行输出。

6.根据权利要求5所述的基于NLP的数据处理方法，其特征在于，所述一级分类模型设置为随机森林模型、GBDT模型、XGBoost模型、LightGBM模型或者BP神经网络模型；

7.根据权利要求6所述的基于NLP的数据处理方法，其特征在于，对多步数据处理网络进行训练，得到训练完成的多步数据处理网络，包括：

将训练数据集划分为k个容量一致的训练数据子集；

8.根据权利要求7所述的基于NLP的数据处理方法，其特征在于，以待处理特征数据作为多步数据处理网络的输入数据，获取待处理数据对应的数据类别，包括：

9.一种基于NLP的数据处理系统，其特征在于，包括获取模块、数据处理模块、训练模块以及分类模块；

10.根据权利要求9所述的基于NLP的数据处理系统，其特征在于，所述多步数据处理网络包括输入层、多个一级数据处理层、二级数据处理层以及输出层；