CN110413786B

CN110413786B - 基于网页文本分类的数据处理方法、智能终端及存储介质

Info

Publication number: CN110413786B
Application number: CN201910682113.7A
Authority: CN
Inventors: 张玳辉
Original assignee: Beijing Zhiyou Wang'an Technology Co ltd
Current assignee: Beijing Zhiyou Wang'an Technology Co ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2021-12-28
Anticipated expiration: 2039-07-26
Also published as: CN110413786A

Abstract

本发明公开了基于网页文本分类的数据处理方法、智能终端及存储介质，所述方法包括：从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注；将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练，所述循环神经网络模型根据损失曲线调整拟合参数；将经过清洗和序列化后的文本数据输入到所述循环神经网络模型，所述循环神经网络模型输出预测值；根据输出的所述预测值，所述循环神经网络模型将数据库中入库的信息进行分类，通过后台筛选出相关分类的应用并进行展示。本发明通过深度学习算法将文本信息进行特征提取训练，输出预测值，自动将数据库中入库的信息进行分类，用户只需要通过后台即可筛选出相关分类的应用。

Description

基于网页文本分类的数据处理方法、智能终端及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于网页文本分类的数据处理方法、智能终端及存储介质。

背景技术

根据互联网页面中的文本内容，按照文字的描述信息将文字转换成数字序列，再将不同长度的数字序列转换成用统一维度的数据矩阵，通过RNN(Recurrent NeuralNetwork)循环神经网络进行特征提取，具体为：输入序列为{x(0)…x(t)},RNN通过维护一个根据时间的隐藏状态向量h(t),根据输入的序列x(t)有h(t)＝f(Wh(t-1)+Vx(t)),其中W，V为权重矩阵，f为激活函数(tanh),t为输入时间,h(t)通过多次特征提取，全连接层之后通过softmax层(归一化指数函数，实际上是有限项离散概率分布的梯度对数归一化)运算求出样本在每一类中的概率分布并且输出，最大概率标签即为预测值，进行模型训练并且保存，然后将已有数据库文本数据进行序列化处理定时输入到训练好的模型中进行预测，使用者只需要通过后台页面查询，即可查看预测的应用的标签类型判断应用类别。

现有技术的缺点是网络文本描述参差不齐，训练集构造人力标注成本较大，深度学习模型调优(机器学习的预测成功率一开始不会特别高，要逐步优化调整优化预测的精度)存在很大的调试成本，例如对于当前网络应用商店分类不一致，分类缺失等情况导致的数据使用难，人工筛选难。

因此，现有技术还有待于改进和发展。

发明内容

本发明的主要目的在于提供一种基于网页文本分类的数据处理方法、智能终端及存储介质，旨在解决现有技术中网页文本分类效率不高、分类不准确的问题。

为实现上述目的，本发明提供一种基于网页文本分类的数据处理方法，所述基于网页文本分类的数据处理方法包括如下步骤：

从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注；

将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练，所述循环神经网络模型根据损失曲线调整拟合参数；

将经过清洗和序列化后的文本数据输入到所述循环神经网络模型，所述循环神经网络模型输出预测值；

根据输出的所述预测值，所述循环神经网络模型将数据库中入库的信息进行分类，通过后台筛选出相关分类的应用并进行展示。

可选地，所述的基于网页文本分类的数据处理方法，其中，所述从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注，包括：

从网络爬虫数据库中选取满足所有分类应用描述的分类样本的文本数据，所述文本数据具有常规普遍的应用描述；

将所述文本数据去除特殊编码符号，并清洗掉所述文本数据中的非中英文文字；

将所述文本数据中的标签字段标注一个所属类别。

可选地，所述的基于网页文本分类的数据处理方法，其中，所述循环神经网络模型包括：训练集、测试集和验证集。

可选地，所述的基于网页文本分类的数据处理方法，其中，所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练，所述循环神经网络模型根据损失曲线调整拟合参数之前，还包括：

将所述训练集进行文本序列化和标签数字化处理；

所述文本序列化为按照词汇表的顺序对单词进行编号，所述标签数字化为按照顺序对标签进行编号。

可选地，所述的基于网页文本分类的数据处理方法，其中，所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练，所述循环神经网络模型根据损失曲线调整拟合参数，包括：

将所述文本数据输入到循环神经网络模型中进行特征提取，输出数字降维的数据矩阵；

不同的训练集和训练参数训练的模型，通过对同一验证集进行预测输出预测值；

根据所述预测值与模型标签值进行损失运算，所述循环神经网络模型根据损失曲线不断的调整拟合参数。

可选地，所述的基于网页文本分类的数据处理方法，其中，所述预测值通过Softmax函数计算样本处于各个标签的概率分布得出。

可选地，所述的基于网页文本分类的数据处理方法，其中，所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练，所述循环神经网络模型根据损失曲线调整拟合参数，还包括：

将不同的训练模型结果与同一验证集对比后输出准确率、精确率和召回率。

可选地，所述的基于网页文本分类的数据处理方法，其中，所述准确率表示样本被正确分类的比例率；所述精确率表示原本为正类样本在所有正类样本的比例；所述召回率表示原本为正类样本被分为正类的比例。

此外，为实现上述目的，本发明还提供一种智能终端，其中，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于网页文本分类的数据处理程序，所述基于网页文本分类的数据处理程序被所述处理器执行时实现如上所述的基于网页文本分类的数据处理方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，其中，所述存储介质存储有基于网页文本分类的数据处理程序，所述基于网页文本分类的数据处理程序被处理器执行时实现如上所述的基于网页文本分类的数据处理方法的步骤。

本发明中，从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注；将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练，所述循环神经网络模型根据损失曲线调整拟合参数；将经过清洗和序列化后的文本数据输入到所述循环神经网络模型，所述循环神经网络模型输出预测值；根据输出的所述预测值，所述循环神经网络模型将数据库中入库的信息进行分类，通过后台筛选出相关分类的应用并进行展示。本发明通过深度学习算法将文本信息进行特征提取训练，通过循环神经网络进行特征提取，输出预测值，自动将数据库中入库的信息进行分类，用户只需要通过后台即可筛选出相关分类的应用。

附图说明

图1是本发明基于网页文本分类的数据处理方法的较佳实施例的流程图；

图2为本发明智能终端的较佳实施例的运行环境示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明较佳实施例所述的基于网页文本分类的数据处理方法，如图1所示，所述基于网页文本分类的数据处理方法包括以下步骤：

步骤S10、从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注。

具体地，从网络爬虫数据库(网络爬虫又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本)中选取满足所有分类应用描述的分类样本的文本数据，所述文本数据具有常规普遍的应用描述；将所述文本数据去除特殊编码符号，并清洗掉所述文本数据中的非中英文文字；将所述文本数据中的标签字段标注一个所属类别。

其中，网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

进一步地，人工从网络爬虫数据库中选取(能够满足所有的分类应用描述的分类样本的文本，且具有常规普遍的应用描述的文本数据)的文本数据进行清洗(去除特殊编码符号，清洗掉非中英文文字)并标注(给这段文本标注一个所属类别，比如微信的应用描述“可以发语音、文字消息、表情、图片、视频，30M流量可以收发上千条语音，省电省流量…”，在数据库中的标签字段标注为通讯社交类)。

步骤S20、将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练，所述循环神经网络模型根据损失曲线调整拟合参数。

具体地，所述循环神经网络模型包括：训练集、测试集和验证集。将所述训练集进行文本序列化和标签数字化处理；所述文本序列化为按照词汇表的顺序对单词进行编号，所述标签数字化为按照顺序对标签进行编号。将所述文本数据输入到循环神经网络模型中进行特征提取，输出数字降维的数据矩阵；不同的训练集和训练参数训练的模型，通过对同一验证集进行预测输出预测值；根据所述预测值与模型标签值进行损失运算，所述循环神经网络模型根据损失曲线不断的调整拟合参数。

将标注好的数据输入到RNN循环神经网络模型进行训练，通过将训练集的文本序列化，就是按照词汇表的顺序对单词进行编号，标签数字化就是按照顺序对标签进行编号，因为后续的都是数字运算需要转换成数字信息才能继续执行。

输入到RNN循环神经网络模型中进行特征提取，就是输出一个数字降维的数据矩阵，这个机器能够认识，预测值是一个针对标签的概率的分布，通过Softmax交叉熵函数(Softmax函数实际上是有限项离散概率分布的梯度对数归一化)进行计算损失值，即通过Softmax函数计算概率分布得出，不用预设。

进一步地，所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练，所述循环神经网络模型根据损失曲线调整拟合参数，还包括：将不同的训练模型结果与同一验证集对比后输出准确率、精确率和召回率。

其中，所述准确率表示样本被正确分类的比例率；所述精确率表示原本为正类样本在所有正类样本的比例；所述召回率表示原本为正类样本被分为正类的比例。

与模型标签值进行损失运算，Softmax交叉熵函数计算，是目标值与预测值的距离的意思，尽可能的达到损失最小的状态,即为最佳模型，神经网络根据损失曲线不断的调整拟合参数是神经网络内部的模型参数，这个过程会以图的结构保存，最后的模型也就是指这些参数，达到损失最小即为最佳模型，评估就是不同的训练模型结果对同一验证集的准确率，通过这些准确率、精确率、召回率来判断模型的好坏；调整就是不同的训练模型结果对同一验证集的准确率，就是不同的预设参数，比如学习率，学习网络的模式，通过对同一验证集也是数据集的一部分和训练集的格式是一样的有标签和文本。

然后进行预测，根据准确率，样本被正确分类的比例率；精确率，原本为正类样本在所有正类样本的比例；召回率，原本为正类样本被分为正类的比例进行评估，选择最优模型一般情况下符合要求的话就只是一次训练就可以了，如果不符合标注需要多次构造训练集和一些参数进行调整，再训练，再验证。

步骤S30、将经过清洗和序列化后的文本数据输入到所述循环神经网络模型，所述循环神经网络模型输出预测值。

具体地，将实时的数据库文本数据，经过清洗以及序列化后通过输入到模型输出最大可能的标签数值。

步骤S40、根据输出的所述预测值，所述循环神经网络模型将数据库中入库的信息进行分类，通过后台筛选出相关分类的应用并进行展示。

具体地，保存到数据库进行后台查询(满足指定的机构，比如卫健委会专门处理医疗健康类的应用，金融类的应用会提交给证监局，教育类的会提交到教育局等等)与业务使用(生产环境中满足基本业务使用的同时，进行人工评估机器预测的精度，为进一步优化提供支持)。

本发明通过网页描述信息进行数据特征提取；通过网页文本特征，进行模型预测分类。例如对于当前网络应用商店分类不一致(只针对应用市场网站)，分类缺失等情况导致的数据使用难，人工筛选难的问题，本发明采用深度学习算法将文本信息进行特征提取训练，通过RNN循环神经网络特征提取(通过对输入序列更新隐藏状态调整状态权重，根据输入的序列达到权值调整，最后输出预测值)，输出预测值，整个模型自动化过滤数据库中入库得信息进行分类，使用者只需要通过后台即可筛选出相关分类得应用。

进一步地，如图2所示，基于上述基于网页文本分类的数据处理方法，本发明还相应提供了一种智能终端，所述智能终端包括：处理器10、存储器20及显示器30。图2仅示出了智能终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述智能终端的内部存储单元，例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备，例如所述智能终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据，例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有基于网页文本分类的数据处理程序40，该基于网页文本分类的数据处理程序40可被处理器10所执行，从而实现本申请中基于网页文本分类的数据处理方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述基于网页文本分类的数据处理方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中基于网页文本分类的数据处理程序40时实现以下步骤：

所述从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注，包括：

将所述文本数据中的标签字段标注一个所属类别。

所述循环神经网络模型包括：训练集、测试集和验证集。

所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练，所述循环神经网络模型根据损失曲线调整拟合参数之前，还包括：

将所述训练集进行文本序列化和标签数字化处理；

所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练，所述循环神经网络模型根据损失曲线调整拟合参数，包括：

所述预测值通过Softmax函数计算样本处于各个标签的概率分布得出。

所述将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练，所述循环神经网络模型根据损失曲线调整拟合参数，还包括：

所述准确率表示样本被正确分类的比例率；所述精确率表示原本为正类样本在所有正类样本的比例；所述召回率表示原本为正类样本被分为正类的比例。

进一步地，本发明还提供一种存储介质，其中，所述存储介质存储有基于网页文本分类的数据处理程序，所述基于网页文本分类的数据处理程序被处理器执行时实现如上所述的基于网页文本分类的数据处理方法的步骤。

综上所述，本发明提供一种基于网页文本分类的数据处理方法、智能终端及存储介质，所述方法包括：从数据库中选取满足所有分类应用描述的分类样本的文本数据进行清洗和标注；将经过清洗和标注后的文本数据输入到循环神经网络模型中进行训练，所述循环神经网络模型根据损失曲线调整拟合参数；将经过清洗和序列化后的文本数据输入到所述循环神经网络模型，所述循环神经网络模型输出预测值；根据输出的所述预测值，所述循环神经网络模型将数据库中入库的信息进行分类，通过后台筛选出相关分类的应用并进行展示。本发明通过深度学习算法将文本信息进行特征提取训练，通过循环神经网络进行特征提取，输出预测值，自动将数据库中入库的信息进行分类，用户只需要通过后台即可筛选出相关分类的应用。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于网页文本分类的数据处理方法，其特征在于，所述基于网页文本分类的数据处理方法包括：

将所述文本数据中的标签字段标注一个所属类别；

根据所述预测值与模型标签值进行损失运算，所述循环神经网络模型根据损失曲线不断的调整拟合参数；

将不同的训练模型结果与同一验证集对比后输出准确率、精确率和召回率；

所述准确率表示样本被正确分类的比例率；所述精确率表示原本为正类样本在所有正类样本的比例；所述召回率表示原本为正类样本被分为正类的比例；

所述循环神经网络模型包括：训练集、测试集和验证集；

将所述训练集进行文本序列化和标签数字化处理；

所述文本序列化为按照词汇表的顺序对单词进行编号，所述标签数字化为按照顺序对标签进行编号；

根据输出的所述预测值，所述循环神经网络模型将数据库中入库的信息进行分类，通过后台筛选出相关分类的应用并进行展示；

通过网页描述信息进行数据特征提取；通过网页文本特征，进行模型预测分类；通过深度学习算法将文本信息进行特征提取训练，通过循环神经网络进行特征提取，输出预测值，自动将数据库中入库的信息进行分类。

2.根据权利要求1所述的基于网页文本分类的数据处理方法，其特征在于，所述预测值通过Softmax函数计算样本处于各个标签的概率分布得出。

3.一种智能终端，其特征在于，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于网页文本分类的数据处理程序，所述基于网页文本分类的数据处理程序被所述处理器执行时实现如权利要求1-2任一项所述的基于网页文本分类的数据处理方法的步骤。

4.一种存储介质，其特征在于，所述存储介质存储有基于网页文本分类的数据处理程序，所述基于网页文本分类的数据处理程序被处理器执行时实现如权利要求1-2任一项所述的基于网页文本分类的数据处理方法的步骤。