CN111970251A

CN111970251A - 数据处理方法及服务器

Info

Publication number: CN111970251A
Application number: CN202010740566.3A
Authority: CN
Inventors: 李帅明
Original assignee: Xian Wanxiang Electronics Technology Co Ltd
Current assignee: Xian Wanxiang Electronics Technology Co Ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-11-20

Abstract

本公开提供一种数据处理方法及服务器，涉及电子信息技术领域，能够解决网络数据传输时对垃圾数据处理效率低的问题。具体技术方案为：当服务器接收到终端设备发送的目标网络访问请求时，将该目标网络访问请求信息向目标网络发送；根据该目标网络访问请求信息获取目标访问数据，并根据网络垃圾拦截机制对该目标访问数据进行处理，确定该目标访问数据中的垃圾数据，再对该垃圾数据进行处理，生成目标数据，最终向终端设备发送该目标数据。本公开用于网络传输中垃圾数据的处理。

Description

数据处理方法及服务器

技术领域

本公开涉及电子信息技术领域，尤其涉及数据处理方法及服务器。

背景技术

随着网络的发展，用户可以通过网络获取多种数据，但是伴随着网络数据的传输，各式各样的网络垃圾也同时会传输给用户，不仅会给用户的使用带来各种不便，同时也会影响真实数据、影响服务器性能，造成各种问题。

现有技术中，服务器或者终端设备会通过防火墙和安全软件对系统漏洞和恶意代码进行拦截，但是因为网络垃圾的形式多种多样，也不断演变，对垃圾邮件、广告、垃圾外链等垃圾数据处理时，则需要精准拦截，不仅成本高，处理精准度也低。

发明内容

本公开实施例提供一种数据处理方法及服务器，能够解决访问网络时垃圾数据处理效率低的问题。所述技术方案如下：

根据本公开实施例的第一方面，提供一种数据处理方法，应用于服务器，该方法包括：

向目标网络发送网络访问请求信息，该网络访问请求信息用于指示终端设备请求访问该目标网络；

根据该网络访问请求信息，获取目标响应数据；

根据网络垃圾拦截机制，确定该目标响应数据中的垃圾数据，该网络垃圾拦截处理机制至少包括根据响应数据的特征信息和权重确定垃圾数据；

根据垃圾数据处理策略，对该垃圾数据进行处理后，生成目标数据。

在一个实施例中，该方法中网络垃圾拦截机制包括第一算法模型和第二算法模型，该确定该目标响应数据中的垃圾数据，包括：

根据该第一算法模型，确定该目标响应数据的目标特征信息，该特征信息包括以下至少一种信息：该目标响应信息对应的目标特征词及该目标特征词对应的词频与逆向文件频率，该第一算法模型包括TF-IDF(term frequency–inverse document frequency)算法模型；

根据该目标特征信息和第二算法模型，确定该目标数据中的垃圾数据，该第二算法模型包括SVM(support vector machines)算法模型。

在一个实施例中，该方法中获取逆向文件频率，包括：

通过该第一算法模型提取该目标响应数据对应的特征词，并获取每个特征词对应的逆向文件频率值；

根据该每个特征词对应的逆向文件频率值，确定该特征词中的目标特征词，并获取该目标特征词对应的逆向文件频率。

在一个实施例中，该方法在获取目标响应数据之后，还包括：

当向该终端设备发送该目标响应数据时，生成标记请求信息并向终端设备发送，该标记请求信息用于请求标记该目标响应数据是垃圾数据或非垃圾数据；

根据该标记请求信息，获取该终端设备的标记处理结果，并根据该标记处理结果对该目标响应数据进行标记处理；

根据标记处理结果，向终端设备发送该目标响应数据中标记为非垃圾数据的数据。

在一个实施例中，该方法还包括：

根据所述第一算法模型，获取所述目标响应数据的目标特征信息，并根据所述目标特征信息，生成输入数据；

根据预设标记处理，获取所述目标数据中的预设垃圾数据，并根据所述预设垃圾数据，生成学习目标；

通过所述输入数据和所述学习目标，对所述第二算法模型进行校正处理。

本公开实施例提供的数据处理方法，应用于服务器，当服务器接收到终端设备发送的目标网络访问请求时，将该目标网络访问请求信息向目标网络发送；根据该目标网络访问请求信息获取目标访问数据，并根据网络垃圾拦截机制对该目标访问数据进行处理，确定该目标访问数据中的垃圾数据，再对该垃圾数据进行处理，生成目标数据，最终向终端设备发送该目标数据。

本公开实施例提供的数据处理方法，通过服务器中设置网络垃圾拦截机制，从而能够实现终端设备在通过网络获取数据的同时，接受服务器后台的监管：服务器通过网络垃圾拦截机制通过AI算法，对网络数据进行自动分析，并自动根据预设的垃圾数据处理策略对归类为网络垃圾的网络数据进行处理。

根据本公开实施例的第二方面，提供一种服务器，包括：接收器和处理器、发送器；

该处理器分别与该接收器和发送器相连接；

该发送器，用于向目标网络发送网络访问请求信息，该网络访问请求信息用于指示终端设备请求访问该目标网络；

该接收器，用于根据该网络访问请求信息，获取目标响应数据；

该处理器，用于根据网络垃圾拦截机制，确定该目标响应数据中的垃圾数据，该网络垃圾拦截处理机制至少包括指根据响应数据的特征信息和权重确定垃圾数据；

并，根据垃圾数据处理策略，对该垃圾数据进行处理后，生成目标数据。

在一个实施例中，该服务器中的处理器还用于，

根据该第一算法模型确定的目标响应数据的目标特征信息，生成输入数据，将根据预设标记处理的该目标数据中的垃圾数据作为学习目标；

通过该输入数据和该学习目标，对该第二算法模型进行校正处理。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开实施例提供的一种数据处理方法的流程图；

图2是本公开实施例提供的一种数据处理方法的逻辑层结构示意图1；

图3是本公开实施例提供的一种数据处理方法中逻辑层结构示意图2；

图4是本公开实施例提供的一种数据处理方法的逻辑层结构示意图3；

图5是本公开实施例提供的一种服务器的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例提供一种数据处理方法，如图1所示，该数据处理方法包括以下步骤：

101、向目标网络发送网络访问请求信息。

本公开所提供的方法中服务器包括至少一个虚拟机，在向目标网络发送网络访问请求信息时，可以通过该虚拟机向目标网络发送网络访问请求信息。

在访问云服务器的过程中，用户通过零终端连接虚拟机，每台虚拟机独立运行，集中在云服务器上管理。

终端设备申请访问目标网站时，生成网络访问请求信息，虚拟机响应于零终端发送的网络访问请求，进行网络访问，比如，可以通过服务器将该网络访问请求发送至对应的web服务器等。

本公开所提供的方法中，云服务器会生成多个虚拟机，并为每台虚拟机设置参数，如分配空间、配置等信息。

102、服务器根据该网络访问请求信息，获取目标响应数据。

如图2所示，本公开所提供方法中，当服务器所接收到的目标响应数据时，不会直接返回给虚拟机，而是要通过网络垃圾拦截机制进行处理，即：确定该目标响应数据中的垃圾数据，对该垃圾数据进行处理后，再将处理后的响应数据发送。

103、根据网络垃圾拦截机制，确定该目标响应数据中的垃圾数据。

该网络垃圾拦截处理机制至少包括指根据响应数据的特征信息和权重确定垃圾数据。

如图3所示，本公开所提供方法网络垃圾拦截机制至少包括第一算法模型和第二算法模型，基于第一算法模型和第二算法模型确定当前目标响应数据的特征信息的步骤可以包括：

步骤一、根据第一算法模型，确定该目标响应数据的目标特征信息。

本公开所提供方法中的特征信息包括但不限于以下信息中的至少其中之一：名称、类型、来源、特征词及其对应的词频与逆向文件频率(TF-TDF，term frequency–inversedocument frequency)值。其中，上述特征信息中的名称是指该响应数据的名称；上述特征信息中类型是指：网页、弹窗、通知消息等数据类型；上述特征信息中来源可以通过URL地址等进行标记。

该第一算法模型包括TF-IDF(term frequency–inverse document frequency)算法模型。

基于TF-IDF算法模型，本公开提供如下方法获取上述特征信息中的逆向文件频率：

步骤a、通过目标对目标响应数据进行特征词提取，获取该访问响应数对应的特征词，该特征词可以是最能代表当前目标响应数据

在实施过程中，该目标模型可以包括TF-TDF模型；TF-IDF是一种统计方法，该模型是用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率高TF(TermFrequency，词频)，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合对当前文档进行分类。

TF-IDF实际上是：TF*IDF。TF表示词条在文档中出现的频率。IDF(inversedocument frequency，逆向文件频率)的用于指示：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，则将该词条赋予较高的权重，并确定该词条为该类文本的特征词，从而能够区别于其它类文档。

基于上述TF-TDF模型的算法，对目标响应数据的特征词提取步骤可以包括：

基于TF-TDF模型，获取该目标响应数据中每个词条对应的TF-IDF值；

对该每个词条对应的TF-IDF值进行排序处理，获取预设排序规则对应的词条，将该词条作为该目标响应数据的特征词，例如然后对计算得到的TF-IDF值进行降序排列，取排序在前N名的词条作为目标响应数据的特征词。该预设数量可以根据实际需要进行设置，比如，3个、5个等等，这里不做限制。

步骤b、根据该每个特征词对应的逆向文件频率值，确定该特征词中的目标特征词，并获取该目标特征词对应的逆向文件频率。

步骤二、根据该目标特征信息和第二算法模型，确定该目标数据中的垃圾数据。

在具体的实施过程中，该第二算法模型包括SVM(support vector machines)算法模型。

SVM(Support Vector Machine)指的是支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。通过训练可以使SVM模型具备对垃圾数据的判别能力。

该SVM模型的算法原理是：在二维上找一条最优分割线把两类分开，这条分割线需要让所有项中离它最近的项和它之间具有最大的间距。这条分割线就是间隔边界，离它最近的项和它之间的距离就是边距，根据边距可以确定这条最优分割线，即超平面。两个间隔边界的边距公式为：

该公式是一个简化后的公式，d代表的就是边距，w指超平面的法向量，即超平面的垂直方向。

最终目的是通过所找到的超平面实现二分类，也就是区分出正类和负类，而正类和负类中，一类是代表垃圾数据，另一类代表非垃圾数据。

进一步的，为了提高的SVM算法模型精准度，本公开还提供SVM模型的训练方式，其中，用于训练的输入数据的来源包括：网络分析、人工构造、选择特征等。

本公开所提供的SVM算法模型可以采用线性可分性模型，在分类问题中给定输入数据和学习目标；输入数据包括多个样本，每个样本都包含多个特征信息并由此构成特征空间(feature space)：X＝{x₁,......,x_N}。

其中的特征信息包括但不限于：名称、类型、来源、特征词及其对应的词频与逆向文件频率(TF-TDF)值。学习目标为二元变量，表示负类(negative class)和正类(positiveclass)。模型训练过程中，将输入数据和学习目标输入SVM模型之后，不断通过输出结果和学习目标之间的差值来对模型参数进行修正，从而将SVM模型训练为能够将输入数据二分类为垃圾数据和非垃圾数据的预测模型。

104、根据预设垃圾数据处理策略对该垃圾数据进行处理

本公开所提供方法中根据预设垃圾数据处理策略对该垃圾数据进行处理，可以包括：

示例一：直接对该垃圾数据进行拦截或者删除；

示例二：向用户发送提示信息，通过该提示信息提示用户当前访问数据为垃圾数据，让用户确认是否继续访问，如果用户选择继续访问，则向用户返回该目标响应数据，如果用户选中不访问，则拦截或者删除当前目标响应数据。

在一种可选实施方式中，该方法在获取目标响应数据之后还包括通过终端设备确定垃圾数据：

向该终端设备发送该目标响应数据时，生成标记请求信息并向终端设备发送该标记请求信息，该标记请求信息用于请求标记该目标响应数据是垃圾数据或非垃圾数据；

根据该标记请求信息，获取终端设备的标记处理结果，根据该标记处理结果对该目标响应数据进行标记处理；

在具体的实施过程中，上述步骤可以是：当将目标响应数据发送给终端设备(如，用户的手机)时，生成目标标记界面，该目标标记界面用于引导终端设备的使用用户对目标响应数据进行黑白名单标记，标记为黑名单的数据被定为当前用户的垃圾数据，标记为白名单的数据也在本地进行标记，并在之后为当前用户放行，也就是说，涉及到被用户标记为白名单的目标响应数据时，不用进行是否为垃圾数据的分析，而直接为当前用户放行。

本公开所提供的方法为了提高的网络垃圾拦截机制的精准度，本公开还提供通过已标记处理的垃圾数据对第二数据模型训练的方式，包括：

根据该第一算法模型，获取该目标响应数据的目标特征信息，并根据该目标特征信息，生成输入数据；

根据预设标记处理，获取该目标数据中的预设垃圾数据，并根据该预设垃圾数据，生成学习目标；

通过该输入数据和第二算法模型获取目标垃圾数据；

通过对比该目标垃圾数据和该学习目标，对该第二算法模型进行校正处理。

具体的，将TF-IDF算法模型处理后得到的特征词及其TF-IDF值，以及从当前网络访问响应数据中获取的其它特征信息，比如，名称、类型、来源作为SVM模型的输入数据，同时，通过其它方式对当前数据进行是否为垃圾数据的标记，也就是确定学习目标。通过以上方式，得到训练数据后，就可以把训练数据输入待训练的SVM模型进行训练，并根据训练结果与学习目标之间的差异不断对模型参数进行调整，最终的训练结果是使SVM模型对垃圾数据的识别率超过预设阈值，比如，98％、95％等等，该阈值可以根据实际需要进行设置。

需要说明的是，上述被用户标记为黑名单的数据，也将被作为训练数据提供给SVM进行模型优化。因此，本发明所提供的SVM模型能够不断迭代优化。

上述步骤中的标记目标响应数据中的垃圾数据具体可以通过以下标记方法：

示例一、网页内容中含有的热门关键词比例；

示例二、页面显示比例，例如标记为有效数据在整个页面中的占比；

示例三、内容压缩比，例如，垃圾页面中重复堆砌的内容出现比例等。

实际实现时，可以根据实际需要预设各个比例的阈值，比如，设置可见内容比例阈值，如果大于该阈值，则认为不是垃圾数据，否则，认为是垃圾数据。另外，实际实现时，也可以由需求分析师基于人工方式对当前网络访问响应数据是否为垃圾数据进行综合评估，并给出是否为垃圾数据的评估结果。

在具体的实施过程中，上述确定特征信息的TF-IDF模型，不仅用于为SVM算法模型提供输入的特征信息或者训练数据，还可以与SVM算法模型并行实现对网络数据(即目标响应数据)是否是垃圾数据的判断。

参照附图4所示。具体的，网络数据同时通过SVM算法模型和TF-IDF算法模型，通过这两个模型之后，分别得到一个是否为垃圾数据的判断结构；实际应用时，只要其中有一个模型认为当前网络数据是垃圾数据，则当前网络数据被确认为垃圾数据。这样，提高网络数据中垃圾数据的识别准确性。

实施例二

基于上述图1和图2中对应的实施例中所描述的数据处理方法，下述为本公开装置实施例，可以用于执行本公开方法实施例。

本公开实施例提供一种服务器，如图5所示，该服务器50包括：发送器501、处理器502和接收器503；

该处理器502分别与该接收器503和发送器501相连接；

该发送器501，用于向目标网络发送网络访问请求信息，该网络访问请求信息用于指示终端设备请求访问该目标网络.

本公开所提供的服务器50中发送器501还用于发送处理器502根据网络垃圾拦截机制处理完毕的目标数据。

该接收器503，用于根据该网络访问请求信息，获取目标响应数据；

该处理器502，用于根据网络垃圾拦截机制，确定该目标响应数据中的垃圾数据，该网络垃圾拦截处理机制至少包括指根据响应数据的特征信息和权重确定垃圾数据；

在一个实施例中，本公开所提供的服务器50中的处理器502还用于，

通过该输入数据和第二算法模型获取目标垃圾数据；

本公开实施例提供的服务器，当服务器接收到终端设备发送的目标网络访问请求时，将该目标网络访问请求信息向目标网络发送；根据该目标网络访问请求信息获取目标访问数据，并根据网络垃圾拦截机制对该目标访问数据进行处理，确定该目标访问数据中的垃圾数据，再对该垃圾数据进行处理，生成目标数据，最终向终端设备发送该目标数据。

本公开实施例提供的服务器中通过网络垃圾拦截机制，从而能够实现终端设备在通过网络获取数据的同时，接受服务器后台的监管：服务器通过网络垃圾拦截机制通过AI算法，对网络数据进行自动分析，并自动根据预设的垃圾数据处理策略对归类为网络垃圾的网络数据进行处理。

基于上述图1和图2对应的实施例中所描述的数据处理方法，本公开实施例还提供一种计算机可读存储介质，例如，非临时性计算机可读存储介质可以是只读存储器(英文：Read Only Memory，ROM)、随机存取存储器(英文：Random Access Memory，RAM)、CD-ROM、磁带、软盘和光数据存储装置等。该存储介质上存储有计算机指令，用于执行上述图1和图2对应的实施例中所描述的数据处理方法，此处不再赘述。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

Claims

1.一种数据处理方法，其特征在于，所述方法应用于服务器，所述方法包括：

向目标网络发送网络访问请求信息，所述网络访问请求信息用于指示终端设备请求访问所述目标网络；

根据所述网络访问请求信息，获取目标响应数据；

根据网络垃圾拦截机制，确定所述目标响应数据中的垃圾数据，所述网络垃圾拦截处理机制至少包括根据响应数据的特征信息和权重确定垃圾数据；

根据垃圾数据处理策略，对所述垃圾数据进行处理后，生成目标数据。

2.根据权利要求1所述的方法，其特征在于，所述网络垃圾拦截机制包括第一算法模型和第二算法模型，所述确定所述目标响应数据中的垃圾数据，包括：

根据所述第一算法模型，确定所述目标响应数据的目标特征信息，所述特征信息包括以下至少一种信息：所述目标响应信息对应的目标特征词及所述目标特征词对应的词频与逆向文件频率，所述第一算法模型包括TF-IDF(term frequency–inverse documentfrequency)算法模型；

根据所述目标特征信息和第二算法模型，确定所述目标数据中的垃圾数据，所述第二算法模型包括SVM(support vector machines)算法模型。

3.根据权利要求2所述的方法，其特征在于，所述获取逆向文件频率，包括：

通过所述第一算法模型提取所述目标响应数据对应的特征词，并获取每个特征词对应的逆向文件频率值；

根据所述每个特征词对应的逆向文件频率值，确定所述特征词中的目标特征词，并获取所述目标特征词对应的逆向文件频率。

4.根据权利要求1所述的方法，其特征在于，所述方法在获取目标响应数据之后，还包括：

当向所述终端设备发送所述目标响应数据时，生成标记请求信息并向终端设备发送，所述标记请求信息用于请求标记所述目标响应数据是垃圾数据或非垃圾数据；

根据所述标记请求信息，获取所述终端设备的标记处理结果，并根据所述标记处理结果对所述目标响应数据进行标记处理；

根据标记处理结果，向终端设备发送所述目标响应数据中标记为非垃圾数据的数据。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.一种服务器，其特征在于，包括：接收器和处理器、发送器；

所述处理器分别与所述接收器和发送器相连接；

所述发送器，用于向目标网络发送网络访问请求信息，所述网络访问请求信息用于指示终端设备请求访问所述目标网络；

所述接收器，用于根据所述网络访问请求信息，获取目标响应数据；

所述处理器，用于根据网络垃圾拦截机制，确定所述目标响应数据中的垃圾数据，所述网络垃圾拦截处理机制至少包括指根据响应数据的特征信息和权重确定垃圾数据；

并，根据垃圾数据处理策略，对所述垃圾数据进行处理后，生成目标数据。

7.根据权利要求6所述的服务器，其特征在于，所述处理器还用于，

8.根据权利要求7所述的服务器，其特征在于，所述处理器还用于，

9.根据权利要求6所述的服务器，其特征在于，所述处理器还用于，

10.根据权利要求7所述的服务器，其特征在于，所述处理器还用于，