CN111062212B

CN111062212B - 一种基于优化tfidf的特征提取方法及系统

Info

Publication number: CN111062212B
Application number: CN202010189034.5A
Authority: CN
Inventors: 张鑫明; 白冬立
Original assignee: Beijing Hot Cloud Technology Co ltd
Current assignee: Beijing Hot Cloud Technology Co ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-06-30
Anticipated expiration: 2040-03-18
Also published as: CN111062212A

Abstract

本发明提供一种基于优化TFIDF的特征提取方法及系统，其中方法包括对文本进行分词处理并计算TF和IDF值，还包括以下步骤：记录所有类文档总数和一个类的文档总数，计算类别分布因子

；记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数，计算类间分布因子

；分别计算每个文档中特征词出现位置的方差值，求取相同特征词的方差值之和，计算方差分布因子

；对所述TF和IDF值的权重值、所述类别分布因子

、所述类间分布因子

和所述方差分布因子

进行归一化计算，得到优化后的权重值。本发明提出的基于优化TFIDF的特征提取方法及系统，基于词频分布信息和TFIDF类别分布信息提出三个分布因子，三个分布因子相互独立，共同支撑单个文本具有大量词汇的不平衡数据集的权重衡量，同时每个因子的值和权重成正相关，以乘积的形式计算最终值。

Description

一种基于优化TFIDF的特征提取方法及系统

技术领域

本发明涉及文本词特征提取的技术领域，特别是一种基于优化TFIDF的特征提取方法及系统。

背景技术

随着互联网的普及和迅猛发展，网络上产生了海量的文本信息。为满足用户在海量数据背景下对信息的多样化需求，需要对文本数据进行有效分类。文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。文本分类通常把文本信息转换为特征向量。由于文本集中的任何单词项都可能成为特征词，因此会造成最终的特征向量维度过高进而影响分类结果。常用的特征空间降维方法是特征提取。

TFIDF（Term Frequency and Inverted Document Frequency）算法是较为常用的文本特征提取方法。目前针对TFIDF算法已经出现许多改进方法。2017年9月的北京理工大学学报第37卷第9期公开了赵胜辉、李吉月、徐碧和孙博研的《基于TFIDF的社区问答系统问句相似度改进算法》的文章，该文针对社区问答系统，按照用户的查询意图对问句进行分类后，根据特征词在类别中的分布对权值进行调整。2013年的计算机工程与应用第49期公开了郭红钰的《基于信息熵理论的特征权重算法研究》考虑到特征词在文档中出现的频率及该特征词在训练集中的集中度和在各个类别中的分散度提出了基于信息熵理论的特征权重算法。2018年的Advances in Intelligent Systems and Computing, vol 905.公开了Yanpeng Wang、Dehai Zhang和Ye Yuan的《Research and Improvement of TF-IDFAlgorithm Based on Information Theory》提出一种以信息论中的信息熵和相对熵为计算因子的TFIDF改进算法。2016年的Pattern Recognition Letters 上公开了 Chien-Hsing Chen的《Improved TFIDF in big news retrieval: An empirical study》提出一种新的基于距离的特征词加权方法，此算法在新闻分类和聚类方面表现更加突出。以上算法都考虑了分类文本集中的特征词关于类别间的优化计算，但是在单个文本具有大量词汇的不平衡数据集中，以上算法不能有效计算出精准权重。

发明内容

为了解决上述的技术问题，本发明提出的基于优化TFIDF的特征提取方法及系统，基于词频分布信息和TFIDF类别分布信息提出三个分布因子，三个分布因子相互独立，共同支撑单个文本具有大量词汇的不平衡数据集的权重衡量，同时每个因子的值和权重成正相关，以乘积的形式计算最终值。

本发明的第一目的是提供一种基于优化TFIDF的特征提取方法，包括对文本进行分词处理并计算TF和IDF值的权重值，还包括以下步骤：

步骤1：记录所有类文档总数和一个类的文档总数，计算类别分布因子

；

步骤2：记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数，计算类间分布因子

；

步骤3：分别计算每个文档中特征词出现位置的方差值，求取相同特征词的方差值之和，计算方差分布因子

；

步骤4：对所述TF和IDF值的权重值、所述类别分布因子

、所述类间分布因子

和所述方差分布因子

进行归一化计算，得到优化后的权重值。

优选的是，所述对文本进行分词处理并计算TF和IDF值步骤包括以下子步骤：

步骤01：选择数据集并使用结巴分词对文本进行分词处理；

步骤02：读取停用词文件，去除停用词；

步骤03：读取每个文本的每个特征词个数及总数，计算包含特征词的文档个数和文档总数，计算TF和IDF值的权重值，所述TF和IDF值的权重值的计算公式为

其中，

为特征词

在文本

中的权重值，

，

为特征词

在文本

中出现的频率，

为特征词

的文本数量关于总文本数量逆文档频率，

表示文本

中特征词

出现的次数，

表示文本

中第k个特征词

出现的次数，N为文本语料库中文本的总数，n为文本语料库中包含特征词

的文本数，k为一个文本中特征词的编号，j为文本编号。

在上述任一方案中优选的是，对所述TF和IDF值的权重值进行归一化处理，公式为

。

在上述任一方案中优选的是，所述类别分布因子

的计算公式为

，其中，

为类

中所有文档的数量。

在上述任一方案中优选的是，所述类间分布因子

的计算公式为

，其中，

为类

中包含特征词

的文本个数，

为所有包含特征词

的文本个数。

在上述任一方案中优选的是，所述方差分布因子

的计算公式为

，其中，

表示特征词在第

个文本中的方差值，m表示文本总个数。

在上述任一方案中优选的是，所述总体方差

的计算公式为

，其中，

表示特征词

在文档中出现的位置，

表示总体均值，n3表示特征词

在文档中出现的总个数。

在上述任一方案中优选的是，所述步骤4包括根据所述类别分布因子

、所述类间分布因子

和所述方差分布因子

，计算得到改进权重TFIDF-CV，公式为

其中，n为文本语料库中包含特征词

的文本数，m表示文本总个数。

在上述任一方案中优选的是，所述归一化处理的公式为

。

本发明的第二目的是提供一种基于优化TFIDF的特征提取系统，包括用于对文本进行分词处理并计算TF和IDF值的权重值的文本处理模块，还包括以下模块：

类别分布因子计算模块：用于记录所有类文档总数和一个类的文档总数，计算类别分布因子

；

类间分布因子计算模块：用于记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数，计算类间分布因子

；

方差分布因子计算模块：用于分别计算每个文档中特征词出现位置的方差值，求取相同特征词的方差值之和，计算方差分布因子

；

归一化计算模块：用于对所述TF和IDF值的权重值、所述类别分布因子

、所述类间分布因子

和所述方差分布因子

进行归一化计算，得到优化后的权重值；

所述系统采用如第一目的所述的方法进行特征提取。

优选的是，所述文本处理模块包括以下子模块：

分词处理子模块：用于选择数据集并使用结巴分词对文本进行分词处理；

停用词处理子模块：用于读取停用词文件，去除停用词；

计算子模块：用于读取每个文本的每个特征词个数及总数，计算包含特征词的文档个数和文档总数，计算TF和IDF值的权重值。

在上述任一方案中优选的是，所述TF和IDF值的的权重值计算公式为

其中，

为特征词

在文本

中的权重值，

，

为特征词

在文本

中出现的频率，

为特征词

的文本数量关于总文本数量逆文档频率，

表示文本

中特征词

出现的次数，

表示文本

中第k个特征词

的文本数，k为一个文本中特征词的编号，j为文本编号。

。

在上述任一方案中优选的是，所述类别分布因子

的计算公式为

，其中，

为类

中所有文档的数量。

在上述任一方案中优选的是，所述类间分布因子

的计算公式为

，其中，

为类

中包含特征词

的文本个数，

为所有包含特征词

的文本个数。

在上述任一方案中优选的是，所述方差分布因子

的计算公式为

，其中，

表示特征词在第

个文本中的方差值，m表示文本总个数。

在上述任一方案中优选的是，所述总体方差

的计算公式为

，其中，

表示特征词

在文档中出现的位置，

表示总体均值，n3表示特征词

在文档中出现的总个数。

在上述任一方案中优选的是，所述归一化计算模块还用于根据所述类别分布因子

、所述类间分布因子

和所述方差分布因子

，计算得到改进权重TFIDF-CV，公式为

其中，n为文本语料库中包含特征词

的文本数，m表示文本总个数。

在上述任一方案中优选的是，所述归一化处理的公式为

。

本发明提出了一种基于优化TFIDF的特征提取方法及系统，通过对大量文本文件进行计算、测试和比较，打破了传统TFIDF的局限性，在加强特征词的类别间词频和单个文本中词频的分布方面发挥了重要作用，能够很好地提升了原算法计算权重的精准度。

附图说明

图1为按照本发明的基于优化TFIDF的特征提取方法的一优选实施例的流程图。

图1A为按照本发明的基于优化TFIDF的特征提取方法的如图1所示实施例的分词处理及权重值计算方法流程图。

图2为按照本发明的基于优化TFIDF的特征提取系统的一优选实施例的模块图。

图3为按照本发明的基于优化TFIDF的特征提取方法的一优选实施例的算法准确率对比示意图。

图4为按照本发明的基于优化TFIDF的特征提取方法的如图3所示实施例的算法F度量值对比示意图。

图5为按照本发明的基于优化TFIDF的特征提取方法的如图3所示实施例的算法召回率对比示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1所示，执行步骤100，对文本进行分词处理并计算TF和IDF值的权重值。如图1A所示，执行步骤101，选择数据集并使用结巴分词对文本进行分词处理。执行步骤102，读取停用词文件，去除停用词。执行步骤103，读取每个文本的每个特征词个数及总数，计算包含特征词的文档个数和文档总数，计算TF和IDF值的权重值。TF和IDF值的权重值的计算公式为

其中，

为特征词

在文本

中的权重值，

，

为特征词

在文本

中出现的频率，

为特征词

的文本数量关于总文本数量逆文档频率，

表示文本

中特征词

出现的次数，

表示文本

中第k个特征词

的文本数，k为一个文本中特征词的编号，j为文本编号。对所述TF和IDF值的权重值进行归一化处理，公式为

。

执行步骤110，记录所有类文档总数和一个类的文档总数，计算类别分布因子

，类别分布因子

的计算公式为

，其中，

为类

中所有文档的数量。

执行步骤120，记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数，计算类间分布因子

，类间分布因子

的计算公式为

，其中，

为类

中包含特征词

的文本个数，

为所有包含特征词

的文本个数。

执行步骤130，分别计算每个文档中特征词出现位置的方差值，求取相同特征词的方差值之和，计算方差分布因子

，方差分布因子

的计算公式为

，其中，

表示特征词在第

个文本中的方差值，m表示文本总个数。总体方差

的计算公式为

，其中，

表示特征词

在文档中出现的位置，

表示总体均值，n3表示特征词

在文档中出现的总个数。

执行步骤140，对所述TF和IDF值的权重值、所述类别分布因子

、所述类间分布因子

和所述方差分布因子

进行归一化计算，得到优化后的权重值。根据所述类别分布因子

、所述类间分布因子

和所述方差分布因子

，计算得到改进权重TFIDF-CV，公式为

其中，n为文本语料库中包含特征词

的文本数，m表示文本总个数。归一化处理的公式为

。

实施例二

如图2所示，一种基于优化TFIDF的特征提取系统，包括文本处理模块200、类别分布因子计算模块210、类间分布因子计算模块220、方差分布因子计算模块230和归一化计算模块240。

文本处理模块200用于对文本进行分词处理并计算TF和IDF值的权重值。文本处理模块200包括分词处理子模块、停用词处理子模块和计算子模块。分词处理子模块用于选择数据集并使用结巴分词对文本进行分词处理。停用词处理子模块用于读取停用词文件，去除停用词。计算子模块用于读取每个文本的每个特征词个数及总数，计算包含特征词的文档个数和文档总数，计算TF和IDF值的权重值。TF和IDF值的权重值的计算公式为

其中，

为特征词

在文本

中的权重值，

，

为特征词

在文本

中出现的频率，

为特征词

的文本数量关于总文本数量逆文档频率，

表示文本

中特征词

出现的次数，

表示文本

中第k个特征词

。

类别分布因子计算模块210用于记录所有类文档总数和一个类的文档总数，计算类别分布因子

，类别分布因子

的计算公式为

，其中，

为类

中所有文档的数量。

类间分布因子计算模块220用于记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数，计算类间分布因子

，类间分布因子

的计算公式为

，其中，

为类

中包含特征词

的文本个数，

为所有包含特征词

的文本个数。

方差分布因子计算模块230用于分别计算每个文档中特征词出现位置的方差值，求取相同特征词的方差值之和，计算方差分布因子

，方差分布因子

的计算公式为

，其中，

表示特征词在第

个文本中的方差值，m表示文本总个数。总体方差的计算公式为

，其中，

表示特征词

在文档中出现的位置，

表示总体均值，n3表示特征词

在文档中出现的总个数。

归一化计算模块240用于对所述TF和IDF值的权重值、所述类别分布因子

、所述类间分布因子

和所述方差分布因子

、所述类间分布因子

和所述方差分布因子

，计算得到改进权重TFIDF- CF，公式为

其中，n为文本语料库中包含特征词

的文本数，m表示文本总个数。归一化处理的公式为

。

实施例三

针对单个文本具有大量词汇的不平衡数据集的文本特征提取问题，本文提出一种TFIDF-CV（Class Variance–Term Frequency and Inverted Document Frequency）算法。算法考虑到单个文本内的特征词的分布状态，特征词权值依据特征词分布情况不同而改变。例如平均分布在一篇文章的特征词比集中在一个段落的特征词权重高。另外算法还定义了类分布因子，用以调整数据集中文档数量少的类中的特征词权重计算。

1传统TFIDF算法

TFIDF是一种特征加权算法，它结合词频(Term Frequency，TF)和逆文档频率(Inverted Document Frequency ,IDF)来计算文本中特征词的权重。基本思想是文本中特征词的权重与其在当前文本中出现的频率成正比，并且与文本集中包含特征词的文本个数成反比。其计算公式如下：

（1）

其中，

为特征词

在文本

中的权重值，

，

为特征词

在文本

中出现的频率，

为特征词

的文本数量关于总文本数量逆文档频率，

表示文本

中特征词

出现的次数，

表示文本

中第k个特征词

的文本数，k为一个文本中特征词的编号，j为文本编号。为了使最终结果被限定在0~1之间，要对算法做出归一化处理。公式如下：

（2）

TFIDF算法的优点是算法易于理解、在大任务分类中具有较高的准确率，因此得到了广泛的应用。不过在数据集中文档数量少的类中，当特征词主要存在于这个类时，理应获得高权重来反映文本特征，但是由于文档频率小于给定阈值而被删除。在分类文本集中，无论是不同类别之间、单个类别之内还是某个文本文件中该算法都未考虑特征词在文本的位置分布情况。例如：在不同类别之间，若某个特征词在某个类频繁出现，而在其他类中出现较少，这个特征词的特征权重明显是高的，而在算法中无法体现。同样在单个文本文件之中，特征词集中在某一部分与分散在整篇文章的价值明显是不一样的，但计算结果是一样的。

2基于词频分布的TFIDF改进

在具有类别分布的不平衡数据集中，传统的特征选择算法通常倾向于选择大类别中的特征词。同时类别间词频和单个文本中词频的分布差异都将导致最终特征的不同权重。因此本文基于词频分布信息和TFIDF类别分布信息提出三个分布因子。三个分布因子相互独立，共同支撑单个文本具有大量词汇的不平衡数据集的权重衡量。同时每个因子的值和权重成正相关，所以以乘积的形式计算最终值。

三个分布因子都采用对数的计算方式来缓冲分布因子计算结果过大问题。

2.1分布因子设计

2.1.1类别分布因子

类别分布因子反映了文档类别的分布信息。该因子所针对的是特征词所在的不同类中每个类的文本数量占所有类的文本数量的大小这一情况，目的是缓解逆文档频率计算权重倾向大类别忽略小类别的局限性。它可以通过计算数据集中文档N的总数与类

中所有文档的数量

之间的商的对数来获得。当类

中所有文档的数量占文档N总数的小部分时，表明该类

文档数量少，属于小类。为避免传统算法倾向大类别忽略小类别的局限性，通过求文档总数与类

文档数量的商值来平衡大类和小类。类别分布因子

计算公式为：

（3）

2.1.2类间分布因子

类间分布因子反映了文档类间的分布信息。该因子对特征词在所有类中的分布情况进行考虑，弥补了逆文档频率没能处理多个类别的局限。它可以通过计算数据集类

中包含特征词的文本个数

与数据集中所有包含特征词

的个数的商的对数来获得。通过求类间特征词的占比来反映特征词分布状况对类的重要程度。当类

中特征词的文本个数

占所有包含特征词

的文本个数

的主要部分时，表明此特征词主要分布在一个类中，进而表明该特征词能够很好地区分不同类别，应获得更高的权重。类间分布因子

计算公式为：

（4）

2.1.3方差分布因子

该因子针对一个文本中的特征词分布情况，是对词频的进一步完善，并由方差来体现。方差能够衡量一组数据的离散程度。文档中一个特征词的分布情况可以由方差来表现。方差越大说明特征词在一个文档中分布越分散，分布越分散区分文档能力越强。方差越小说明特征词在一个文档中分布越集中，分布越集中表明该特征词主要集中在一个部分或一个段落，区分文档类别的能力弱。方差计算公式为：

（5）

其中，

表示总体方差，

表示特征词

在文档中出现的位置（数字形式表示），

表示总体均值（

的计算方法为求每个特征词出现位置的总值的平均值），n3表示特征词

在文档中出现的总个数。为避免方差值过大影响权重计算，同时考虑到一个特征词在多个文本中有多个方差值，特做如下处理：

（6）

其中

表示方差分布因子，j表示同类的第j个文本，

表示特征词在第

个文本中的方差值，

表示总体方差。

对数的底数设为二（三个分布因子的最终计算结果以乘积的形式计算最终权重值。由于最终权重值按照大小排序比较，所以每次计算的底数需保持一致，对底数值无特别要求，只要保持三个分布因子底数相同。）真数为底数二加上各分布因子计算结果，避免对数结果出现零及小于零的问题。

2.2改进的TFIDF算法

基于以上公式（3）（4）（6），得到改进的权重公式TFIDF-CV为：

（7）

其中，n为文本语料库中包含特征词

的文本数，m表示文本总个数。把公式（7）替换公式（1）代入到公式（2）后得到归一化公式为：

（8）

上述的三个分布因子能够很好地反映特征词的重要性。在一个不平衡分类数据集中，若特征词所在类文档个数越小，其

值越大。若特征词主要存在于一个类中，其

值更大。若特征词均匀分散在一个文档中，得到的

值更大。

、

的值越大其权重的最终结果越大。基于以上分析，可以看出改进的权重计算公式打破了传统TFIDF的局限性，在加强特征词的类别间词频和单个文本中词频的分布方面发挥了重要作用。

2.3改进算法的计算过程

该改进算法使用python语言实现。算法的具体实现流程图如下：

Step0：选择数据集并使用结巴分词对文本进行分词处理。

Step1：读取停用词文件，去除停用词。

Step2：读取每个文本的每个特征词个数及总数，计算包含特征词的文档个数和文档总数，根据公式（1）分别求TF和IDF值。

Step3：记录所有类文档总数和一个类的文档总数，根据公式（3）计算

值。

Step4：记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数，根据公式（4）计算

值。

Step5：分别计算每个文档中特征词出现位置的方差值，求取相同特征词的方差值之和。根据公式（6）求

值。

Step6：根据公式（7）进行归一化计算，得到优化后的权重值。

3 特征选择及分类策略

3.1特征选择

在文本分类过程中，会对数据集中的文本进行分词处理和去除停用词处理。在得到的特征词集合中特征词的数量大，所以处理时特征空间维数大，也会影响到文本分类过程。特征选择过程就是降维过程。常用的特征选择方法有信息增益(IG:InformationGain)、互信息(MI:Mutual Information)、

统计量 (CHI:Chi-square)等。

在后续的实验验证过程中，特征选择采用

统计量。该方法主要衡量特征词t与类别C的相关度，认为两者的关系近似服从自由度为1的

分布，

统计值越大，特征词t与类别C相关性越大。计算公式如下:

（9）

其中，N表示语料中的文档总数，A表示属于类C且包含词条t的文档数，B表示不属于类C但包含词条t的文档数，D表示属于类C但不包含词条t的文档数，E表示不属于类C且不包含词条t的文档数。

3.2分类策略—K最邻近方法

K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中的方法之一。该方法的思路是：在特征空间中如果一个样本的k个最相似(即特征空间中最邻近)样本大多数属于某一个类别，则该样本也属于这个类别。它输入基于实例的学习，即KNN没有显式的学习过程。其中数据集事先已有了分类和特征值，待收到新样本后直接进行处理。KNN是通过测量不同特征值之间的距离进行分类。关于距离的度量方法，常用的有：欧几里得距离、弦值,相关度,曼哈顿距离或其他。这里使用欧几里得距离，公式如下：

(10)

该公式表示n维空间中两个点之间的真实距离，在二维和三维空间中的欧氏距离就是两点之间的实际距离。

本文从类别和词频两个角度对TFIDF算法进行了改进，提出了三个分布因子，进而提出了TFIDF-CV算法。该算法的设计前提是数据集属于单个文本具有大量词汇的不平衡数据集。通过对大量文本文件进行计算、测试和比较两个算法，能够得出改进算法很好地提升了原算法计算权重的精准度。

实施例四

在本实施例中，对本发明提出的基于优化TFIDF的特征提取方法进行实验，实验结果及分析如下：

1、实验数据集

为了验证本文方法的有效性，通过爬虫爬取网易新闻数据。通过对数据标签归类拿到数量最多的五个类（金融、体育、、文化医药和汽车），按照训练集和测试集2:1的比例把数据集随机划分为训练集和测试集两部分，进而建立语料库。语料库选用样本集样本多，平均每个文档字数1000左右，同时也存在数据不平衡现象，符合针对单个文本具有大量词汇的不平衡数据集。每个类别文档具体个数如表1所示：

表1各类别训练集和测试集文本个数

2、评价指标

分类器模型的评价指标主要有召回率R、精确率P和F度量值。分别表示为：

（11）

（12）

（13）

其中， TP表示实际属于该类别且预测正确的个数，FP表示实际不属于该类别并预测正确的个数，FN表示实际属于该类但预测错误的个数。召回率R、精确率P指标有时候会出现的矛盾的情况，这样就需要F度量值加权调和平均另外两个参数，当

时，就是最常见的F ₁。可知FN综合了P和R的结果，当FN较高时则能说明试验方法比较有效。本实验中将

调整为0.414。

3、实验结果分析

本实验使用Python语言在PyCharm平台编写测试，测试对比算法除了原始算法和所写的改进算法外还有文献《基于信息增益的特征词权重调整算法研究》所提出的TFIDF-IG算法。在训练集执行完后得到不同类别最终权重结果。根据权重值大小排序，选取前17个特征词作为测试对照词。同时在测试集使用CHI平方统计特征选择方法在每个文档中分别选择30个特征。最后在K最邻近分类器下执行分类测试。测试结果展示了准确率P和F度量值，如下表所示：

表2 三种算法对比测试结果

TFIDF与TFIDF-CV算法的准确率、F度量值和召回率的对比结果如图3、图4、图5所示，准确率由算法中的类别分布因子

和类间分布因子

共同支持，用以区别不同类别。准确率高则其他类别误判的情况就小。召回率由方差分布因子

支撑，用以找到类中真正具有类别特点的特征词。召回率高说明特征词选择更精确。

由表2和图3、图4、图5可以看出，改进的TFIDF-CV算法的准确率在医药方面与原始算法相差不多，在其他类别有明显提高。同时改进算法提取特征词的F度量值在各方面都明显优于传统算法，对于TFIDF-IG来说，改进算法总的来讲略有提高。通过实验表明改进算法所包含的三个分布因子在各自作用域起到了不同程度的优化作用。

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。