CN107908720A

CN107908720A - 一种基于AdaBoost算法的专利数据清洗方法及系统

Info

Publication number: CN107908720A
Application number: CN201711118679.4A
Authority: CN
Inventors: 郎利影; 王田雨
Original assignee: Hebei University of Engineering
Current assignee: Hebei University of Engineering
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2018-04-13

Abstract

本发明属于数据处理技术领域，更具体地，涉及一种基于AdaBoost算法的专利数据清洗方法及系统。它包括以下步骤：S1，从专利数据库中采集专利数据，将采集到的专利数据源放入待清洗数据库中；S2，对待清洗数据库中的专利数据源进行数据分析，确定专利数据的属性信息；S3，定义清洗规则，根据专利数据源不同的错误类型制定不同的清洗规则；S4，根据清洗规则对专利数据源进行初次清洗；S5，采用AdaBoost算法对初次清洗后的专利数据进行深度清洗；S6，验证清洗结果，判断是否满足清洗要求，如果是，则转到步骤S7，否则，跳转回步骤S2；S7，干净数据回流，用清洗后的专利数据替换原专利数据。

Description

一种基于AdaBoost算法的专利数据清洗方法及系统

技术领域

本发明属于数据处理技术领域，更具体地，涉及一种基于AdaBoost算法的专利数据清洗方法及系统。

背景技术

当今社会，随着信息化时代的到来，推进了数据需求量，从而使得在数据处理方面越来越复杂，对于海量的数据进行挖掘分析最重要的步骤就是数据清洗。数据清洗过程中需要识别出不同的错误类型，如果只靠人工操作属于事倍功半，结合AdaBoosting算法将数据进行识别分类进行分析检测能够提升很大的效率，完成大容量的数据清洗任务。

当前，专利数据清洗面临的主要问题在于：

(1)随着我国逐渐成为专利大国，专利数据越来越多，各企业的需求也逐渐增多。由于数据量呈爆炸式增长，数据清洗的任务也随之愈加艰巨，国情的发展迅速，在进行数据的采集、数据源的不同、数据的实时更新还有数据的汇总等方面都在跟着不断地扩展，因此很容易导致来自数据不同方面的错误率升高，进而致使数据质量降低。

(2)对于传统的数据清洗方法在处理现如今大数据量的时候性能无法达到需求，进而无法有效地处理巨大的数据集。所以针对大量的专利数据进行更有效的清洗工作是本章节需要解决的问题。针对专利数据提出一套合适的方法，能够更好的解决专利数据的质量问题。

针对专利权人以及发明人的数据信息进行清洗，在专利分析中具有独特的价值，对数据信息进行更有效的分类处理能够体现信息内部看不到的数据信息，使信息更简明，对后期的分析工作做了良好的铺垫。同时也提高了数据清洗的效率，降低了数据清洗的成本。为了完成对专利权人及发明人的清洗工作，本发明运用了AdaBoost算法对其进行重新分类，将更多的小分类结合成一个更有用的大分类体系。对数据清洗的方法给予了新的思想，也对相近的数据类型的清洗任务给予了有用的参照。

发明内容

为此，本发明提出了一种基于AdaBoost算法的专利数据清洗方法及系统，该清洗方法具有适合专利数据清洗的框架，框架主要分为两大类，第一类是一般性清洗，第二类是深度清洗，本发明首先将专利数据的错误类型与一般性数据清洗的常见问题和一般性框架相结合对数据进行修改以完成基本的清洗工作，在对数据初步处理的基础上进行深度的清洗，其中抽取专利数据中的部分数据信息进行有效地分类并运用分类算法AdaBoost算法运用到清洗环节。

为实现上述目的，本发明采用如下技术方案：

一种基于AdaBoost算法的专利数据清洗方法，它包括以下步骤，

S1，从专利数据库中采集专利数据，将采集到的专利数据源放入待清洗数据库中；

S2，对待清洗数据库中的专利数据源进行数据分析，确定专利数据属性信息；

S3，定义清洗规则，根据专利数据源不同的错误类型制定不同的清洗规则；

S4，根据清洗规则对专利数据源进行初次清洗；

S5，采用AdaBoost算法对初次清洗后的专利数据进行深度清洗；

S6，验证清洗结果，判断是否满足清洗要求，如果是，则转到步骤S7，否则，跳转回步骤S2；

S7，干净数据回流，用清洗后的专利数据替换原专利数据。

本技术方案进一步的优化，所述步骤S3中清洗规则包括非法值、空值、不一致数据、相似重复记录的检测和处理。

本技术方案进一步的优化，所述空值的处理方法是填充数据值。

本技术方案更进一步的优化，所述空值的填充数据值方法包括平均值填充法、运用K最近邻算法或神经网络相关算法。

本技术方案进一步的优化，所述相似重复记录数据的清洗规则具体采用近邻排序算法SNM。

一种基于AdaBoost算法的专利数据清洗系统，它包括，

专利数据采集模块，从专利数据库中采集专利数据，将采集到的专利数据源放入待清洗数据库中；

数据分析模块，对待清洗数据库中的专利数据源进行数据分析，确定专利数据的属性信息，并根据专利数据源不同的错误类型制定不同的清洗规则；

初次清洗模块，根据清洗规则对专利数据源进行初次清洗；

深度清洗模块，采用AdaBoost算法对初次清洗后的专利数据进行深度清洗；

数据回流模块，干净数据回流，用清洗后的专利数据替换原专利数据。

区别于现有技术，上述技术方案具有如下有益效果：

通过应用AdaBoost算法对数据进行分类大大的提高了工作效率，实现了自动分类的方法，减少了时间、人力、物力、财力等多方面的耗损。对于分类结果AdaBoost算法在每轮循环的过程中都在减小错误率，对于被分错的数据条赋予的权重就会增加，反之被正确分类的数据条的权重就相对降低，从而提高了学习的精度和准确率，所以AdaBoost算法的正确率更高，根据AdaBoost算法训练集与测试集的误差结果对比，可以发现AdaBoost算法的错误率比较小，更大的避免了过拟合现象的发生。

Adaboost算法一般都应用在图像处理识别的领域，本发明使用Adaboost算法进行数据清洗。

附图说明

图1为具体实施方式所述专利数据清洗方法流程图；

图2为原始专利数据表；

图3为部分专利数据图；

图4为重复专利数据图；

图5为AdaBoost算法分类训练集图；

图6为AdaBoost算法分类测试集图；

图7为训练集和测试集结果对比图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，本发明优选一实施例的流程图，一种基于AdaBoost算法的专利数据清洗方法，它包括以下步骤，

S1，从专利数据库中采集专利数据，将采集到的专利数据源放入待清洗数据库中。

该实施例采用Derwent数据库为基础数据源，数据采集领域是钢铁行业。汇总检索词、IPC分类号、Derwent手工代码等作为基础检索手段，制定检索策略，从中提取出与钢铁行业相关的专利数据，共检索数据约二十七万条专利数据用于数据标引。在检索过程中，将检索词、IPC分类号和Derwent手工代码等三个检索手段按照DII的检索要求，依照该实施例主题并考虑检索命中记录量，查询是否准确和完整相结合，对这三个检索进行了逻辑组合形成检索式，检索并下载了27万余条的数据，保证了数据的完整性和全面性，为从中选择数据标引加工、建立数据库提供了数据基础。原始专利数据表如图2所示，其中“AE”字段体现专利权人信息，“AU”字段体现发明人信息。通过对专利信息的采集，数据标引加工，将其存储到本地数据库，建立待清洗数据库。

S2，对待清洗数据库中的专利数据源进行数据分析，确定专利数据属性信息。

对专利数据源进行数据分析：

①抽取专利数据的唯一标识“ID”和具体内容“专利权人”、“发明人”三个字段的数据信息，去除不必要字段信息。②将专利权人以及发明人信息分别提取为<专利权人的名称，专利权人出现的顺序，四位字母代码，专利权人类型>和<发明人的名字，发明人出现的顺序，四位字母代码>的结构，其中一般情况下取专利权人第一个出现的名称，去除不必要的数据信息。③保证数据格式统一。④以字段ID为唯一主键，保证数据不重复。

S3，定义清洗规则，根据专利数据源不同的错误类型制定不同的清洗规则。

专利数据主要存在几个方面的问题，比如数据中含有缺失值(空值)还有数据中记录重复或者错误的值等。通常来说数据库中是不可以出现空缺的字段值，但现实中往往不能尽人意，多多少少都会发生类似问题。

缺失值产生的原因有很多，不具备数据的完整性，从而涉及到数据质量问题，也就是说数据中“丢失”了某些字段的值。如图3所示，第7行和第11行中的“CI”和“MCI”字段中没有值，所以这条数据就不能确定引用专利的发明人和主发明人信息。如果数据缺失太多，就会影响整条专利的归属人问题，进而也会导致这些数据在以后的使用或者分析过程中出现错误，无法起到准确的决策意义，所以对于数据源中缺失值的问题必须解决。相比较而言，目前对于缺失值的处理方法是填充数据值。比如说运用计算平均值的统计方法进行数据填充、运用K最近邻算法(K-NearestNeighbor)和神经网络相关算法等的分类方法对数据进行分类缩小数据范围加以分析清洗。

由于数据来源不同在整合过程中出现重复记录或者录入错误(包含拼写错误)等原因，都会产生本是同条数据却出现多次的重复。专利数据中存在的重复记录情况，如图4所示。从第9行数据开始数据相同，如果数据量比较多的情况下更会占据没有意义的内存并影响数据的分析结果。主要的方法有计算字段间置于某一个程度的相似度进行清洗，使用的算法就是近邻排序算法SNM。

S4，根据清洗规则对专利数据源进行初次清洗。将专利数据的错误类型与一般性数据清洗的常见问题相结合对数据进行修改以完成基本的清洗工作。

S5，采用AdaBoost算法对初次清洗后的专利数据进行深度清洗。

针对专利权人以及发明人数据实现步骤如下：

1、数据集分为发明人AU和专利权人AE，各取500条数据作为样本集进行测试分析，每条数据被赋予相同的权重。

2、依据一定的分类标准对该数据集进行分类。

3、由此得到第一个Classifier[1](弱分类器)，与此同时也可以得到此次分类中被分错的样本数据，比如将“名字”错分到“类型”中，提高被错分样本数据的权重，来训练下一个Classifier[2]。

4、依据上一次Classifier训练更新样本数据权重后的数据集来训练Classifier[2]。其中依据样本权重来影响此次训练的错误率来使此次Classifier[2]足够重视之前的错分样本，即可得到对于上次分错的样本有较好分类能力的Classifier[2]，然后提高本次分类中被分错的样本权重，重复此过程，得到若干个弱分类器Classifier[i]。

5、为前4步骤中得到的Classifier[i]确定在最终的强分类器中的权重，Strong_Classifier＝∑(weight[i]*Classifier[i])(弱分类器的线性组合)，计算Strong_Classifier的错误率，然后综合考虑程度迭代次数来判断是否继续重复1-5步骤的迭代训练。

S6，验证清洗结果，判断是否满足清洗要求，如果是，则转到步骤S7，否则，跳转回步骤S2。

S7，干净数据回流，用清洗后的专利数据替换原专利数据。数据清洗以后，干净的数据替换脏的数据，避免对处理过的数据进行重复处理。

运用AdaBoost算法首先选取400条数据作为训练集对AdaBoost算法进行训练，通过训练算法等待训练完毕，选取100条数据作为测试集进行测试，最后将清洗后的结果加以分析，参阅图5和图6所示，分别为采用AdaBoost算法分类训练集图和测试集图。参阅图7所示，为训练集和测试集结果对比图。

AdaBoost算法运用在专利文本数据中，更精细的划分出了字段信息和对应的内容，在检索查询方面通过查询更细分的字段会更加便捷的查询到想要的信息。例如，发明人字段，分出了第一发明人，第二发明人等，第一发明人是最主要的，如果某个公司想要引进人才，那么就可以查询第一发明人，查看第一发明人的信息和专利申请量，发现他的潜力。在原始数据中并不能一次检索查询到此内容，因为原始数据中大字段只有一个“发明人”，其中的信息内容也有多个发明人的名字，但是在重新细分分类中，将发明人的名字重新划分，将发明人的名字和出现的顺序一一对应。

一种基于AdaBoost算法的专利数据清洗系统，其特征在于：它包括，

初次清洗模块，根据清洗规则对专利数据源进行初次清洗；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种基于AdaBoost算法的专利数据清洗方法，其特征在于：它包括以下步骤，

S2，对待清洗数据库中的专利数据源进行数据分析，确定专利数据的属性信息；

S4，根据清洗规则对专利数据源进行初次清洗；

S5，采用AdaBoost算法对初次清洗后的专利数据进行深度清洗；

S7，干净数据回流，用清洗后的专利数据替换原专利数据。

2.如权利要求1所述基于AdaBoost算法的专利数据清洗方法，其特征在于：所述步骤S3中清洗规则包括非法值、空值、不一致数据、相似重复记录的检测和处理。

3.如权利要求2所述基于AdaBoost算法的专利数据清洗方法，其特征在于：所述空值的处理方法是填充数据值。

4.如权利要求3所述基于AdaBoost算法的专利数据清洗方法，其特征在于：所述空值的填充数据值方法包括平均值填充法、运用K最近邻算法或神经网络相关算法。

5.如权利要求2所述基于AdaBoost算法的专利数据清洗方法，其特征在于：所述相似重复记录数据的清洗规则具体采用近邻排序算法SNM。

6.一种基于AdaBoost算法的专利数据清洗系统，其特征在于：它包括，专利数据采集模块，从专利数据库中采集专利数据，将采集到的专利数据源放入待清洗数据库中；

初次清洗模块，根据清洗规则对专利数据源进行初次清洗；