CN106682236A

CN106682236A - 基于机器学习的专利数据处理方法及其处理系统

Info

Publication number: CN106682236A
Application number: CN201710043497.9A
Authority: CN
Inventors: 杨珊珊
Original assignee: High Domain (beijing) Intelligent Technology Research Institute Co Ltd
Current assignee: High Domain (beijing) Intelligent Technology Research Institute Co Ltd
Priority date: 2017-01-19
Filing date: 2017-01-19
Publication date: 2017-05-17

Abstract

一种基于机器学习的专利数据处理方法及其处理系统，该方法包括：在第一步骤(S1)中，确定用于机器学习的原始专利数据，其中，原始专利数据排除人工干预的内容；在第二步骤(S2)中，机器学习每一篇原始专利数据并生成基于机器理解的特征文件；在第三步骤(S3)中，每一篇原始专利数据对应唯一的特征文件，基于特征文件对原始专利数据归类；在第四步骤(S4)中，建立与原始专利数据对应的专利数据库，其中，根据数据处理需求、数据处理频率和/或数据处理时间对特征文件归纳存储，当提出数据处理需求时，基于对专利数据库中的特征文件数据处理以映射对应的原始专利数据。

Description

基于机器学习的专利数据处理方法及其处理系统

技术领域

本发明属于数据处理领域，特别是涉及一种基于机器学习的专利数据处理方法及其处理系统。

背景技术

当前，创新成为中国经济转型的主要要素，而专利制度是创新转型的重要组成部分。专利制度的一大好处，就是能够通过按照有规律揭示的方式，将人类文明中与技术有关的文件呈献给所有人，理论上如果能够有效运转这个制度，就可以使得技术的演进基本不存在任何重复劳动，让技术一个一个脚步的稳定前进。然而，即使专利数据已经是一种很有规律的文体要求的方式出现，但是当专利数据的量级大到一定程度的时候，提供数据完备性反而变得不重要，如何能够让需要的数据呈现到需要的人眼前变成了更重要的问题。

当前解决这个问题的办法，虽然使用了计算机进行数据整理，但是总体而言，计算机只是一种数据存储和数据计算的手段，实际上对这些数据进行分类和筛选，主要还是要依据人为参与。这种专利数据的归集整理也诞生了一个行业，就是专利数据分析。现有的专利数据分析行业，基本是从自然语言处理和语义分析等角度出发，最主要的数据处理方式是基于若干种大方向，包括：分类号筛选、关键词同义词筛选、语义分析、语素关联关系分析等角度去筛选和处理。也有很多号称是使用了大数据方式来处理专利数据的专利数据供应商，但是一个核心的问题是，由于这些专利数据处理办法都是基于分类号、关键词、同义词、同族申请等这样的关系来搭建的，那么就很难回应一个问题。如果这些分类号、关键词、同义词本身就存在由于人为参与造成的偏差，如何能够确保得到一个可靠的数据处理结果。

此外，由于数据的处理必须要基于有经验的工作人员的智力投入，那么无论是对数据进行预处理时对数据库的优化，还是对某个特定数据搜索目标进行搜寻的时候，这些工作都需要有经验的工作人员的人工干预。前者典型的例子，就是专利数据的人工分类，无论国际分类号还是区域分类号(日本、欧洲、美国等区域范围内的分类)。后者典型的例子，就是在实施一项专利创造性检索的时候，需要由有经验的人员来首先分析目标，筛选关键词、同义词，并且根据结果对关键词进行进一步调整等步骤。这就导致了专利数据的处理受限于人力投入，存在数据处理能力的瓶颈，难以充分发挥电脑计算能力的优势。

最后，由于上述专利数据的处理，无论是在数据预处理阶段还是在数据应用阶段，都需要人工干预，也就意味着，不同的人就一定会导致数据出现不同的处理结果，并且不同的人所实施的工作相互之间也并不存在任何明显的关联和帮助，并不能充分发挥大数据的优势。

事实上，由于专利数据库经过长年发展，这个技术领域基本成为一项高投入、低竞争的行业，所以现有的大型专利数据库开发公司倾向于充分利用自身多年发展中整理下来得到的现有数据库，所以这些主体宁愿投入大量人力、物力、财力去完善已有数据，但是难以从自身角度出发革命性的改变专利数据的处理方式。同时，专利数据库的使用方，一则是通常没有能力对专利基础数据在数据处理方式上进行革命性的改变，另外则是专利数据库的使用方往往倾向于培养自己的专业团队，利用专利数据库为技术开发人员进行服务，所以为了凸显专业服务团队的服务水平和能力，反而有意无意的会为专利数据库的使用搭建使用门槛，强调专利数据库并不是任何人都能很好使用的工具，需要有经验、有专业水平的人才能很好的使用，得到最佳结果。

换句话说，专利数据处理这个技术领域自身不存在改进的动力，让专利数据处理摆脱所谓有经验的人的限制，成为一种普通人无需培训就能使用的技术。

参考机器翻译的发展历史可知，最早人们认为用机器来完成翻译任务的最直接的解决方式，就是训练机器学会理解人的一种语言，然后借助机器永不疲倦的工作能力，从一种语言出发，学会所有语言，最终让机器作为中介完成不同语种的互译。通俗的说，机器就好像是一个同传翻译，只是这个同传翻译现在的情况，词汇量是无限的，但是理解能力始终有问题。然而后来，谷歌翻译充分利用网络时代产生的大数据，提出了一种新的思路，就是机器完全不需要读懂和理解人的语言，机器作为一个翻译者，只要知道A语言应该对应B语言即可，换句话说，机器这个翻译者其实不是一个同传翻译，他虽然把一种语言变成了另一种语言，但是其实他也不知道这两句话到底什么意思，他只是通过大量数据量的训练得知，就应该这么转换。由于可参考数据量的足够多，谷歌翻译采用机器翻译的这种思路所实现的翻译效果，开始逐渐明显超越了原有，基于自然语言的翻译方案。换句话说，让机器按照机器的思路去解决问题，不要强求机器按照人的想法去思考问题，从而解放了机器的信息处理能力，充分发挥了机器的信息处理特点。这就是基于数据驱动的应用方式，并且也成为了当前人工智能的发展热点。

具体到专利数据处理而言，本申请发明人注意到，由于当下的专利数据库本身存在积累了几十年甚至上百年的人工分类成果，各国各组织都投入了大量精力去对已有专利数据进行了深加工。所以目前的专利数据库应用方法和处理方法都是集中于对这些数据的精度重新整理，比如进行分类号优化、进行关键检索词的梳理、建立同义词库、建立多国申请文件管理、进行专利申请文件的权重分析和梳理等。但是归根结底，当前专利数据库开发者们，还是囿于已有的知识结构，不能革命性的改变数据使用的思路，导致专利数据的开发利用目前基本处于停滞阶段。虽然不同的专利数据开发商都声称自己掌握了独特的、经过优化的专利数据库，但是实际上这些专利数据库的所谓优化，还是由不同的专利数据开发商基于自身的技术人员团队的能力所实施的，这种优化完全依赖于这些技术人员的人为干预，其效果如何其实难以判断。

专利文献CN101334784 A公开的一种计算机辅助报告与知识库产生方法包括如下步骤：1.1)、服务器端系统接收用户搜索信息的请求，在互联网及第三方数据库中搜索与用户搜索需求匹配的所有结构化及非结构化网页和网站，并将搜索的结果分类、去重、整理后返回给用户的客户端数字终端系统；1.2)、服务器端系统记录用户的搜索行为、主动监测信息源的更新情况并实时捕捉、归类更新的信息，在用户登录时提醒用户信息源的更新情况，同时对用户邮箱发出提醒邮件；1.3)、用户在搜索得到的结果中挑选需要的信息采集到系统中，系统利用知识挖掘方法，生成报告并导出文件；1.4)、服务器端系统对用户的行为进行机器学习，并主动发掘用户的搜索需求，提示用户需要搜索的信息点。该专利大大提高了用户搜索、采集、分类信息的效率，并为企业的决策部门和管理者提供多种途径、更便捷的企业决策工具，但该专利无法处理海量的专利数据，特别是找出相识度高的参考专利。

专利文献CN103593474 A公开的一种基于深度学习的图像检索排序方法包括以下步骤：步骤1，提取查询对象和训练数据库中所有图像的底层特征；步骤2，对于所述步骤1提取得到的查询对象和训练数据库中所有图像的底层特征，通过深度网络进行高层语义学习和特征融合，得到查询对象与训练数据库中的所有图像形成的多个查询对象-图像对的高层特征，以及所述深度网络的初定参数；步骤3，对于所述查询对象-图像对的高层特征分别进行线性回归，得到所述查询对象-图像对的排序分数S(X,Q)；步骤4，根据所述查询对象-图像对的排序分数得到与所述查询对象相关的所述训练数据集中的图像的排序列表，将该排序列表与所述训练数据集中各图像的真实的排序列表进行比较，得到与所述查询对象相关的图像对Xi，Xj的成对损失值；步骤5，基于所述成对损失值，对所述深度网络的初定参数进行调整，得到所述深度网络的最终参数；步骤6，对于新的查询对象，按照所述步骤1计算得到新的查询对象的底部特征Q′；步骤7，基于所述新的查询对象的底部特征Q′，利用所述步骤5得到新的查询对象对应的所述深度网络，在测试数据集中进行搜索，得到与所述新的查询对象相关的图像列表。该专利可以对返回的图像序列进行排序，但该专利的图像处理方法不适用于专利数据的文档处理，特别是找出相识度高的参考专利。

专利文献CN101290626 A公开的一种基于领域知识的文本分类特征选择及权重计算方法按以下步骤进行：(1)收集领域文本和非领域文本作为训练语料和测试语料；(2)文本的预处理：分词，去除停用词，词频统计，文档频率统计；首先对文本进行中文分词处理，采用中科院计算所的分词系统接口实现，并在此基础上借助于领域词库，进行领域词分词处理，并进行领域词标识，文本分词完成后，去掉文本中经常出现的“了”、“呢”、“的”、“怎样”等停用词，然后扫描文档，统计出每个词的词频、领域内文档频率及非领域内文档频率；(3)去掉DF值小于一定阈值的词选取分类特征空间，并采用TFIDF方法进行特征权重计算；在文本预处理完成后，初步利用文档频率去掉低频词，选取1000个特征词，构成分类特征空间；特征词的权重计算采用改进TFIDF＝TF×log(m÷(m+k)×N)方法，其中TF表示某一特征项的词频，m表示该特征项的领域内文档频率，k表示该特征项的非领域内文档频率，N表示全部文档数；(4)在步骤(3)的基础上选取特征空间并扩展领域术语到特征空间，形成分类特征空间并采用改进TFIDF方法进行特征权重计算；即将领域词库中出现的所有领域术语直接扩展到分类特征空间中；(5)在步骤(3)的基础上选取分类特征空间，并利用改进TFIDF方法结合领域知识关系对特征权重进行计算和调整；即通过DF方法获取特征空间后，利用“知网”中领域术语与特征词之间的相关性对特征词权重进行调整，在有限的特征空间内对特征词权重进行调整进而改进文本分类效果；(6)利用不同特征空间选择及特征权重计算方法，用SVM机器学习算法，训练文本分类器，构建领域文本分类模型，并对领域文本进行文本分类实验验证。该专利进行文本分类的准确率比改进TFIDF方法提高4个百分点。但该专利无法对词素进行统计以及针对专利数据中章节结构进行深度学习。

现有专利数据处理方法中，用以对专利数据进行整理的关键信息比如：分类号、关键词等数据是由人为参与，对原始专利文件数据进行阅读和理解得出的，这种基于主观上可能存在阅读差异的工作方式，必然导致专利数据的最终准确性受到干扰。当前无论后期专利数据库整理时，如何通过各种算法去优化、筛选专利数据，但是这些算法都是基于分类号、关键词的经验公式算法，既然基础都可能存在问题，那么现在各种专利数据库公司提出的各种算法，无论是关联分析还是语义分析，都存在准确率上的瓶颈。

在背景技术部分中公开的上述信息仅仅用于增强对本发明背景的理解，因此可能包含不构成在本国中本领域普通技术人员公知的现有技术的信息。

发明内容

本申请注意到上述问题，提出一种完全不依赖人工干预的专利数据处理方法及其处理系统，所谓完全不依赖人工干预是指，在这种专利数据处理方法中，不仅在数据预处理阶段，完全不采用可能存在干扰的人为指定分类号信息、关键词优化信息；而且在数据使用阶段，也可能完全不需要由特定人去归纳关键词信息。

本发明的目的是通过以下技术方案予以实现。

根据本发明的一方面，一种基于机器学习的专利数据处理方法包括以下步骤。

在第一步骤中，确定用于机器学习的原始专利数据，其中，所述原始专利数据排除人工干预的内容。

在第二步骤中，机器学习每一篇所述原始专利数据并生成基于机器理解的特征文件。

在第三步骤中，每一篇所述原始专利数据对应唯一的所述特征文件，基于所述特征文件对原始专利数据归类。

在第四步骤中，建立与所述原始专利数据对应的专利数据库，其中，根据数据处理需求、数据处理频率和/或数据处理时间对所述特征文件归纳存储，当提出数据处理需求时，基于对所述专利数据库中的所述特征文件数据处理以映射对应的原始专利数据。

本申请中的原始专利数据是指由专利申请人原始提交的文献数据以及该专利申请在整个生命周期中按照工作流程，不受人为主观因素干扰而自然形成的客观数据。典型的包括：原始专利申请文本的内容和历次审查意见和答复意见、修改文本的客观内容，还可以包括：专利申请在生命周期中经历的各种流程管理程序的内容与时间节点等客观数据。而人工干预内容是指处于提升原始专利数据的处理和使用效率目的，由不特定人针对海量专利数据进行各种人工方式的分类和数据优化，包括但不限于：人工进行分类并赋予分类号的工作，人为设定同义词库优化检索的工作；人为定义专利文献的关键检索词用于优化检索的工作等等。

在本发明中，对所述专利数据库中的所述特征文件数据处理至少包括对特征文件进行比较、筛选和/或排序以找到如相似度高的特征文件作为目标文件，该目标文件映射的原始专利数据则是最终获得的专利文献。

优选地，在第二步骤中，所述机器学习包括词频统计、文档结构与类型统计、时间统计和/或关联统计。

优选地，在第二步骤中，所述词频统计包括对所述原始专利数据的词素频率统计和/或常见词统计，所述特征文件包括词素频次和/或常见词频次。

优选地，在第四步骤中，对所述特征文件数据处理时，对词素频率统计和常见词统计进行优先级选择。

优选地，在第二步骤中，所述文档结构与类型统计包括换行统计、空格统计和/或标点符号统计，所述特征文件包括换行频次、空格频次和/或标点符号频次。

优选地，在第二步骤中，通过机器学习判断是否存在若干词素或者常见词的重复的关联情形以进行关联统计。

优选地，在第四步骤中，所述特征文件的数据处理基于数据处理时间采用分级策略或者基于相关度建立查找表。

优选地，在第一步骤中，所述原始专利数据包括流程变更数据和费用缴纳数据，所述人工干预的内容为分类号，

在第二步骤中，所述文档结构与类型统计包括换行统计、空格统计、标点符号统计和/或特殊符号集统计，所述特殊符号集包括公式、图标和/或基因序列等，所述特征文件包括换行频次、空格频次、标点符号频次和/或特殊符号集频次。

优选地，在第二步骤中，所述关联统计包括对经由若干同族申请数据建立的关联进行统计。

根据本发明的另一方面，一种实施所述的基于机器学习的专利数据处理方法的处理系统包括存储原始专利数据的存储模块和机器学习所述原始专利数据的处理器，所述处理器包括用于提取词素、常见词、换行、空格和/或标点符号的提取模块、用于机器学习原始专利数据的机器学习模块、用于分类的分类器和用于筛选排序的处理模块，连接提取模块(3)的所述机器学习模块(4)生成特征文件，所述分类器(5)基于所述特征文件对所述原始专利数据分类，根据数据处理需求、数据处理频率和/或数据处理时间对所述特征文件归纳存储，当提出数据处理需求时，所述处理模块(6)处理所述特征文件且映射对应的原始专利数据。

优选地，所述机器学习模块包括用于关联分析的关联模块。

本申请的优势在于：

首先，本申请发明人提出的这种专利数据处理方法，完全基于有客观规律专利原始文件数据进行客观的数据分析和分类整合，在使用这些经过整理的专利数据时，也不需要特定人参与，完全排除了人工干预可能导致的数据不稳定或者数据污染。换句话说，本申请提出的专利数据处理方法，基本刷新了现有基于自然语言处理的工作思路，而是纯粹从机器理解数据的角度去出发。本申请发明人认为，用机器去读取和分析专利数据的时候，机器不需要按照人的思维方式去读懂这些专利数据，机器只需要按照机器的方式来对这些专利数据进行归类，然后在使用者需要的时候，把结果提供给使用者即可。

其次，本申请发明人提出的这种专利数据处理方法，基于海量的有规律的专利文献来建立数据关联，由于专利文献本身的特点，其规律性较强，所以基于当前大数据驱动的设计思路，随着本申请专利数据处理方法所处理的专利数据越多，那么本申请专利数据处理方法得到的结论就越准确，相较于传统专利数据处理方法可能因为人工干预而导致数据准确性存在难以逾越的天花板而言，本申请的专利数据处理方法所处理的专利数据，处理的越多越准确。

最后，本申请的专利数据处理方法，由于不需要人工干预就能完成，所以在数据应用的效率和便捷性上，都摆脱了人力的束缚。对于普通人来说就能很好的使用该专利数据，同时，对于有经验的专业人士而言，也可以将该专利数据作为初筛结果，来进行进一步分析。换句话说，在本申请的专利数据处理方法虽然从底层开始就不同于现有的专利数据处理方法，但是同样也可以兼容现有专利数据处理方法的成果。

上述说明仅是本发明技术方案的概述，为了能够使得本发明的技术手段更加清楚明白，达到本领域技术人员可依照说明书的内容予以实施的程度，并且为了能够让本发明的上述和其它目的、特征和优点能够更明显易懂，下面以本发明的具体实施方式进行举例说明。

附图说明

通过学习下文优选的具体实施方式中的详细描述，本发明各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。显而易见地，下面描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。而且在整个附图中，用相同的附图标记表示相同的部件。

在附图中：

图1是根据本发明一个实施例的基于机器学习的专利数据处理方法的步骤示意图；

图2是根据本发明一个实施例的实施基于机器学习的专利数据处理方法的处理系统的结构示意图。

以下结合附图和实施例对本发明作进一步的解释。

具体实施方式

下面将参照附图更详细地描述本发明的具体实施例。虽然附图中显示了本发明的具体实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

需要说明的是，在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明书的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个附图并不构成对本发明实施例的限定。

图1为本发明的一个实施例的基于机器学习的专利数据处理方法的步骤示意图，本发明实施例将结合图1进行具体说明。

如图1所示，本发明的一个实施例提供了一种基于机器学习的专利数据处理方法，基于机器学习的专利数据处理方法包括以下步骤：

在第一步骤S1中，确定用于机器学习的原始专利数据，其中，所述原始专利数据排除人工干预的内容。

在第二步骤S2中，机器学习每一篇所述原始专利数据并生成基于机器理解的特征文件。

进一步地，所述机器学习包括词频统计、文档结构与类型统计、时间统计和/或关联统计。

在第三步骤S3中，每一篇所述原始专利数据对应唯一的所述特征文件，基于所述特征文件对原始专利数据归类。

在第四步骤S4中，建立与所述原始专利数据对应的专利数据库，其中，根据数据处理需求、数据处理频率和/或数据处理时间对所述特征文件归纳存储，当提出数据处理需求时，基于对所述专利数据库中的所述特征文件数据处理以映射对应的原始专利数据。

在本发明的处理方法中，专利数据是一种有规律的数据，在某个区域内使用某种特定语言，并且呈现一定格式和问题的规律。以中国专利数据为例，中国专利数据包括：发明、实用新型、外观设计三种类型；发明名称、发明内容、具体实施例、说明书附图……等不同部分；申请日、授权日……等流程信息。原始专利数据是指由专利申请人原始提交的文献数据以及该专利申请在整个生命周期中按照工作流程，不受人为主观因素干扰而自然形成的客观数据。典型的包括：原始专利申请文本的内容和历次审查意见和答复意见、修改文本的客观内容，还可以包括专利申请在生命周期中经历的各种流程管理程序的内容与时间节点等客观数据。人工干预内容是指处于提升原始专利数据的处理和使用效率目的，由不特定人针对海量专利数据进行各种人工方式的分类和数据优化，包括但不限于：人工进行分类并赋予分类号的工作，人为设定同义词库优化检索的工作；人为定义专利文献的关键检索词用于优化检索的工作等等。

本发明是一种完全基于机器思维的专利数据处理方法，所以所述原始专利数据排除了人工干预的内容，例如典型的，排除分类号数据，分类号通常是由分类员人工分类，本发明的处理方法禁用了这些与人工干预有关的内容，所述原始专利数据均是未经人工干预的内容。排除所述人工干预的内容并不意味着必须删除人工干预的内容，而是在本发明的处理过程中不采用人工干预的内容。当本发明的处理完成后，如需进一步筛选，仍然可以适用人工干预的内容进行进一步处理。

本发明的基于机器学习的专利数据处理方法纯粹基于原始专利文件数据，进行原始数据为基础的深度学习，对于比较低的数据量而言，这种方式准确性不够，但是由于专利数据数量大、文体规律性强，文件针对性强，本申请的专利数据处理方法能够随着系统“跑数据量”的增加，而不断提高数据精度。总之，本发明的处理方法直接从机器的角度去看待和理解专利原始数据，不考虑自然语言理解与转换分析的问题，极大提高了工作效率，排除了人为干扰，并且具有更高的发展前景。

在一个实施例中，首先，确定作为机器分析的原始数据。该原始数据要求排除经过人为干预的内容，典型的，排除分类号数据这样，通常是由审查部门的分类员，根据阅读原始申请文件之后的理解结果所确定的数据；基于该原始数据，由电脑实施机器阅读，对该原始数据从机器角度进行理解，包括词频统计、文档结构与类型统计、时间信息统计、关联词统计等等；根据对原始数据的机器阅读结果，生成了该原始数据的机器理解的特征文件；基于每一篇专利原始数据的机器理解特征文件来对这些专利原始数据归类。经过上述处理之后，实际上机器理解的特征文件成为了每一篇专利原始数据在本申请专利数据库中的身份特征，每一篇专利原始数据对应一个唯一的机器理解特征文件。本发明的专利数据处理方法则是基于这些海量的机器理解特征文件，将其建立成与原始专利数据对应的专利数据库。根据数据使用需要、数据使用频率、数据库处理每一篇机器理解特征文件所需要的系统时间，将这些机器理解特征文件分成若干的组来归纳存储。单独的机器理解特征文件，对于使用者来说，基本没有任何意义，因为这些机器理解特征文件，顾名思义是以机器能够理解的方式存在，而并不考虑使用者从人的角度是否能够看懂。但是当使用者提出需求的时候，机器能够基于这些机器理解特征文件来猜出使用者的需求所对应的哪篇或者哪部分专利文献在哪儿，并提供给使用者。

根据上述思路，按照最易于本领域技术人员理解的方式，提供一个实施例来帮助将本申请阐述的更明白。为了阐述简便，这里采用最简便的机器阅读方式来进行说明。本发明优选的实施方式中，在第二步骤S2中，所述词频统计包括对所述原始专利数据的词素频率统计和/或常见词统计，所述特征文件包括词素频次和/或常见词频次。

词素是从词或词干的直接成分的角度来确定的音义结合体，它不一定是最小的音义结合成分；而词内的语素只从是否最小的音义结合成分来确定。假设机器阅读的方式就是单纯的词素频率统计，经过机器阅读后，将当前海量专利原始数据均处理成了具有对应机器理解特征文件的专利数据库。

此时用户提出一篇专利申请A，希望系统能够自动提供与该专利申请最相近或者最相关的参考文献。那么系统只需要直接按照机器阅读的方式去处理专利申请A，并且得到该专利申请A的机器理解特征文件A1，在本实施例中，该机器理解特征文件A1仅使用词素频率统计的方式得到其机器理解特征包括：的192处、得87处、……、车79处、电240处、……、技88处、……。接下来，系统将与上述机器理解特征文件A1最为接近的那些机器理解特征文件所对应专利提供给用户即可。

仅从上述比对方式来看，这样提供给用户的专利原始数据很可能并非用户需要的，很可能是不准确的，但是可以肯定的是，这种方法首先是完全不需要人工干预的。然而，本申请的上述方法的准确性，很容易通过强化机器阅读深度的方式来解决。

下面通过实施例来说明上述问题。本申请实施例是在上述实施例的基础上，在其机器阅读的方式中进一步加入了常见词的词频统计分析。同样的，系统在进行机器阅读的时候，不仅做了词素频率统计，还对中文中常见词的词频进行了统计，那么这样得出的机器理解特征中，就增加了新的维度，并且形成了新的机器理解特征，包括：汽车62处、电子35处、无人驾驶18处、……技术46处、……。

本发明优选的实施方式中，在第四步骤S4中，对所述特征文件数据处理时，对词素频率统计和常见词统计进行优先级选择。

系统在进行机器理解特征文件匹配的时候，对于词素统计的匹配和常用词统计的匹配进行优先级选择，比如可以优先按照常用词统计匹配的结果来进行比对，其次按照词素统计的匹配结果来进行排序。在进行了如上比对之后，将最为匹配的结果提供给用户。此时，本领域技术人员可以想象，该提供结果的精度已经大大提高。请注意，上述常见词的筛选中，同样可以分级设置匹配结果认定的优先级，比如虽然“技术”或者“技术人员”这样的词在专利原始文件中，肯定属于常见词，但是在实施匹配的时候，这样的常见词的匹配度的权重可适度放低。另外，所谓常见词的选择，也并不需要人为指定，同样可以经由机器阅读训练得到。比如将某一专业公司在其专业领域的100件原始专利文件数据，经由机器阅读和分析，就能得出在某个专业领域的常见词结构。具体方法，可以让机器统计在同一段落中，先后两个字组成的组合，重复出现的频率；然后继续统计先后三个字组成的组合，重复出现的频率；对于明显出现频率较高的组合，设定为常见词。请注意，在大规模数据训练去确定常见词的时候，常见词的产生结果，可能并不符合自然语言的习惯，但是这属于机器阅读理解的合理范畴。比如：在专利文献中可能频繁出现“对本领域技术人员而言”这样的字组合，那么经过统计之后，很可能“对本”这两个字的组合也成为了备选的常用词。但是，此时不应用人基于自然语言理解的思维方式，来排除机器阅读理解的依据。某些情况下，机器阅读纯粹通过统计规律总结出来的匹配结果，可能按照与人的自然理解思路不一致的方式，最终得出了正常需要的结果。

本发明优选的实施方式中，在第二步骤S2中，所述文档结构与类型统计包括换行统计、空格统计、标点符号统计和/或特殊符号集统计，所述特殊符号集包括公式、图标和/或基因序列等，所述特征文件包括换行频次、空格频次、标点符号频次和/或特殊符号集频次。下面进一步说明机器阅读理解的其他维度和优势。实施例中，机器阅读理解的实施方式还可以进一步包括由换行、空格、标点符号、特殊符号计算公式等所确定的文档结构、章节关系等。如果放到人的自然语言理解的范畴下，标点符号反应的是段落章节关系、计算公式的出现反映了该方案是否更偏向工程还是算法，都代表了某一个特定专利文献的特性，但是往往是不可分析的。但是对于机器理解阅读而言，只要从机器理解角度出发，这些维度也同样是具备价值的。标点符号的统计数量或者标点符号与专利原始文字的比较数量，也可以称为机器理解特征文件的一部分，从而反映出专利原始数据的特性。

本发明优选的实施方式中，在第二步骤S2中，通过机器学习判断是否存在若干词素或者常见词的重复的关联情形以进行关联统计。下面通过实施例来说明机器阅读理解专利原始数据的N元关联模型问题。上述各个实施例提出了分别依据词素、常见词、标点符号、特殊符号计算公式等维度，来建立机器理解特征文件的方案。实际上还可以结合这些不同维度，来建立机器理解特征文件。比如，先通过标点符号、换号符号等确定一些文字组合的边界，换成自然语言理解的话，其实就是可以判断出完整的一句话或者完整的一段话。如果结合格式特征，还能判断出一个权利要求或者一段完整的附图说明文字。这些内容因为具有确定的结构特征，所以能够被识别。基于这样识别出来的一段内容，可以进行词素或者常见词的N元关联分析。举例来说，如果是N＝3的三元关联分析，那么可以通过机器阅读方式，判断是否存在若干词素或者常见词的重复的关联出现的情形，统计这种关联出现的情形的频率，就形成了三元关联分析的统计基础，并且构成了机器理解特征文件的一部分。基于这样的N元关联分析的机器理解特征文件的对比，某些情况下，能够更准确的反映出用户所需要的数据结果。本发明优选的实施方式中，在第四步骤S4中，所述特征文件的数据处理基于数据处理时间采用分级策略。下面通过实施例来说明，机器学习数据库的多层级使用方式。由于数据处理能力的不断提升，实际上机器学习的能力边界，还看不到明显上限。但是基于用户面对的物理现实情形，当前的数据处理能力是存在上限的。对于海量的专利原始数据来说，仅是简单进行基于词素的频次统计分析，和建立机器理解特征文件，可能是一个很小的工作量。但是随着加强机器学习的难度和数据处理的要求，通过机器学习产生机器理解特征文件的工作资源消耗，将成为一个需要考虑的问题。此时，可综合考虑工作资源消耗情况，采用分级的策略。比如，使用低工作资源消耗的机器数据处理方式来实施初级的文件筛选，如此排除明显不符合要求的干扰数据；然后在通过排除干扰降低了待处理数据量的情况下，实施消耗较高工作资源的机器数据处理方式完成较高级的文件筛选。上述分级的策略，当然不限于仅初级和较高级这样的两级的具体方式，可以根据实际需要，进行适当的策略划分。基于数据处理时间来分级建立特征文件分类表是其中一种方式，比如对于数据库硬件配置而言，如果平均跑完500个文件建立500份特征文件，需要1分钟的话，那么为了工作效率，可以考虑按照500左右的数据规模来将特征文件分类标记建立查找表。另外，也可以采取根据相关度来建立查找表的方式。比如在并非一个即时的查询需求，而是对专利数据库进行全部数据的处理，也就是跑整个库这样的需求时，一般是安排在闲时，做充分的数据处理，此时，不考虑响应问题，可以按照特征文件的相关度，来对专利文献进行分类标记。可以理解，这样处理的最终结果，对于那些专利文献分布比较密集的领域，自然会形成包含有较大数量特征文件的类别，而对于那些专利文献比较少的技术领域，自然会形成数量比较小的类别。

本发明优选的实施方式中，在第一步骤S1中，所述原始专利数据包括流程变更数据和费用缴纳数据，所述人工干预的内容为分类号，在第四步骤S4中，所述特征文件数据处理的最后处理步骤为分类号筛选。下面通过实施例进一步说明，对于结果的多种应用可能。本申请的纯粹基于专利原始数据的数据整理方法，也并不排斥传统的基于分类号、同义词等方式的专利数据库方法。在通过本申请方法整理筛选得到的专利原始数据中，该专利信息是完整的，同样具备分类号等数据。换句话说，本申请仅是在机器学习和分析，建立机器理解特征文件的时候，不采用可能存在干扰的分类号等数据，但是并不破坏原始专利数据的完整性，因此完全可以在本申请方法筛选出来的结果中，结合使用常规的关键词、分类号等进一步筛选方式，来锁定目标。同样的，通过传统的专利数据库方法得到的专利数据，也同样可以采用本申请方法来实施进一步的数据处理和筛选。

下面通过实施例来说明，本申请数据应用入口的优越性。在前述实施例中已经提到，本申请方案的优势之一在于，不需要人为总结关键词、提取分类号，这样的人工干预和贡献，才能进行需求提交。本申请完全可以直接把一篇文献、期刊这样的内容提供给系统，就让系统给你出一份最相关的结果。类似的，对于普通用户而言，甚至可以不设置任何限制的，让用户任意描述自己需要知道的对象，让系统根据用户的描述来猜测用户需要的目标，举例来说：用户输入“一种能够不需要司机就能开动的汽车”这样非常主观的文字描述，系统也能通过机器阅读的方式理解，并且提供给用户一个适当的答案。下面通过实施例8来说明，本申请机器学习的累积优势。如上所述，由于每一次机器学习之后，都会基于原始专利数据，形成对应的机器理解特征文件。并且随着机器学习的原始专利数据越多，本申请系统所总结出来的维度、常见词、关联关系等就越丰富，对应的机器从机器角度对原始专利数据的理解就更深刻，从而能够不断提高整个系统提供分析结果的准确性。

本发明优选的实施方式中，在第二步骤S2中，所述关联统计包括对经由若干同族申请数据建立的关联进行统计。

下面通过实施例说明，不同语种的专利文献的处理。本发明的上述实施例虽然都是以中国专利文献作为基础进行的说明，但是实际上任何一种语言，如果不从自然语言角度分析，对于机器来说都是一样的，仅是一堆符号的组合，所以都可以采用类似的方式来实施专利数据处理。换句话说，本发明的方案并不受专利文献的语种限制，对于不同的语种都能进行预处理和应用。仅是在具体进行专利数据应用的时候，要对同语种的专利文件进行匹配和比较。但是，由于专利文献存在丰富同族申请关系和关联申请关系，通过某一篇或者某几篇专利文献，来在不同语种的专利原始数据库的对应机器理解特征文件之间建立关联也是可以实现的。换句话说，本发明的方案可以通过若干同族申请来建立关联点。由于同族申请数据、PCT指定数据等，都是不受人为干扰而确定的原始数据。机器阅读理解过程中，比如只要确定中国和美国专利申请中，在某一个领域中存在100件同族申请，就可以将对应的分组的机器理解特征文件建立足够的匹配关联。具体来说：在中国专利原始数据中进行机器理解分析之后，得出一千篇专利文献基于具有相近匹配度的机器理解特征文件被分类到甲组的时候，然后在美国专利原始数据中进行机器理解分析之后，得出一千两百篇专利文献基于具有相近匹配度的机器理解特征文件被分类到乙组的时候，系统比较甲组和乙组的文献发现，中间存在共同的一百篇申请，是同族申请，则系统可以认定中国专利甲组与美国专利乙组之间存在一个高关联度的匹配关系。上述一千、一千两百、一百这样的数字仅是一个示例，事实上这种数字的指定，任何人也分析不出来选定为多少更为合适，对于电脑来说，通过设定为5/10/50/100/500/1000这样常规的，具有一定数据量间隔的，便于电脑拍数据的实验安排，即可尝试得到最佳数据范围。也就是说，基于机器学习的专利原始数据处理方法，对于不同语种的专利文献也是可以同样实施分析的，并且这种分析同样完全不需要任何人工干预，只需要充分发挥机器的运算能力，即可实现更优的数据处理结果。

最后，通过实施例来说明，专利原始数据的机器处理结果还可以是针对其他内容的。上述专利原始数据主要是以专利申请文件的内容为例进行说明的。实际上专利原始数据还可以包括其他任何与人的主观影响无关的数据，包括流程变更数据、费用缴纳数据等。从逻辑层面理解来说，一件专利的任何信息，包括流程数据也能反馈出有价值的内容，比如经常发生转移、变更、质押的专利可能更加贴近商用、学校申请的专利可能公开更加充分等。这些信息的价值对于传统的专利数据分析系统而言，很难利用上，但是对于本申请这样纯粹基于大数据和机器理解的数据分析系统而言，将这些流程数据作为一个分析维度，也有可能有助于将最贴近用户需求的结果呈现给用户。还是那句话，对于较小样本量级的数据分析来说，这种统计可能没有价值，但是对于极大样本分析的情况下，超大数据统计级别背后，机器所阅读理解出来的内容，可能对分析结果产生预料不到的优化结果。另外，本申请虽然是以专利原始数据为基础进行的说明，实际上本申请的数据分析处理办法也可以适用于相关的，排除了人为影响信息干扰的完整数据。比如：期刊数据、论文数据等。

图2是根据本发明一个实施例的实施基于机器学习的专利数据处理方法的处理系统的结构示意图，一种实施根据所述的基于机器学习的专利数据处理方法的处理系统包括存储原始专利数据的存储模块1和机器学习所述原始专利数据的处理器2，所述处理器2包括用于提取词素、常见词、换行、空格和/或标点符号的提取模块3、用于机器学习原始专利数据的机器学习模块4、用于分类的分类器5和用于筛选排序的处理模块6。连接提取模块3的所述机器学习模块4生成特征文件，所述分类器5基于所述特征文件对所述原始专利数据分类，根据数据处理需求、数据处理频率和/或数据处理时间对所述特征文件归纳存储，当提出数据处理需求时，所述处理模块6理所述特征文件且映射对应的原始专利数据。在一个实施例中，所述机器学习模块4包括用于关联分析的关联模块7。

在一个实施例中，处理器2可以是通用处理器、数字信号处理器、专用集成电路ASIC，现场可编程门阵列FPGA、模拟电路或数字电路。存储模块1可以是易失性存储器或非易失性存储器。存储器可以包括一个或多个只读存储器ROM、随机存取存储器RAM、快闪存储器、电子可擦除可编程只读存储器EEPROM或其它类型的存储器。

在一个实施例中，提取模块3采用加权挖掘算法，对原始专利数据进行词素、常见词挖掘，得到采用加权计算法对词素、常见词的频次、出现的位置、词长等因素，对词素、常见词进行加权运算，得到各个词素、常见词的权值，再依据权值大小，对词素、常见词进行提炼优化，排除权值较小的词素、常见词。

在一个实施例中，机器学习模块4包括SVM机器学习算法。

在一个实施例中，处理模块6进行加权排序运算，最终确定特征文件的相关度排序。

在一个实施例中，关联模块7找出词素、常见词、换行、空格和/或标点符号的关联度以及关联度分析。

在本发明中，申请人通过词素频率、常见词频率、标点符号与特殊符号统计、文章结构与章节关系、N元关联分析等维度，提供了一种纯粹基于专利原始数据，不受任何基于人的自然语言理解角度的干扰的，机器学习和分析的方法。这种处理方法及其处理系统，由于完全不同于现有的基于人的角度去要求机器分析，仅从信源与信道的通信角度去处理专利数据问题，把专利数据当成一种通信数据处理的问题来处理，发挥了当前大数据和信息处理能力的优势，是未来专利数据处理与分析技术的发展方向。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于机器学习的专利数据处理方法，其包括以下步骤：

在第一步骤(S1)中，确定用于机器学习的原始专利数据，其中，所述原始专利数据排除人工干预的内容；

在第二步骤(S2)中，机器学习每一篇所述原始专利数据并生成基于机器理解的特征文件；

在第三步骤(S3)中，每一篇所述原始专利数据对应唯一的所述特征文件，基于所述特征文件对原始专利数据归类；

在第四步骤(S4)中，建立与所述原始专利数据对应的专利数据库，其中，根据数据处理需求、数据处理频率和/或数据处理时间对所述特征文件归纳存储，当提出数据处理需求时，基于对所述专利数据库中的所述特征文件数据处理以映射对应的原始专利数据。

2.根据权利要求1所述的基于机器学习的专利数据处理方法，其特征在于：

在第二步骤(S2)中，所述机器学习包括词频统计、文档结构与类型统计、时间统计和/或关联统计。

3.根据权利要求2所述的基于机器学习的专利数据处理方法，其特征在于：

在第二步骤(S2)中，所述词频统计包括对所述原始专利数据的词素频率统计和/或常见词统计，所述特征文件包括词素频次和/或常见词频次。

4.根据权利要求3所述的基于机器学习的专利数据处理方法，其特征在于：

在第四步骤(S4)中，对所述特征文件数据处理时，对词素频率统计和常见词统计进行优先级选择。

5.根据权利要求3所述的基于机器学习的专利数据处理方法，其特征在于：

在第二步骤(S2)中，通过机器学习判断是否存在若干词素或者常见词的重复的关联情形以进行关联统计。

6.根据权利要求1所述的基于机器学习的专利数据处理方法，其特征在于：

在第四步骤(S4)中，所述特征文件的数据处理基于数据处理时间采用分级策略或者基于相关度建立查找表。

7.根据权利要求1所述的基于机器学习的专利数据处理方法，其特征在于：

在第一步骤(S1)中，所述原始专利数据包括流程变更数据和费用缴纳数据，所述人工干预的内容为分类号；

在第二步骤(S2)中，所述文档结构与类型统计包括换行统计、空格统计、标点符号统计和/或特殊符号集统计，所述特殊符号集包括公式、图标和/或基因序列等，所述特征文件包括换行频次、空格频次、标点符号频次和/或特殊符号集频次。

8.根据权利要求1所述的基于机器学习的专利数据处理方法，其特征在于：

在第二步骤(S2)中，所述关联统计包括对经由若干同族申请数据建立的关联进行统计。

9.一种实施根据权利要求1-8中任一项所述的基于机器学习的专利数据处理方法的处理系统，所述处理系统包括存储原始专利数据的存储模块(1)和机器学习所述原始专利数据的处理器(2)，其特征在于：所述处理器(2)包括用于提取词素、常见词、换行、空格和/或标点符号的提取模块(3)、用于机器学习原始专利数据的机器学习模块(4)、用于分类的分类器(5)和用于筛选排序的处理模块(6)，连接提取模块(3)的所述机器学习模块(4)生成特征文件，所述分类器(5)基于所述特征文件对所述原始专利数据分类，根据数据处理需求、数据处理频率和/或数据处理时间对所述特征文件归纳存储，当提出数据处理需求时，所述处理模块(6)处理所述特征文件且映射对应的原始专利数据。

10.根据权利要求9所述的处理系统，其特征在于：所述机器学习模块(4)包括用于关联分析的关联模块(7)。