CN110457690A

CN110457690A - 一种专利创造性的判断方法

Info

Publication number: CN110457690A
Application number: CN201910681777.1A
Authority: CN
Inventors: 徐惟康; 刘峥; 夏彬; 晁珍珍
Original assignee: Nupt Institute Of Big Data Research At Yancheng Co Ltd; Nanjing Post and Telecommunication University
Current assignee: Nupt Institute Of Big Data Research At Yancheng Co Ltd; Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-15

Abstract

本发明提出了一种专利创造性的判断方法，包括以下步骤：1）关键字抽取，利用词法抽取初步关键词，建立领域关键词词库；2）相关专利检索，利用上述精确关键词去专利数据库进行检索，获得对比专利文件，作为待对比专利的对比专利集合；3）分句，将专利文本里过长的句子根据文本特点分解成更短且具有完整语义的子句；4）分词、计算词向量，利用分词工具对所述子句中中文文本进行词语切分；5）依据词移距离计算文本相似度，判断向量化处理后的词语子句之间的相似度；6）计算整体文本的创造性，根据所述相似度来判断整体文本的创造性，本发明大幅度减少了人力成本；采用了少量领域专家人力和统计分析相结合的方法，提高了准确性和可解释性。

Description

一种专利创造性的判断方法

技术领域

本发明涉及一种专利分析方法，具体的说是一种专利创造性判断方法，属于知识产权技术领域。

背景技术

专利是由政府机关或者代表若干国家的区域性组织根据申请而颁发的一种文件，这种文件记载了发明创造的内容，并且在一定时期内产生这样一种法律状态，即获得专利的发明创造在一般情况下他人只有经专利权人许可才能予以实施。

专利申请如果想要获得专利权就必须具备创造性。我国的《专利法》第二十二条第三款对创造性进行了规定：“创造性，是指与现有技术相比，该发明具有突出的实质性特点和显著的进步”。《欧洲专利公约》第五十六条规定：“在现有技术的基础上，如果该专利申请对于相关领域技术内的一般技术人员来说，不是显而易见的，则该专利申请具有创造性的步”。《专利审查指南》对突出的实质性特点和显著的进步做了进一步解释，发明有突出的实质性特点，是指对所属技术领域的技术人员来说，发明相对于现有技术是非显而易见的。发明有显著的进步，是指发明与现有技术相比能够产生有益的技术效果。

《专利审查指南》中规定了在创造性审查判断中的“三步法”：①确定最接近的现有技术；②确定区别技术特征和发明所实际解决的技术问题；③判断所要求保护的发明对于所属领域技术人员来说是否显而易见。

由此可以看出传统的创造性的检查办法的缺点：①依赖所属领域技术人员本身的素质。传统的方法需要技术人员主观的去判断所保护的发明是否显而易见，这对技术人员本身的能力和专业素质有较高的要求。②费时费力效率低下。如步骤一所述，需要确定最接近的技术，这一步骤必定需要技术人员阅读大量相关专利，并与所申请的专利进行逐一比较，必定要花费大量时间。

随着人工智能和自然语言处理技术的不断进步，上述技术在不同领域都有不同的应用，均取得了显著的成果。本专利提出一种应用人工智能技术的专利创新性检索分析工具，以帮助提高专利创新性检索的质量和效率，降低人力成本。

现有技术一

申请号为CN201610297513.2的专利中，公开了一种用于将专利技术交底书填写用的所述相关信息转换成预设格式模板的标准专利技术交底书的方法，基于这个转换后的结果对比分析所述专利文献与所述标准专利技术交底书的相关程度，进而判断专利的创造性。

现有技术一的缺点：并不是所有的专利技术交底书都能转化为统一的、预设格式的模板，如果强行把专利技术交底书转换为一种或几种固定的模板，势必会造成信息丢失，进一步的会影响接下来的分析结果。

现有技术二

申请号为CN201710667977.2的专利中，公开了一种基于专利技术交底书关键词进行二次检索，然后对二次检索出的专利提取关键词，最后通过比较专利技术交底书里的关键词和二次检索结果的关键词来判断专利的创造性。

现有技术二的缺点：用关键词去代表专利技术交底书，本身就是一个会引入噪声的环节，使用这些关键词去检索，会进一步的引入噪声。最后会导致二次检索出的专利和专利技术交底书的专利并不十分相关。

发明内容

本发明的目的是提供一种专利创造性的判断方法，提高分析效率，降低人工劳动强度。

本发明的目的是这样实现的：一种专利创造性的判断方法，包括以下步骤：

步骤1）关键字抽取，利用词法分析抽取专利文本的初步关键词，人工筛选后获得精确关键词，利用精确关键词建立领域关键词词库；

步骤2）相关专利检索，利用上述精确关键词去专利数据库进行检索，获得对比专利文件，作为待对比专利的对比专利集合；

步骤3）分句，将专利文本里过长的句子根据文本特点分解成更短且具有完整语义的子句；

步骤4）分词、计算词向量，利用分词工具对所述子句中中文文本进行词语切分，并利用词向量工具对所述词语进行向量化处理；

步骤5）依据词移距离计算文本相似度，判断向量化处理后的词语之间的相似度；

步骤6）计算整体文本的创造性，根据所述相似度来判断整体文本的创造性。

作为本发明的进一步限定，步骤3）中分句的具体方法为：

区分标志类别，包括：结构词、连接词、序号、标点符号；

对应的分句标志和分句方法分别为：

结构词分句标志包括：包括，comprising，including，includes, having，consisting；

分句方法为：长句：A+结构词+B，可分解为1）子句1：A+结构词+临时词汇；2）子句2：子句1中临时词汇的主语+结构词+B；

连接词分句标志包括：因此，其中，wherein，therefore；

分句方法为：长句：A+连接词+B，可分解为1）子句1：A；2）子句2：B

序号分句标志包括：1），（1），(a)，(i)，a)；

分句方法为：长句：A+序号+B，可分解为1）子句1：A；2）如果A或者B中包含“方法”、“步骤”等关键词，则子句2：步骤+序号+B；

标点符号分句标志包括：“；”，“;”，“。”，“.”“、”；

分句方法为：长句：A+标点符号+B，可分解为1）子句1：A；2）子句2：B。

作为本发明的进一步限定，步骤5）依据词移距离计算文本相似度具体包括：

词移距离把文档在向量空间中的距离，建模成文档所包含词语在词向量空间距离的线性加权组合，算法如下：

其中，为两词语的相似度，c(i,j)为词i和j的语义距离：

T为加权权重，T可由下述最优化问题求解得到；

对待对比专利分句得到的子句集合与对比专利分句得到的子句集合，依据词移距离计算模型和所得词向量，分别两两计算子句相似度，通过词移距离的计算方式，可以算出待对比专利里的每一个句子和对比专利里的所有句子的相似度。

作为本发明的进一步限定，步骤6）计算整体文本的创造性的具体方法为：

6-1）将待申请的专利中的句子S1与对比专利文档D1的句子对比，若S1与D1中的相似度最高的句子的相似度大于给定的阈值α，则D1揭示了句子S1的创造性；用上述方法分别对比S1与专利文档D2—Dn；

6-2）将其余句子S2-Sn依次用步骤1的方法分别对比专利文档D2—Dn；

6-3）对于待申请的专利中的每个句子S1-Sn，都可以在对比专利文档D1-Dn里得到一个与之最相似句子，只有两个句子的相似度大于相似阈值时α，才认为两个句子在统计学的定义下是相似的；

6-4）定义相似比γ，γ = 相似度低于α的句子数量／句子总数量；γ用于描述待对比专利与对比专利的相似程度，从而揭示待对比专利的创造性程度；

6-5）γ值小于1/3，则创造性强；处于1/3～2/3之间，创造性中；大于2/3，创造性弱。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明大幅度减少了人力成本；不同于传统的纯人力分析和近年的纯统计分析方法，采用了少量领域专家人力和统计分析相结合的方法，大幅提高了准确性和可解释性。

附图说明

图1为本发明的判断流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

一种专利创造性的判断方法，包括以下步骤：

专利的摘要和题目是对该专利的主要内容的概括性描述，因此选择专利摘要和题目语料内容作为关键字抽取的目标。使用较短且概括性较强的语料作为抽取目标，不仅可以降低运算量提高效率，也可以提高准确性；

考虑到专利文本的特点专业性强，用词精确的特点，专利文本的关键词提取不同于普通文本的关键字提取，单独采用统计分析的方法提取到的关键词重复性高、代表性弱，为此需要领域专家进行一定的检索与筛选。每次筛选完成后保存筛选后的关键词，建立领域关键词词库，这样在领域关键词词库建立完毕后，可省去领域专家检索的人力成本；

首先对待对比专利的摘要和权利要求部分进行依存句法分析，结合上下文无关法(CFG)中的最左派生规则和不同的rules概率，计算所有可能的树结构概率，取其中最大值对应的树结构作为该句子的句法分析结果，确定句子的句法结构和句子中词汇之间的依存关系，抽取出句子中的主谓宾结构。把抽取出来的谓语、宾语作为初步关键词；并采用tf-idf技术计算出相应关键字的权重，排除掉权重低于阈值α的初步关键词；

其次把剩余的初步关键词交由领域专家审查，删除代表性弱、区分度低的词，剩余的初步词作为该专利的核心关键词关键词；

根据申请专利的IPC建立相应领域的领域关键词词库，每次把领域专家筛选后的真正关键词放入该专利对应的领域关键词词库。这样经过若干轮的迭代可建立一个代表性强、泛化能力高并且可在专利分析其他领域复用的领域关键词词库；在后续的专利核心关键词提取中，取专利初步关键词和领域关键词词库的交集即可。

步骤3）分句，将专利文本里过长的句子根据文本特点分解成更短且具有完整语义的子句；不同于传统文本，专利文本构成具有一些显著的特点，通过对大量专利文本的人工阅读和统计分析发现：专利文本的写作倾向于使用长度较长、结构较复杂的句子；专利文本的写作遵从一定的写作格式，这些格式有“如上述权利所述”、“所述权利要求包括”；专利文本的写作倾向于使用某些特定的连词，如“包括”、“comprising”。

根据上述特点，首先将专利文本里过长的句子根据文本特点分解成更短且具有完整语义的字句，例如句子“装置还包括覆盖所述取光窗口、将通过所述取光窗口的环境光从入射光线变为垂直光线的棱镜片”，可以分解为:a.装置包括覆盖所述取光窗口。b.装置通过将通过所述取光窗口的环境光从入射光线变为垂直光线的棱镜片；具体如下表所示：

所谓分词指的是自动对中文文本进行词语切分，即像英文那样使得中文句子中的词之间有空格以标识；常用的分词工具有结巴分词、百度NLP、腾讯文智等，在计算机领域，为了使计算机能够理解并处理人类使用的自然语言，需要把词语转换为向量的形式，所谓词向量是用来表示词的向量，通常也被认为是词的特征向量，是一种计算机可以理解的稠密向量；不同于传统的one-hot编码格式，随着深度学习的发展和在自然语言处理领域的应用，现在通常采用深度神经网络语言模型去对自然语言进行词的向量化处理；

word2vec是Google开源的一款基于深度学习的将词表征为实数值向量的工具；其基于的分布式假设是具有相似上下文的词语其语义应该比较接近，即基于一个词语的上下文对词语进行建模；例如A句子为“我今天上午学习了计算机网络”，B句子为“我今天下午学习了数据结构”；这里的“计算机网络”和“数据结构”具有相同的上下文，尽管计算机并不知道“计算机网络”和 “数据结构”的具体含义，但是基于他们共有的相似的上下文，神经网络能够学习到不同的词向量去分别代表“计算机网络”和“数据结构”，使这两个词向量在K维欧式空间的距离足够接近；

它以未进行人工标记的语料作为训练集,通过神经网络将词映射到一个K维欧式空间，词向量在K维欧式空间上的特征同时反应了词之间的特征。该模型采用语料的one-hot向量作为输入，通过若干轮的迭代，取出最终模型的输入权重矩阵作为词的K维向量表示；

采用的模型有CBOW模型和Skip-Gram模型两种。其中CBOW模式采用词语的上下文去预测中心词，skip-gram模型采用中心词去预测词语的上下文。

步骤5）依据词移距离计算文本相似度，判断向量化处理后的词语之间的相似度；具体包括：

其中，为两词语的相似度，c(i,j)为词i和j的语义距离：

T为加权权重，T可由下述最优化问题求解得到；

步骤6）计算整体文本的创造性，根据所述相似度来判断整体文本的创造性；具体方法为：

待对比专利经过分句后得到句子集合为S1，S2，S3，S4，通过关键词检索出的对比专利为D1，D2，D3，D4，D5，D6，D7，D8

步骤6-1:将句子S1与对比专利文档D1的子句对比，若S1与D1中的相似度最高的句子相似度大于给定的阈值（α= 0.5），则D1揭示了句子S1的技术特性；用上述方法分别对比S1与专利文档D2—D8；

步骤6-2:将句子S2-S4用步骤1的方法分别对比；

经过步骤1与步骤2的分析，得到如下表格

由一中步骤6-1，6-2得到的结果，可以得到每个句子最相似的专利的相似度：例如：

步骤6-3：创新性描述的创造性可定义为：（设定阈值α= 0.5）γ = 相似度低于α的句子数量／句子总数量。γ值小于1/3，则创造性强；处于1/3～2/3之间，创造性中；大于2/3，创造性弱。

如若上述表格得到的结果为：

则相似度低于α的句子数量为2，S1，S2最大相似度均大于0.5。γ=2/4=1/2，可以得到创造性中的结论。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种专利创造性的判断方法，其特征在于，包括以下步骤：

步骤5）依据词移距离计算文本相似度，判断向量化处理后的词语子句之间的相似度；

2.根据权利要求1所述的一种专利创造性的判断方法，其特征在于，步骤3）中分句的具体方法为：

区分标志类别，包括：结构词、连接词、序号、标点符号；

对应的分句标志和分句方法分别为：

连接词分句标志包括：因此，其中，wherein，therefore；

序号分句标志包括：1），（1），(a)，(i)，a)；

标点符号分句标志包括：“；”，“;”，“”，“.”“、”；

3.根据权利要求1所述的一种专利创造性的判断方法，其特征在于，步骤5）依据词移距离计算文本相似度具体包括：

其中，为两词语的相似度，c(i,j)为词i和j的语义距离：

T为加权权重，T可由下述最优化问题求解得到；

4.根据权利要求3所述的一种专利创造性的判断方法，其特征在于，步骤6）计算整体文本的创造性的具体方法为：