CN111930946A

CN111930946A - 一种基于相似性度量的专利分类方法

Info

Publication number: CN111930946A
Application number: CN202010832816.6A
Authority: CN
Inventors: 周连科; 王红滨; 王念滨; 张毅; 仝彤; 刘鹏; 席泽盛; 崔琎
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-11-13

Abstract

一种基于相似性度量的专利分类方法，它属于文本分类技术领域。本发明解决了采用现有的专利分类方法对专利分类的准确率低的问题。本发明考虑专利说明书摘要的特征，将CHI统计量和余弦相似度相结合后，再结合IPC分类号的相似性，提出一种基于混合相似度的专利分类方法。针对权利要求书，提出一种基于权利要求书相似度的专利分类方法。根据抽取出来的SAO‑x多维结构，计算权利要求书相似度，基于相似度结果采用KNN分类算法对专利进行分类。与现有的专利分类方法相比，本发明进行专利自动分类的准确率达到70％以上，降低了人工分类在主观层面上产生的分类误差。本发明可以应用于文本分类技术领域。

Description

一种基于相似性度量的专利分类方法

技术领域

本发明属于文本分类技术领域，具体涉及一种基于相似性度量的专利分类方法。

背景技术

在全球致力发展经济的浪潮中，科技成为第一生产力，是推动现代生产力发展的关键因素和重要力量。科技的创新和发展促进了企业和政府的发展。专利作为包含各领域下的科技和技术的知识载体，其已作为企业和政府衡量创新能力的一种体现。因此，专利数据的多少和优劣代表着各国的科技和经济发展水平。如何从这些专利文本中得到为之有效的创新技术信息，为企业和政府的发展提供科技和创新支持，是国内外相关研究人员研究的重点。而最基础的研究内容就是专利文本的分类，做好专利文本的分类，才能进一步挖掘专利文本信息，从而实现对某一个领域内技术的创新与预测。

目前，专利文本的分类主要以人工分类方式为主，这种人工分类方式会耗费大量的时间和精力。随着计算机科学技术的发展，专利文本的半自动和自动分类方式已经逐步呈现在专利文本分类中。采用计算机技术自动或半自动地分类方式，可以降低耗费的时间和精力。刘玉琴、周磊等以文本挖掘，信息检索等现代信息处理技术为工具，基于IPC的结构层次特点，构建不同层次下的专利相似度计算方法。Chen S H等使用专利互引关系计算专利相似度，利用得到的相似度创建一个专利引用网络，进一步考虑时间演化，创建动态的引文网络，从而发现新的技术机会，预测未来前景。Madani F等人筛选关键词来创建关键词矩阵，通过聚类分析方法预测未来技术趋势。Lee S等通过关键词计算专利相似度，进一步描绘出专利地图。但这几种方法存在未考虑专利自身文本内容的缺陷，导致对专利的分类准确率较低。因此，综合专利的结构和非结构化信息来计算专利之间的相似度正成为研究的重点和热点。

发明内容

本发明的目的是为解决采用现有的专利分类方法对专利分类的准确率低的问题，而提出了一种基于相似性度量的专利分类方法。

本发明为解决上述技术问题采取的技术方案是：

一种基于相似性度量的专利分类方法，该方法包括以下步骤：

步骤一、针对专利说明书摘要的文本元素，通过将CHI统计量和余弦相似度相结合，计算专利说明书摘要的相似度；

步骤二、基于专利的IPC分类号，结合步骤一计算出的说明书摘要相似度计算专利的混合相似度；

步骤三、根据步骤二计算出的专利混合相似度，采用KNN分类方法对专利进行分类。

步骤一、将技术主题相似的一组专利组成的集合记为集合P，并对集合P中的专利权利要求书文本进行预处理；

步骤二、将专利权利要求书中描述专利特征的句子转换成SAO结构，从转换后的句子中提取出SAO-x结构；

步骤三、根据提取出的SAO-x结构，分别计算每两个专利的SAO-x结构的相似度；

步骤四、根据步骤三中计算出的相似度，采用KNN分类方法对专利进行分类。

本发明的有益效果是：

本发明考虑专利说明书摘要的特征，将CHI统计量和余弦相似度相结合后，再结合IPC分类号的相似性，提出了一种基于混合相似度的专利分类方法。针对权利要求书，提出一种基于权利要求书相似度的专利分类方法。对于抽取出来的SAO-x多维结构，基于Jaccard距离和马氏距离的多维相似性度量计算方法，有效地计算SAO-x结构相似度，基于相似度结果采用KNN分类算法对专利进行分类。能够综合专利的结构和非结构化信息来计算专利之间的相似度，降低人工分类在主观层面上产生的分类误差。与现有的专利分类方法的技术相比，本发明进行专利自动分类的准确率达到70％以上。

本发明采用相似性度量的方法，结合专利文本的结构和语义特征，对专利文本中包含的信息进行分析和应用。专利相似度计算是对专利分类和分析的基本方法，专利相似度计算能够得到专利之间的“距离”，从而进一步对专利开展分析和研究。

附图说明

图1为本发明涉及的基于混合相似度的专利分类方法框架图；

图2为本发明涉及的不同参数α下的分类准确率比较图；

图3为本发明涉及的对比实验结果图；

图4为本发明涉及的基于权利要求书相似度的专利分类方法框架图；

图5为本发明基于SAO-x结构的专利相似度方法涉及的五个阶段示意图；

图6为本发明涉及的SAO-x结构模型图；

图7为基于权利要求书相似度的专利分类方法与传统方法的对比实验结果图。

具体实施方式

具体实施方式一：结合图1说明本实施方式。本实施方式所述的一种基于相似性度量的专利分类方法，该方法具体通过以下步骤实现：

步骤一、针对专利说明书摘要的文本元素，通过将CHI统计量和余弦相似度相结合，计算专利说明书摘要的相似度，解决部分特征性具有高CHI值但是不具有分类信息的问题；

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一中，针对专利说明书摘要的文本元素，通过将CHI统计量和余弦相似度相结合，计算专利说明书摘要的相似度，其具体为：

步骤一一、将技术主题相似的一组专利组成的集合记为集合P，P＝{p₁,p₂,...,p_n}，n是集合P中包含的专利数量；

步骤一二、分别提取出集合P中每篇专利的IPC分类号和说明书摘要，说明书摘要的集合为A＝{a₁,a₂,...,a_n}，a₁为专利p₁的说明书摘要，a₂为专利p₂的说明书摘要，a_n为专利p_n的说明书摘要；

步骤一三、分别计算出集合P中第i篇专利p_i的说明书摘要与第j篇专利p_j的说明书摘要之间的CHI统计量

以及第i篇专利p_i的说明书摘要与第j篇专利p_j的说明书摘要之间的余弦相似度S_cos(p_i,p_j)；其中：i＝1,2,…,n，j＝1,2,…,n，i≠j；

第i篇专利p_i的说明书摘要与第j篇专利p_j的说明书摘要之间的余弦相似度S_cos(p_i,p_j)的计算公式为：

其中：

为第i篇专利p_i的说明书摘要中的特征词组成的特征向量，

为第j篇专利p_j的说明书摘要中的特征词组成的特征向量，||·||为范数；

步骤一四、基于

和S_cos(p_i,p_j)构造一个新的专利说明书摘要相似度计算方法，具体计算公式如式(2)所示：

其中：S(p_i,p_j)代表第i篇专利p_i的说明书摘要与第j篇专利p_j的说明书摘要相似度。

这个相似性度量是在余弦相似度的基础上，根据CHI统计量进行调整，

越大，S_i,j越小，说明专利的相似性程度越高，

越小，S_i,j越大，说明专利的相似性程度越低。

CHI统计量的计算方法为：

其中，A表示包含特征项t且属于类别C_j的文本数量，B表示包含特征项t且不属于类别C_j的文本数量，C表示不包含特征项t且属于类别C_j的文本数量，D表示不包含特征项t且不属于类别C_j的文本数量。

具体实施方式三：本实施方式与具体实施方式二不同的是：所述步骤二的具体过程为：

步骤二一、计算IPC分类号相似度：

IPC分类号相似度为两个专利的IPC相同的层次数量与样本的IPC总层次的比值，假设第i篇专利的IPC分类号为IPC_i，第j篇专利的IPC分类号为IPC_j，则IPC_i与IPC_j的相似度S_IPC(p_i,p_j)的计算公式如(4)所示：

步骤二二、计算专利的混合相似度：

通过计算的说明书摘要相似度和IPC分类号相似度得到专利的混合相似度，混合相似度的计算公式如(5)所示：

S_w(p_i,p_j)＝α×S_IPC(p_i,p_j)+(1-α)×S(p_i,p_j) (5)

其中，α为权重，S_w(p_i,p_j)为第i篇专利与第j篇专利的混合相似度。

按照IPC分类标准，共可以分为部、大类、小类、大组和小组五个层次。

相似性度量是判断专利集合关联程度的基本方法。该方法使用TF-IDF作为摘要特征筛选方法，同时考虑余弦值相似性度量和CHI统计量，结合IPC专利分类号方法，本发明提出了一种基于多指标的混合相似性度量方法。该方法同时考虑IPC专利号和专利摘要相似性，进一步提升专利分类的准确性。使用单一的传统的欧式距离和余弦值相似度度量方法，得到的分类结果没有明显的差异，但是本发明提出的基于余弦值和CHI统计量的相似性度量算法(Cosine-CHI算法)，在准确率、召回率、F值三个指标上明显高于传统的欧式距离方法和余弦值相似性度量方法。可以认为该方法在传统专利相似度方法的基础上得到了改进和优化，验证了该方法对专利分类的有效性。与最小哈希算法比较，准确率、召回率、F值三个指标也均有提升，可以验证提出的方法是一种优秀的专利摘要相似性度量方法。在本发明提出的基于混合相似度的专利分类方法中，将基于摘要相似度的专利分类方法和基于IPC的专利分类方法相结合，综合考虑专利文本的结构特征和非结构化特征，使得专利分类的结果更为准确。首先，讨论参数α的选择，如图2所示。对于参数α选择的实验，类别的评判标准为专利对应的IPC号，以IPC主分类号的大类和小组作为专利类别的标准。以准确率作为专利分类结果的评价指标。从图2可以看出，当α∈(0.6,0.7)时，该混合模型的分类准确率较高，并且当α＞0.5时，该混合模型的以IPC小组为标准的分类准确率超过了以IPC大类为标准的分类准确率，但是当α＞0.7时出现了一个明显的下降趋势。因此α取值为0.6。由图3可知，本发明提出的基于混合相似度的专利分类方法，在结合了IPC专利号和基于摘要相似度的专利分类方法后，在准确率、召回率和F值三种指标上都好于单独使用IPC专利号方法。因为基于混合相似度的专利分类方法考虑了专利文本的结构化和非结构化特征，更全面地展示了专利信息，计算出更准确的相似度，从而使得专利分类的准确性有了提升。综上可以说明结合专利的结构化特征和非结构化特征可以更全面地得到专利相似度，从而得到更好的分类效果，并且专利的非结构化内容更能突显专利的所属类别。

具体实施方式四、本实施方式与具体实施方式三不同的是：所述权重α由实验研究得到最优值，KNN分类算法的k值根据数据集的样本分布进行选择最优值。

具体实施方式五、本实施方式与具体实施方式一不同的是：所述步骤三的具体过程为：

将步骤二计算出的专利混合相似度按降序排列，将排在最靠前的k个专利分为一类。

具体实施方式六：结合图4说明本实施方式。本实施方式所述的一种基于相似性度量的专利分类方法，该方法具体通过以下步骤实现：

针对专利权利要求书，通过抽取SAO-x结构，结合Jaccard距离和马氏距离的相似度计算权利要求书的相似度；所述的一组SAO-x结构是在SAO结构抽取的基础上，添加宾语补足语的内容，x表示宾语“O”之后的表示功能和目的的词语或句子结构。本实施方式的基于权利要求书相似度的专利分类方法的具体研究框架如图4所示。

具体实施方式七、本实施方式与具体实施方式六不同的是：所述步骤一的具体过程为：

将技术主题相似的一组专利组成的集合记为集合P，P＝{p₁,p₂,...,p_n}，n是集合P中包含的专利数量；

分别对每篇专利的权利要求书文本进行预处理，预处理的方法包括：消除标点符号，大写转换为小写，词形还原，消除停用词。停用词包括特殊字母、文章、连词等。

具体实施方式八、本实施方式与具体实施方式六不同的是：所述SAO-x结构中，S代表主语，A代表谓语，O代表宾语，x代表宾语补足语。

SAO确定：

将那些准确描述该专利特征的句子转换成SAO结构。将第一句“本发明”等表述直接作为该专利要求保护的发明的特征；将第二句提供的内容作为关于本发明的附加和可选信息，以及解释本领域技术的一般特征。

SAO分析：

在SAO中，A表示S和O之间的关系，或者表示S对O的影响；当S和O被设置为发明和工程参数时，A用于根据S和O之间的关系将来自SAO的信息分类为两类：元素或者字段类，以及目的或者效果类；

SAOx分析：

信息的目的和效果句子的其他部分中提取，两个最典型的部分包括：“for”或“to”修饰对象项的短语，以及以动名词短语形式的对象项。

构建一组SAO-x，能够识别有意义的技术信息，同时最大限度地减少噪声信息。根据专利文献的撰写特征，采用一组指定的技术术语作为一组SAO结构的主语，以这些技术术语开头的句子包含了关于专利发明的关键信息，并可以描述研究目的、效果和涉及领域等内容。基于SAO-x结构的专利相似度方法的研究过程包括五个阶段，如图5所示。第一阶段，收集所需要的专利数据集。对这些专利进行预处理，提取专利权利要求书中与描述有关的部分。然后，分析这些预处理的结果，以便在第二阶段构建SAO结构。第二阶段，构建SAO结构。第三阶段涉及SAO结构中的信息提取。S设置为专利的核心词语或者“该专利”、“此发明”等概括词语，而AO则是两种类型信息相关联的部分：1)技术/领域和2)目的/效果。第四阶段是扩展与目的/效果相关的SAO信息。通过分析宾语“O”之后的表示功能和目的的词语或句子结构，SAO-x结构模型图如图6。第五阶段基于上述的SAO-x结构上进行相似性度量，提出一种基于权利要求书相似度的专利分类方法。其中，所述的作为一组SAO结构的主语的技术术语包括：本发明、该装置、该专利、具体实施方式。

最后基于计算出的SAO-x结构相似度，使用KNN分类方法作为统一的分类方法，最后对同一数据集分别使用本发明方法和传统方法，实验结果如图7所示，验证本发明提出的专利分类方法与传统方法相比在准确率得到了提升。

具体实施方式九、本实施方式与具体实施方式六不同的是：所述步骤三的具体过程为：

其中：p₁代表第1篇专利提取出的SAO-x结构的特征，p₂代表第2篇专利提取出的SAO-x结构的特征，d(p₁,p₂)代表第1篇专利与第2篇专利的SAO-x结构的相似度，M为协方差矩阵(M可以取为单位矩阵)；

p₁＝{s₁,a₁,o₁,x₁}，s₁代表第1篇专利提取出的SAO-x结构中的主语特征，a₁代表第1篇专利提取出的SAO-x结构中的谓语特征，o₁代表第1篇专利提取出的SAO-x结构中的宾语特征，x₁代表第1篇专利提取出的SAO-x结构中的宾语补足语特征；p₂＝{s₂,a₂,o₂,x₂}，s₂代表第2篇专利提取出的SAO-x结构中的主语特征，a₂代表第2篇专利提取出的SAO-x结构中的谓语特征，o₂代表第2篇专利提取出的SAO-x结构中的宾语特征，x₂代表第2篇专利提取出的SAO-x结构中的宾语补足语特征；

其中，d_s(p₁,p₂)代表s₁与s₂之间的相似度，d_o(p₁,p₂)代表o₁与o₂之间的相似度，d_a(p₁,p₂)代表a₁与a₂之间的相似度，d_x(p₁,p₂)代表x₁与x₂之间的相似度；

同理，计算出任意两个专利的SAO-x结构的相似度。

具体实施方式十、本实施方式与具体实施方式六不同的是：所述步骤四的具体过程为：

将步骤三计算出的相似度按降序排列，将排在最靠前的k个专利分为一类。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。