CN109829158B

CN109829158B - 核心专利挖掘方法

Info

Publication number: CN109829158B
Application number: CN201910053229.4A
Authority: CN
Inventors: 汪云霄; 王方鑫; 朱弘扬; 刘峥
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2023-06-06
Anticipated expiration: 2039-01-21
Also published as: CN109829158A

Abstract

本发明提供了一种核心专利挖掘方法，首先，基于网络爬虫方法建立专利数据库，并利用网络爬虫在所述专利数据库中提取目标领域的专利文档集；然后，基于文档主题生成模型提取所述专利文档集中所有专利文档的主题集；接着，基于所述主题集中主题的相似性度量建立专利新颖性评价模型和专利影响力评价模型；最后，利用最优化方法挖掘出核心专利。本发明解决了在需要快速挖掘发现目标领域的核心专利时，基于网络爬虫方法、文档主题生成模型、专利的新颖性评价模型和影响力评价模型以及最优化方法,高效、快速地挖掘出目标领域的核心专利。

Description

核心专利挖掘方法

技术领域

本发明涉及自然语言处理以及专利分析领域，尤其涉及一种核心专利挖掘方法。

背景技术

专利作为一种保护公司利益的重要资源，在一定意义上，企业的专利水平代表了企业的整体创新水平。在大量的专利数据库下进行核心专利挖掘与发现可以为公司制定合理的知识产权管理策略和技术发展战略。

现如今，已出现较多的专利检索和分析的专利数据库，如Incopat、GooglePatent、SooPat、Patsnap等，但是这些专利数据库主要是提供专利检索和简单的专利统计分析，而无法从目标领域的专利文档集中挖掘出核心专利。

随着近年来专利申请数量的急剧增加，人工评估专利文档的难度大大增加；专利文档的文本冗长性、语言复杂性、技术用语多样性等特点增加了人工分析的难度，从而使传统的基于关键字的静态统计方法已不能很好的获取专利信息。

有鉴于此，确有必要设计一种核心专利挖掘方法，以解决上述问题。

发明内容

本发明的目的在于提供一种高效、快速地挖掘目标领域核心专利的核心专利挖掘方法。

为实现上述目的，本发明采用如下技术方案：一种核心专利挖掘方法，主要包括以下步骤：

步骤一：基于网络爬虫方法建立专利数据库，并利用网络爬虫在所述专利数据库中提取目标领域的专利文档集作为核心专利挖掘的源数据；

步骤二：基于文档主题生成模型提取所述专利文档集中所有专利文档的主题集；

步骤三：基于所述主题集中主题的相似性度量建立专利新颖性评价模型和专利影响力评价模型；

步骤四：从专利文档集中提取多个专利形成目标专利集，基于专利新颖性评价模型和专利影响力评价模型，利用最优化方法挖掘出所述目标专利集中的核心专利。

作为本发明进一步改进的技术方案，步骤一具体为：

选择若干专利数据库网站，根据不同的网站构造选择不同的爬虫模块进行爬取，并将爬取到的数据使用网页解析包进行解析，以建立结构化数据库表存储解析结果，构造专利数据库；

根据检索字段构建目标领域的专利文档集D＝{d₁,d₂,…,d_m}，其中m表示专利文档集D中的专利文档d的个数，专利文档集D中专利文档d的公开时间定义为T＝{t₁,t₂,…,t_m}。

作为本发明进一步改进的技术方案，所述网络爬虫方法采取分布式爬虫架构，开启多个爬虫线程同时爬取不同的网站以获取数据。

作为本发明进一步改进的技术方案，所述步骤二具体包括：

S1：对所述专利文档集进行预处理，并形成分词集，设置所选分词集的大小为n，定义分词的重要性分数为分词出现的频率与分词的互信息值的乘积，根据分词的重要性分数选取前n个重要分词，形成分词集V＝{w₁,w₂,…,w_n}，并统计每个分词出现的次数；

S2：基于文档主题生成模型，从所述专利文档集中提取K个专利文档的主题集Z＝{z₁,z₂,…,z_K}，其中，每个主题z_i可视为分词集V的概率分布p(w|z_k)_w∈v，每一个专利文档d可视为主题集Z的概率分布p(z_k|d)_{k∈{1,…,K}}。

作为本发明进一步改进的技术方案，步骤S1中的预处理包括分词、去停用词、提取专有技术名词，所述分词集为结合分词出现的频率和分词的互信息值选取的多个重要分词的集合。

作为本发明进一步改进的技术方案，步骤S2具体包括：

S21：顺序遍历所述专利文档集中的每一个专利文档d，初始化专利文档d的超参数向量

所述超参数向量/>

利用每个专利文档d的主题的分词个数进行初始化，引入K维Dirichlet分布生成专利文档d的主题概率分布/>

即

S22：初始化任一主题z_k的超参数向量

并引入n维Dirichlet分布生成任一主题z_k产生各个分词的概率分布/>

即/>

S23：从所述专利文档d中读取每个分词以及每个分词在专利文档d中出现的次数，引入K维多项式分布生成专利文档d中分词w_i对应的各个主题的多项式分布

根据分词w_i在专利文档d中出现的次数和该分词的多项式分布

计算该分词被各个主题产生的次数；遍历整个专利文档d中的分词集V,更新各个主题对应的分词的个数，记为向量/>

用所述向量/>

更新超参数向量/>

作为K维Dirichlet分布的输入，以便更新专利文档d的主题概率分布/>

S24：计算专利文档d中分词出现在各个主题的次数，同样使用多项式分布得到更新之后各个主题产生的分词数量，记作向量

用所述向量/>

更新超参数向量/>

作为n维多项式分布的输入，以便更新任一主题z_k产生各个分词的概率分布/>

S25：遍历整个专利文档集，使用吉布斯采样算法训练文档主题生成模型，直到得到收敛的专利文档d的主题概率分布θ_d和任一主题的分词概率分布β_k；

S26：选择每一主题的概率最高的分词作为该主题的代表词，以使得每一个专利文档d均用主题分布来表征，每一个主题分布均用分词分布来表征。

作为本发明进一步改进的技术方案，所述步骤三具体为：

提取专利文档集D中每一个专利文档d的主要主题集z_dom＝{z|p(z|d)＞0.1}来代表专利文档d，通过步骤二中的文档主题生成模型和收敛的θ_d和β_k，定义两个专利文档d和d'的主题相似性分数：

定义早于专利文档d公开的专利集为

其中t是专利文档d公开的时间，T_min是该专利集中专利最晚公开时间，则专利文档d的新颖性分数表示为：

定义晚于专利文档d公开的专利集为

其中T_max是该专利集中专利最早公开时间，则专利文档d的影响力分数表示为：

基于窗口函数平滑法消除时间因素对核心专利挖掘的影响，使得两个专利文档d和d'的相似性分数更正为：

改进后的新颖性分数和影响力分数分别为：

作为本发明进一步改进的技术方案，定义高斯窗函数：

其中，2σ是窗口的大小，Δt＝t-t'是专利文档d和d'的公开时间差。

作为本发明进一步改进的技术方案，步骤四中的最优化方法可表示为：

以挖掘出新颖性分数和影响力分数同时高的专利为核心专利，其中，μ和λ是两项得分的权重，C为目标专利集，N为目标专利集中的专利数量。

由以上技术方案可知，本发明解决了在需要快速挖掘发现目标领域的核心专利时，基于网络爬虫方法、文档主题生成模型、专利的新颖性评价模型和影响力评价模型以及最优化方法,实现快速挖掘出目标领域的核心专利，从而高效、快速地发现目标领域的核心专利。

附图说明

图1为本发明核心专利挖掘方法的流程图。

图2为本发明核心专利挖掘方法的较佳实施例示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

如图1所示，本发明的核心专利挖掘方法的具体步骤主要包括：

步骤一：基于网络爬虫方法建立专利数据库，并利用网络爬虫在专利数据库中提取目标领域的专利文档集作为核心专利挖掘的源数据；

步骤二：基于文档主题生成模型提取专利文档集中所有专利文档的主题集；

步骤三：基于主题集中主题的相似性度量建立专利新颖性评价模型和专利影响力评价模型；

步骤四：从专利文档集中提取多个专利形成目标专利集，基于专利新颖性评价模型和专利影响力评价模型，利用最优化方法挖掘出目标专利集中的核心专利。

结合图2所示，专利数据采集是数据分析的基础和前提，为了更好的进行专利数据采集，步骤一具体为通过使用网络爬虫方法获取专利数据并将专利数据存储到专利数据库中。具体包括选择若干专利数据库网站，如Incopat、Google Patent、SooPat、Patsnap等，从而根据不同的网站构造选择不同的爬虫模块进行爬取，并将爬取到的数据使用bs4网页解析包进行解析，以建立结构化数据库表存储解析结果，进而构造一个庞大的专利数据库。

进一步地，为了加快网络爬虫的爬取速度，网络爬虫方法可采取分布式爬虫架构，开启多个爬虫线程同时爬取不同的网站以获取数据。

通过网络爬虫法建立专利数据库后，需要提取目标领域的专利文档集来作为源数据。具体为，根据检索字段如“自然语言处理”、“大数据”等构建目标领域的专利文档集D＝{d₁,d₂,…,d_m}，其中m表示专利文档集D中专利文档d的个数，专利文档集D中专利文档d的公开时间定义为T＝{t₁,t₂,…,t_m}。此外，也可以通过IPC分类号来构建专利文档集D。

由于专利文档在技术术语上存在没有统一的规则且文本冗余、语言复杂等问题，故步骤二使用文档主题生成模型、提取文档的主题集，从而使用主题来表示专利文档的主要思想。如此，步骤二具体可分为以下几个步骤：

S1：对专利文档集进行预处理，并形成分词集。设置所选分词集的大小为n，定义分词的重要性分数为分词出现的频率与分词的互信息值的乘积，根据分词的重要性分数选取前n个重要分词，形成分词集V＝{w₁,w₂,…,w_n}，并统计每个分词出现的次数。

预处理包括分词、去停用词、提取专有技术名词。为了限制分词提取的个数，选取较重要的分词构成分词集。传统的分词选择方法仅考虑频率因素而使有些低频出现却语义丰富的高质量短语容易被忽视。因此，可结合分词出现的频率和分词与上下文的互信息值选取出多个重要的分词构成分词集。

S2：设置外部访问接口，基于文档主题生成模型从专利文档集中提取K个专利文档的主题集Z＝{z₁,z₂,…,z_K}，每个主题z_i可视为分词集V的概率分布p(w|z_k)_w∈v，每一个专利文档d可视为主题集Z的概率分布p(z_k|d)_{k∈{1,…,K}}。

步骤S2具体包括以下步骤：

S21：顺序遍历专利文档集中的每一个专利文档d，初始化专利文档d的超参数向量

超参数向量/>

即/>

S22：初始化任一主题z_k的超参数向量

即/>

S23：从专利文档d中读取每个分词以及每个分词在专利文档d中出现的次数，引入K维多项式分布生成专利文档d中分词w_i对应的各个主题的多项式分布

根据分词w_i在专利文档d中出现的次数和该分词的多项式分布/>

用向量/>

更新超参数向量/>

用向量/>

更新超参数向量/>

一件专利的主题技术很少被已有专利提及，那么该专利具有很强的新颖性；一件专利的主题技术多次被其后发表的专利所提及或引用，那么该专利具有很强的影响力。步骤三具体为基于步骤二中的文档主题生成模型，使用专利文档的主题概率分布和各主题的分词概率分布来计算专利文档与其他专利的相似性分数，并使用高斯窗函数消除时间因素的影响，从而形成专利新颖性评价模型和专利影响力评价模型。具体步骤如下：

提取专利文档集D中每一个专利文档d的主要主题集z_dom＝{z|p(z|d)＞0.1}来代表专利文档d，通过步骤二中的文档主题生成模型和使用吉布斯采样算法训练得到的收敛的主题概率分布θ_d和任一主题的词概率分布β_k，定义两个专利文档d和d'的主题相似性分数：

从而通过专利文档的主题概率分布和任一主题下的词概率分布计算专利文档d生成专利文档d'的概率，作为它们之间的相似性度量。

专利的新颖性为考量其与早于其公开的专利集的相似性。定义早于某专利文档d公开的专利集为

其中t是专利文档d公开的时间，T_min是该专利集中专利最晚公开时间，则专利文档d的新颖性分数可以使用如下式子度量：

同理，专利的影响力为考量其与晚于其公开的专利集的相似性。定义晚于某专利文档d公开的专利集为

其中T_max是该专利集中专利最早公开时间，则专利文档d的影响力分数可以使用如下式子度量：

/>

进一步地，由于上述计算分析方法容易受时间因素的影响，可基于窗口函数平滑法消除时间因素对核心专利挖掘的影响，使得两个专利文档d和d'的相似性分数更正为：

改进后的新颖性分数和影响力分数分别为：

这是因为：一方面，一件高龄专利拥有很少的现有技术，而其被引用的次数可能很多；另一方面，一件新申请的专利可能会拥有很多现有技术，而被引用的次数相对较少。因此，由于专利公开的时间不同，专利的主题相似度计算具有非平衡性；此外，专利是具有时间敏感性的，并且他们的价值依赖于当时的技术发展。

因此，本发明使用随时间递减的高斯窗函数来解决因为时间因素带来的计算非平衡性。具体而言，定义高斯窗函数：

设置所提取的目标专利数量为N，即从专利文档集D中提取N个专利形成目标专利集C。以目标领域专利的新颖性和影响力作为提取标准，步骤四中的最优化方法可表示为：

其中，最优化目标第一项是目标专利集C中所有专利的新颖性分数之和，第二项是目标专利集C中所有专利的影响力分数之和，μ和λ是两项得分的权重。最优化目标是使得专利的新颖性分数和影响力分数同时高的专利成为核心专利。通过求解上述最优化目标，可以快速、有效的挖掘某一领域的核心专利。

综上所述，本发明提出了一种核心专利挖掘方法，其通过网络爬虫方法建立专利数据库存储待分析专利数据、使用文档主题生成模型提取所有专利文档的主题集、建立专利的新颖性和影响力的评价模型及通过最优化方法挖掘目标专利集中的核心专利的方法，从而可高效、快速地挖掘出目标领域的核心专利。

另外，以上实施例仅用于说明本发明而并非限制本发明所描述的技术方案，对本说明书的理解应该以所属技术领域的技术人员为基础，尽管本说明书参照上述的实施例对本发明已进行了详细的说明，但是，本领域的普通技术人员应当理解，所属技术领域的技术人员仍然可以对本发明进行修改或者等同替换，而一切不脱离本发明的精神和范围的技术方案及其改进，均应涵盖在本发明的权利要求范围内。