CN109829158B - 核心专利挖掘方法 - Google Patents
核心专利挖掘方法 Download PDFInfo
- Publication number
- CN109829158B CN109829158B CN201910053229.4A CN201910053229A CN109829158B CN 109829158 B CN109829158 B CN 109829158B CN 201910053229 A CN201910053229 A CN 201910053229A CN 109829158 B CN109829158 B CN 109829158B
- Authority
- CN
- China
- Prior art keywords
- patent document
- topic
- word
- core
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种核心专利挖掘方法,首先,基于网络爬虫方法建立专利数据库,并利用网络爬虫在所述专利数据库中提取目标领域的专利文档集;然后,基于文档主题生成模型提取所述专利文档集中所有专利文档的主题集;接着,基于所述主题集中主题的相似性度量建立专利新颖性评价模型和专利影响力评价模型;最后,利用最优化方法挖掘出核心专利。本发明解决了在需要快速挖掘发现目标领域的核心专利时,基于网络爬虫方法、文档主题生成模型、专利的新颖性评价模型和影响力评价模型以及最优化方法,高效、快速地挖掘出目标领域的核心专利。
Description
技术领域
本发明涉及自然语言处理以及专利分析领域,尤其涉及一种核心专利挖掘方法。
背景技术
专利作为一种保护公司利益的重要资源,在一定意义上,企业的专利水平代表了企业的整体创新水平。在大量的专利数据库下进行核心专利挖掘与发现可以为公司制定合理的知识产权管理策略和技术发展战略。
现如今,已出现较多的专利检索和分析的专利数据库,如Incopat、GooglePatent、SooPat、Patsnap等,但是这些专利数据库主要是提供专利检索和简单的专利统计分析,而无法从目标领域的专利文档集中挖掘出核心专利。
随着近年来专利申请数量的急剧增加,人工评估专利文档的难度大大增加;专利文档的文本冗长性、语言复杂性、技术用语多样性等特点增加了人工分析的难度,从而使传统的基于关键字的静态统计方法已不能很好的获取专利信息。
有鉴于此,确有必要设计一种核心专利挖掘方法,以解决上述问题。
发明内容
本发明的目的在于提供一种高效、快速地挖掘目标领域核心专利的核心专利挖掘方法。
为实现上述目的,本发明采用如下技术方案:一种核心专利挖掘方法,主要包括以下步骤:
步骤一:基于网络爬虫方法建立专利数据库,并利用网络爬虫在所述专利数据库中提取目标领域的专利文档集作为核心专利挖掘的源数据;
步骤二:基于文档主题生成模型提取所述专利文档集中所有专利文档的主题集;
步骤三:基于所述主题集中主题的相似性度量建立专利新颖性评价模型和专利影响力评价模型;
步骤四:从专利文档集中提取多个专利形成目标专利集,基于专利新颖性评价模型和专利影响力评价模型,利用最优化方法挖掘出所述目标专利集中的核心专利。
作为本发明进一步改进的技术方案,步骤一具体为:
选择若干专利数据库网站,根据不同的网站构造选择不同的爬虫模块进行爬取,并将爬取到的数据使用网页解析包进行解析,以建立结构化数据库表存储解析结果,构造专利数据库;
根据检索字段构建目标领域的专利文档集D={d1,d2,…,dm},其中m表示专利文档集D中的专利文档d的个数,专利文档集D中专利文档d的公开时间定义为T={t1,t2,…,tm}。
作为本发明进一步改进的技术方案,所述网络爬虫方法采取分布式爬虫架构,开启多个爬虫线程同时爬取不同的网站以获取数据。
作为本发明进一步改进的技术方案,所述步骤二具体包括:
S1:对所述专利文档集进行预处理,并形成分词集,设置所选分词集的大小为n,定义分词的重要性分数为分词出现的频率与分词的互信息值的乘积,根据分词的重要性分数选取前n个重要分词,形成分词集V={w1,w2,…,wn},并统计每个分词出现的次数;
S2:基于文档主题生成模型,从所述专利文档集中提取K个专利文档的主题集Z={z1,z2,…,zK},其中,每个主题zi可视为分词集V的概率分布p(w|zk)w∈v,每一个专利文档d可视为主题集Z的概率分布p(zk|d)k∈{1,…,K}。
作为本发明进一步改进的技术方案,步骤S1中的预处理包括分词、去停用词、提取专有技术名词,所述分词集为结合分词出现的频率和分词的互信息值选取的多个重要分词的集合。
作为本发明进一步改进的技术方案,步骤S2具体包括:
S21:顺序遍历所述专利文档集中的每一个专利文档d,初始化专利文档d的超参数向量所述超参数向量/>利用每个专利文档d的主题的分词个数进行初始化,引入K维Dirichlet分布生成专利文档d的主题概率分布/>即
S23:从所述专利文档d中读取每个分词以及每个分词在专利文档d中出现的次数,引入K维多项式分布生成专利文档d中分词wi对应的各个主题的多项式分布根据分词wi在专利文档d中出现的次数和该分词的多项式分布计算该分词被各个主题产生的次数;遍历整个专利文档d中的分词集V,更新各个主题对应的分词的个数,记为向量/>用所述向量/>更新超参数向量/>作为K维Dirichlet分布的输入,以便更新专利文档d的主题概率分布/>
S24:计算专利文档d中分词出现在各个主题的次数,同样使用多项式分布得到更新之后各个主题产生的分词数量,记作向量用所述向量/>更新超参数向量/>作为n维多项式分布的输入,以便更新任一主题zk产生各个分词的概率分布/>
S25:遍历整个专利文档集,使用吉布斯采样算法训练文档主题生成模型,直到得到收敛的专利文档d的主题概率分布θd和任一主题的分词概率分布βk;
S26:选择每一主题的概率最高的分词作为该主题的代表词,以使得每一个专利文档d均用主题分布来表征,每一个主题分布均用分词分布来表征。
作为本发明进一步改进的技术方案,所述步骤三具体为:
提取专利文档集D中每一个专利文档d的主要主题集zdom={z|p(z|d)>0.1}来代表专利文档d,通过步骤二中的文档主题生成模型和收敛的θd和βk,定义两个专利文档d和d'的主题相似性分数:
基于窗口函数平滑法消除时间因素对核心专利挖掘的影响,使得两个专利文档d和d'的相似性分数更正为:
改进后的新颖性分数和影响力分数分别为:
由以上技术方案可知,本发明解决了在需要快速挖掘发现目标领域的核心专利时,基于网络爬虫方法、文档主题生成模型、专利的新颖性评价模型和影响力评价模型以及最优化方法,实现快速挖掘出目标领域的核心专利,从而高效、快速地发现目标领域的核心专利。
附图说明
图1为本发明核心专利挖掘方法的流程图。
图2为本发明核心专利挖掘方法的较佳实施例示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,本发明的核心专利挖掘方法的具体步骤主要包括:
步骤一:基于网络爬虫方法建立专利数据库,并利用网络爬虫在专利数据库中提取目标领域的专利文档集作为核心专利挖掘的源数据;
步骤二:基于文档主题生成模型提取专利文档集中所有专利文档的主题集;
步骤三:基于主题集中主题的相似性度量建立专利新颖性评价模型和专利影响力评价模型;
步骤四:从专利文档集中提取多个专利形成目标专利集,基于专利新颖性评价模型和专利影响力评价模型,利用最优化方法挖掘出目标专利集中的核心专利。
结合图2所示,专利数据采集是数据分析的基础和前提,为了更好的进行专利数据采集,步骤一具体为通过使用网络爬虫方法获取专利数据并将专利数据存储到专利数据库中。具体包括选择若干专利数据库网站,如Incopat、Google Patent、SooPat、Patsnap等,从而根据不同的网站构造选择不同的爬虫模块进行爬取,并将爬取到的数据使用bs4网页解析包进行解析,以建立结构化数据库表存储解析结果,进而构造一个庞大的专利数据库。
进一步地,为了加快网络爬虫的爬取速度,网络爬虫方法可采取分布式爬虫架构,开启多个爬虫线程同时爬取不同的网站以获取数据。
通过网络爬虫法建立专利数据库后,需要提取目标领域的专利文档集来作为源数据。具体为,根据检索字段如“自然语言处理”、“大数据”等构建目标领域的专利文档集D={d1,d2,…,dm},其中m表示专利文档集D中专利文档d的个数,专利文档集D中专利文档d的公开时间定义为T={t1,t2,…,tm}。此外,也可以通过IPC分类号来构建专利文档集D。
由于专利文档在技术术语上存在没有统一的规则且文本冗余、语言复杂等问题,故步骤二使用文档主题生成模型、提取文档的主题集,从而使用主题来表示专利文档的主要思想。如此,步骤二具体可分为以下几个步骤:
S1:对专利文档集进行预处理,并形成分词集。设置所选分词集的大小为n,定义分词的重要性分数为分词出现的频率与分词的互信息值的乘积,根据分词的重要性分数选取前n个重要分词,形成分词集V={w1,w2,…,wn},并统计每个分词出现的次数。
预处理包括分词、去停用词、提取专有技术名词。为了限制分词提取的个数,选取较重要的分词构成分词集。传统的分词选择方法仅考虑频率因素而使有些低频出现却语义丰富的高质量短语容易被忽视。因此,可结合分词出现的频率和分词与上下文的互信息值选取出多个重要的分词构成分词集。
S2:设置外部访问接口,基于文档主题生成模型从专利文档集中提取K个专利文档的主题集Z={z1,z2,…,zK},每个主题zi可视为分词集V的概率分布p(w|zk)w∈v,每一个专利文档d可视为主题集Z的概率分布p(zk|d)k∈{1,…,K}。
步骤S2具体包括以下步骤:
S21:顺序遍历专利文档集中的每一个专利文档d,初始化专利文档d的超参数向量超参数向量/>利用每个专利文档d的主题的分词个数进行初始化,引入K维Dirichlet分布生成专利文档d的主题概率分布/>即/>
S23:从专利文档d中读取每个分词以及每个分词在专利文档d中出现的次数,引入K维多项式分布生成专利文档d中分词wi对应的各个主题的多项式分布根据分词wi在专利文档d中出现的次数和该分词的多项式分布/>计算该分词被各个主题产生的次数;遍历整个专利文档d中的分词集V,更新各个主题对应的分词的个数,记为向量/>用向量/>更新超参数向量/>作为K维Dirichlet分布的输入,以便更新专利文档d的主题概率分布/>
S24:计算专利文档d中分词出现在各个主题的次数,同样使用多项式分布得到更新之后各个主题产生的分词数量,记作向量用向量/>更新超参数向量/>作为n维多项式分布的输入,以便更新任一主题zk产生各个分词的概率分布/>
S25:遍历整个专利文档集,使用吉布斯采样算法训练文档主题生成模型,直到得到收敛的专利文档d的主题概率分布θd和任一主题的分词概率分布βk;
S26:选择每一主题的概率最高的分词作为该主题的代表词,以使得每一个专利文档d均用主题分布来表征,每一个主题分布均用分词分布来表征。
一件专利的主题技术很少被已有专利提及,那么该专利具有很强的新颖性;一件专利的主题技术多次被其后发表的专利所提及或引用,那么该专利具有很强的影响力。步骤三具体为基于步骤二中的文档主题生成模型,使用专利文档的主题概率分布和各主题的分词概率分布来计算专利文档与其他专利的相似性分数,并使用高斯窗函数消除时间因素的影响,从而形成专利新颖性评价模型和专利影响力评价模型。具体步骤如下:
提取专利文档集D中每一个专利文档d的主要主题集zdom={z|p(z|d)>0.1}来代表专利文档d,通过步骤二中的文档主题生成模型和使用吉布斯采样算法训练得到的收敛的主题概率分布θd和任一主题的词概率分布βk,定义两个专利文档d和d'的主题相似性分数:
从而通过专利文档的主题概率分布和任一主题下的词概率分布计算专利文档d生成专利文档d'的概率,作为它们之间的相似性度量。
进一步地,由于上述计算分析方法容易受时间因素的影响,可基于窗口函数平滑法消除时间因素对核心专利挖掘的影响,使得两个专利文档d和d'的相似性分数更正为:
改进后的新颖性分数和影响力分数分别为:
这是因为:一方面,一件高龄专利拥有很少的现有技术,而其被引用的次数可能很多;另一方面,一件新申请的专利可能会拥有很多现有技术,而被引用的次数相对较少。因此,由于专利公开的时间不同,专利的主题相似度计算具有非平衡性;此外,专利是具有时间敏感性的,并且他们的价值依赖于当时的技术发展。
设置所提取的目标专利数量为N,即从专利文档集D中提取N个专利形成目标专利集C。以目标领域专利的新颖性和影响力作为提取标准,步骤四中的最优化方法可表示为:
其中,最优化目标第一项是目标专利集C中所有专利的新颖性分数之和,第二项是目标专利集C中所有专利的影响力分数之和,μ和λ是两项得分的权重。最优化目标是使得专利的新颖性分数和影响力分数同时高的专利成为核心专利。通过求解上述最优化目标,可以快速、有效的挖掘某一领域的核心专利。
综上所述,本发明提出了一种核心专利挖掘方法,其通过网络爬虫方法建立专利数据库存储待分析专利数据、使用文档主题生成模型提取所有专利文档的主题集、建立专利的新颖性和影响力的评价模型及通过最优化方法挖掘目标专利集中的核心专利的方法,从而可高效、快速地挖掘出目标领域的核心专利。
另外,以上实施例仅用于说明本发明而并非限制本发明所描述的技术方案,对本说明书的理解应该以所属技术领域的技术人员为基础,尽管本说明书参照上述的实施例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,所属技术领域的技术人员仍然可以对本发明进行修改或者等同替换,而一切不脱离本发明的精神和范围的技术方案及其改进,均应涵盖在本发明的权利要求范围内。
Claims (7)
1.一种核心专利挖掘方法,其特征在于,主要包括以下步骤:
步骤一:基于网络爬虫方法建立专利数据库,并利用网络爬虫在所述专利数据库中提取目标领域的专利文档集作为核心专利挖掘的源数据;
步骤二:基于文档主题生成模型提取所述专利文档集中所有专利文档的主题集;具体包括:
S1:对所述专利文档集进行预处理,并形成分词集,设置所选分词集的大小为n,定义分词的重要性分数为分词出现的频率与分词的互信息值的乘积,根据分词的重要性分数选取前n个重要分词,形成分词集V={w1,w2,…,wn},并统计每个分词出现的次数;
S2:基于文档主题生成模型,从所述专利文档集中提取K个专利文档的主题集Z={z1,z2,…,zK},其中,每个主题zi可视为分词集V的概率分布p(w|zk)w∈v,每一个专利文档d可视为主题集Z的概率分布p(zk|d)k∈{1,…,K};
步骤三:基于所述主题集中主题的相似性度量建立专利新颖性评价模型和专利影响力评价模型;具体为:
提取专利文档集中每一个专利文档d的主要主题集zdom={z|p(z|d)>0.1}来代表专利文档d,通过步骤二中的文档主题生成模型和收敛的θd和βk,θd为主题概率分布,βk为任一主题的分词概率分布,定义两个专利文档d和d'的主题相似性分数:
基于窗口函数平滑法消除时间因素对核心专利挖掘的影响,使得两个专利文档d和d'的相似性分数更正为:
其中,Δt=t-t'是专利文档d和d'的公开时间差,改进后的新颖性分数和影响力分数分别为:
步骤四:从专利文档集中提取多个专利形成目标专利集,基于专利新颖性评价模型和专利影响力评价模型,利用最优化方法挖掘出所述目标专利集中的核心专利。
2.根据权利要求1所述的核心专利挖掘方法,其特征在于,步骤一具体为:
选择若干专利数据库网站,根据不同的网站构造选择不同的爬虫模块进行爬取,并将爬取到的数据使用网页解析包进行解析,以建立结构化数据库表存储解析结果,构造专利数据库;
根据检索字段构建目标领域的专利文档集D={d1,d2,…,dm},其中m表示专利文档集D中的专利文档d的个数,专利文档集D中专利文档d的公开时间定义为T={t1,t2,…,tm}。
3.根据权利要求2所述的核心专利挖掘方法,其特征在于,所述网络爬虫方法采取分布式爬虫架构,开启多个爬虫线程同时爬取不同的网站以获取数据。
4.根据权利要求1所述的核心专利挖掘方法,其特征在于:步骤S1中的预处理包括分词、去停用词、提取专有技术名词,所述分词集为结合分词出现的频率和分词的互信息值选取的多个重要分词的集合。
5.根据权利要求1所述的核心专利挖掘方法,其特征在于,步骤S2具体包括:
S21:顺序遍历所述专利文档集中的每一个专利文档d,初始化专利文档d的超参数向量所述超参数向量/>利用每个专利文档d的主题的分词个数进行初始化,引入K维Dirichlet分布生成专利文档d的主题概率分布/>即
S23:从所述专利文档d中读取每个分词以及每个分词在专利文档d中出现的次数,引入K维多项式分布生成专利文档d中分词wi对应的各个主题的多项式分布根据分词wi在专利文档d中出现的次数和该分词的多项式分布/>计算该分词被各个主题产生的次数;遍历整个专利文档d中的分词集V,更新各个主题对应的分词的个数,记为向量/>用所述向量/>更新超参数向量/>作为K维Dirichlet分布的输入,以便更新专利文档d的主题概率分布/>
S24:计算专利文档d中分词出现在各个主题的次数,同样使用多项式分布得到更新之后各个主题产生的分词数量,记作向量用所述向量/>更新超参数向量/>作为n维多项式分布的输入,以便更新任一主题zk产生各个分词的概率分布/>
S25:遍历整个专利文档集,使用吉布斯采样算法训练文档主题生成模型,直到得到收敛的专利文档d的主题概率分布θd和任一主题的分词概率分布βk;
S26:选择每一主题的概率最高的分词作为该主题的代表词,以使得每一个专利文档d均用主题分布来表征,每一个主题分布均用分词分布来表征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910053229.4A CN109829158B (zh) | 2019-01-21 | 2019-01-21 | 核心专利挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910053229.4A CN109829158B (zh) | 2019-01-21 | 2019-01-21 | 核心专利挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109829158A CN109829158A (zh) | 2019-05-31 |
CN109829158B true CN109829158B (zh) | 2023-06-06 |
Family
ID=66860369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910053229.4A Active CN109829158B (zh) | 2019-01-21 | 2019-01-21 | 核心专利挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829158B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095637A (zh) * | 2021-03-25 | 2021-07-09 | 北京理工大学 | 生物能和碳捕集与封存技术经济可行性的评估方法及系统 |
CN113836261B (zh) * | 2021-08-27 | 2024-05-31 | 哈尔滨工业大学 | 一种专利文本新颖性和创造性预测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021316A (zh) * | 2016-05-06 | 2016-10-12 | 长沙市麓智信息科技有限公司 | 核心专利判断系统及其判断方法 |
CN108694462A (zh) * | 2018-03-30 | 2018-10-23 | 北京合享智慧科技有限公司 | 专利价值度评价方法和计算机可读存储介质 |
-
2019
- 2019-01-21 CN CN201910053229.4A patent/CN109829158B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021316A (zh) * | 2016-05-06 | 2016-10-12 | 长沙市麓智信息科技有限公司 | 核心专利判断系统及其判断方法 |
CN108694462A (zh) * | 2018-03-30 | 2018-10-23 | 北京合享智慧科技有限公司 | 专利价值度评价方法和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109829158A (zh) | 2019-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
Ling et al. | Deep graph matching and searching for semantic code retrieval | |
Shen et al. | A probabilistic model for linking named entities in web text with heterogeneous information networks | |
Shen et al. | LIEGE: link entities in web lists with knowledge base | |
Chen et al. | Multimodal named entity recognition with image attributes and image knowledge | |
CN111104511B (zh) | 一种提取热点话题的方法、装置及存储介质 | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
CN102184262A (zh) | 基于web的文本分类挖掘系统及方法 | |
Unnisa et al. | Opinion mining on Twitter data using unsupervised learning technique | |
CN103646112A (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
WO2018090468A1 (zh) | 视频节目的搜索方法和装置 | |
Odeh et al. | Arabic text categorization algorithm using vector evaluation method | |
Li et al. | TagDC: A tag recommendation method for software information sites with a combination of deep learning and collaborative filtering | |
KR102091633B1 (ko) | 연관법령 제공 방법 | |
CN109086355A (zh) | 基于新闻主题词的热点关联关系分析方法及系统 | |
CN110728136A (zh) | 一种融合多因素的textrank关键词提取算法 | |
CN109829158B (zh) | 核心专利挖掘方法 | |
Ahmadi et al. | Unsupervised matching of data and text | |
CN115098690A (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
Senthilkumar et al. | A Survey On Feature Selection Method For Product Review | |
CN115687960B (zh) | 一种面向开源安全情报的文本聚类方法 | |
Liu et al. | Learning implicit labeling-importance and label correlation for multi-label feature selection with streaming labels | |
CN113111645B (zh) | 一种媒体文本相似性检测方法 | |
Pu et al. | A vision-based approach for deep web form extraction | |
Suresh et al. | A fuzzy based hybrid hierarchical clustering model for twitter sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |