CN111782814A

CN111782814A - 一种专利技术主题内容和热度演化的分析方法

Info

Publication number: CN111782814A
Application number: CN202010699613.4A
Authority: CN
Inventors: 李学俊; 孙玉婷
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-10-16
Anticipated expiration: 2040-07-17
Also published as: CN111782814B

Abstract

本发明属于自然语言处理领域，具体涉及一种专利技术主题内容和热度演化的分析方法，包括以下步骤：按照专利和专利申请的申请时间，以年为单位划分专利文档集；对每个时间片的专利摘要文本分别进行分词、去停用词等预处理；设置待分析的IPC分类号层级和PLDA模型参数；使用PLDA模型进行主题挖掘，获取IPC分类下不同层级的专利技术主题信息；在不同时间片中对IPC分类号下不同层级的专利技术主题信息进行内容和研究热度的演化分析。本发明利用了IPC分类号蕴含不同层级的专利技术信息这一特点，帮助技术研究人员从更细粒度了解某领域技术的发展状况，为技术进一步的创新发展提供了坚实的基础。

Description

一种专利技术主题内容和热度演化的分析方法

技术领域

本发明属于自然语言处理领域，具体涉及一种专利技术主题内容和热度演化的分析方法。

背景技术

随着中国社会经济的发展以及国际地位的逐渐提升，人们对于知识产权的保护意识愈加强烈。知识产权保护是促进技术进步的重要制度安排,它影响到一个国家的自主创新、FDI流入、国际贸易及国际技术转移等诸多方面，并最终影响到经济增长。专利是知识产权中重要的一种表现形式。随着专利数据逐年增多，人们需要对专利数据进行深入分析研究，挖掘出有价值的信息，有助于促进创新。

由于目前专利数据的海量化，专利研究人员通过人力对某领域的专利文档进行阅读并提取技术信息的方法过于困难和低效，因此，在现阶段使用主题模型对专利进行深入的技术主题挖掘是至关重要的工作，如何准确且高效的对专利文本进行主题挖掘和主题演化分析，是目前研究人员需要关注的问题。

隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是常见的主题挖掘模型，它能识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息，能够有效的提取专利的技术主题。然而基于LDA模型提取专利主题的方法虽易于实现，但是由于其模型的特性，只能对某领域专利进行全局的技术主题提取，不能从细粒度进行专利技术主题的挖掘和演化分析，更不能对专利的技术主题的演化按照时段进行分析。

PLDA(Partially Labeled Dirichlet Allocation)主题模型是一种针对有标记文档进行主题处理的模型，该模型相比于LDA主题模型结构增加了标签属性，使主题分布的结果展现在标签类别之下，可以得到较细粒度的主题演化结果。但是由于标签的特殊性，每个文档的标签都是相互独立的，在处理文档的过程中只能在固定的标签下进行主题提取和演化分析。

国际专利分类表(International Patent Classification,IPC)由世界知识产权组织(WIPO)发布，是专利研究人员最常用的检索工具，但是，在实际的检索过程中，使用IPC分类号检索得到的目标专利群数量一般较多，噪音较大，往往难以得到合适数量的目标专利文献。采用分类号初步检索可以极大缩小检索范围，为进一步检索提供基础。

因此，急需开发出一种可以充分利用IPC分类号的不同层级对专利的技术主题进行不同层级、更细粒度演化的分析方法，以更好地满足用户需求。

发明内容

针对现有技术中存在的不足，本发明的技术问题是提供一种专利技术主题内容和热度演化的分析方法，该方法可以对专利的技术主题进行更细粒度并随时段演化进行全面分析，有利于技术研究人员更快速的了解某领域技术的发展状况，能够为技术创新提供坚实的基础。

本发明解决上述技术问题的方案是：

一种专利技术主题内容和热度演化的分析方法，包括以下步骤：

S1、按照专利和专利申请的申请时间，以年为单位划分专利文档集，得到不同时间片的专利文档集；

S2、使用jieba分词工具对所述的专利文档集中的每篇文档的摘要文本进行分词，并使用哈工大提供的中文停用词表，对摘要文本进行过滤，得到处理后的摘要文本；

S3、设置待分析的IPC分类号层级和PLDA模型参数；

以IPC分类号的位数作为待分析的IPC层级；设置PLDA模型的超参数α＝0.1，β＝0.01；选取困惑度值最小时的迭代次数和保存迭代间隔数作为模型参数，并选取困惑度值最小时的主题数作为IPC分类号下生成的主题数目；困惑度值Perplexity(D)的计算公式如下：

其中，

表示专利文档集中所有词语之和；p(w)表示某个词语在所述的专利文档集出现的概率，其计算公式如下：

p(w)＝p(z|d)*p(w|z) (2)

其中，p(z|d)表示专利文档集中的某个文档中，某个主题出现的概率；p(w|z)表示某个词语在某个主题下出现的概率；

S4、将所述的处理后的摘要文本和IPC分类号作为PLDA模型输入，使用PLDA模型进行主题挖掘，以获取IPC分类下不同层级的专利技术主题信息：

由于专利和专利申请可能包含多个IPC分类号，所以将摘要文本和IPC分类号组成集合列表LabelDocumentList＝{{l1,l2,...,d1},{l1,l2,...,d2},...,{l1,l2,...,dm}}作为PLDA模型的数据输入，其中，d1...dm表示m个摘要文本，l1,l2...表示每个摘要文本对应的IPC分类号，即将专利文档集中的每个文档的IPC分类号都作为该文档的标签；

利用PLDA模型分别处理每一个时间片中的LabelDocumentList集合列表，进行IPC分类号下的主题挖掘；PLDA模型通过采样方式生成专利文档集中的每个文档的词语和标签，其概率生成公式如下：

其中Λ_d表示专利文档集中的文档d中的标签；K_j表示标签j下的主题数；V_η表示所有词语集合V下的先验参数；α表示对称的狄利克雷先验参数；

指所述的文档d的i位置词语中的主题z和标签l的当前分配之外的对应计数；n_d,j,k,.表示标签j和主题k在文档d中出现的次数；

根据上述PLDA模型的主题挖掘过程，得到IPC分类号下不同层级的专利技术主题信息结果，所述的结果的展现方式为IPC分类下不同层级的主题-词语概率分布和文档-主题概率分布；

S5、在不同时间片中对IPC分类号下不同层级的专利技术主题信息进行内容和研究热度的演化分析；

(1)根据所述的主题-词语概率分布，取此分布占比前N位的词语，作为主题的主要含义，从而得到IPC分类号下的主题内容信息，通过词云技术展示不同时间片IPC分类号下的主题词内容，得到IPC分类号下不同层级的主题内容随时间推移的演化情况；

(2)根据所述的文档-主题概率分布，计算某主题在某时间片的主题强度，其计算公式如下：

其中，θ_d,k表示同一时间片内的文档d中包含第k个主题的比例，D_t为第t个时间片内的文本数；

所述的主题强度描述某主题在某时间片中的活跃程度，在同一时间片中该主题强度值越大，说明主题热度越高，受到的关注程度越高；

通过IPC分类号下不同层级的某专利主题内容随时间推移的演化情况和该主题在某时间片中的主题强度值，即可以得到IPC分类号下不同层级的某专利主题研究热度的变化趋势。

相较于现有技术，本发明所公开的一种专利技术主题内容和热度演化的分析方法具有如下有益效果：

(1)本发明在主题挖掘过程中，使用PLDA模型进行文本主题挖掘，并结合专利的IPC分类号和摘要文本信息进行处理，通过设置将要分析的IPC分类号层级，可以在不同层级下进行主题挖掘，产生不同IPC层级分类下的技术主题信息，以更好地满足用户需求。

(2)本发明在主题挖掘结果展示中，由于IPC分类号中每个层级代表的技术含义不同，所以IPC分类下的技术主题挖掘结果更能细粒度的表达技术信息的分布。

(3)本发明在主题演化分析过程中，通过词云技术展示不同时间片IPC分类下的主题词内容，研究IPC分类下的主题内容随时间推移的演化情况。通过计算不同时间片中IPC分类下的主题强度值和IPC分类下主题强度的演化趋势，可以得到IPC分类下该主题的研究热度变化趋势。

附图说明

图1为本发明所公开的一种专利技术主题内容和热度演化的分析方法的步骤框图。

具体实施方式

下面结合附图对本发明作进一步说明。

实施例1

参见图1，本实例的专利技术主题演化分析方法包括以下步骤。

S3、设置待分析的IPC分类号层级和PLDA模型参数；

为了对专利数据进行更细粒度的技术主题挖掘，设置待分析的IPC分类号层级，由于IPC分类号中每个层级代表的技术含义不同，且本发明的主要目的是分析不同IPC层级下的技术主题演化情况，所以需确定待分析的IPC分类号层级，即IPC的位数，例如IPC的前三位代表着大类层级；设置PLDA模型的超参数α＝0.1，β＝0.01；选取困惑度值最小时的迭代次数和保存迭代间隔数作为模型参数，并选取困惑度值最小时的主题数作为IPC分类号下生成的主题数目；困惑度值Perplexity(D)的计算公式如下：

其中，

p(w)＝p(z|d)*p(w|z) (2)

由于专利和专利申请可能包含多个IPC分类号，所以将摘要文本和IPC分类号组成集合列表LabelDocumentList＝{{l1,l2,...,d1},{l1,l2,...,d2},...,{l1,l2,...,dm}}作为PLDA模型的数据输入，其中，d1...dm表示m个摘要文本，l1,l2...表示每个摘要文本对应的IPC分类号，即将每个专利的IPC分类号都作为专利的标签；

通过IPC分类号下不同层级的某专利主题内容随时间推移的演化情况和该主题在某时间片中的主题强度值，即可以得到IPC分类号下不同层级的某专利主题研究热度变化趋势。

Claims

1.一种专利的主题内容及其热度演化的分析方法，该方法包括如下步骤：

S3、设置待分析的IPC分类号层级和PLDA模型参数；

其中，

p(w)＝p(z|d)*p(w|z) (2)