CN106897392A

CN106897392A - 一种基于知识发现的技术竞争及专利预警分析方法

Info

Publication number: CN106897392A
Application number: CN201710064192.6A
Authority: CN
Inventors: 柳先辉; 陈宇飞; 王新梅; 洪晶; 赵卫东
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2017-02-04
Filing date: 2017-02-04
Publication date: 2017-06-27

Abstract

本发明涉及专利信息处理的相关技术领域，具体是一种技术竞争及专利预警分析方法。本发明提供一种基于知识发现的智能化专利分析方法，并提供给用户可视化程度高的分析结果。简述为通过对知识产权数据库和产业领域知识库的抽取分析，建立专题数据库，形成相应的数据集，在此基础上利用向量空间、神经网络、数理统计等数据挖掘和知识发现工具，揭示出蕴含在数据背后的深层信息，并向用户提供可视化报表。最终通过专利预警分析、专利主题战略坐标分析、专利主题生命周期分析，实现技术竞争及专利预警。

Description

一种基于知识发现的技术竞争及专利预警分析方法

技术领域

本发明涉及专利信息处理的相关技术领域，具体是一种技术竞争及专利预警分析方法。

背景技术

当今社会处于一个创新型的时代，互联网日益普及，高新技术发展迅猛。企业如何在激烈的技术竞争环境中保持领先，提升企业的整体创新力水平是关键。而在一定意义上，企业的专利水平代表了企业的整体创新力水平。所以企业可以通过对现有的专利进行分析，实现技术竞争以及专利预警。

目前流行的技术竞争及专利预警分析方法，大多采用人工操作，费时费力。基本流程是人工设定检索式，在数据库中检索出所需要的专题数据库，手工对其进行分析，再将分析结果手动汇总到图表中。这类方法存在以下缺陷(1)用户友好性差：对检索式准确度要求高，检索式过于精确，检索到的专利数据少，遗漏度高；检索式过于宽松，检索到的专利数据庞大，计算量大，难以实现人工量化分析。(2)分析手段效果差：人工对查找到的专利信息进行统计与技术分析，不但费时费力，而且分析手段落后，未挖掘出专利数据的深层信息。(3)分析结果可视化差：将分析结果手动汇总到图表，以文字表格的形式，无法对专利信息做出综合评价。

发明内容

为了解决以上问题，本发明提供一种基于知识发现的智能化专利分析方法，并提供给用户可视化程度高的分析结果。

本发明一种基于知识发现的技术竞争及专利预警分析方法,简述为：通过对知识产权数据库和领域知识的抽取分析，建立专题数据库，形成相应的数据集，并在此基础上，利用向量空间、神经网络、数理统计等数据挖掘和知识发现工具，揭示出蕴含在数据背后的深层信息，并对分析得到的结果进行智能化分析，向用户提供可视化报表，最终实现专利预警、专利技术热点和空白点分析、技术生命周期分析。

针对传统专利分析中，用户友好性差，对检索式准确度要求高的问题，本发明在数据挖掘步骤中，提出一种基于改进神经网络的聚类方法，用户可以放宽对检索式的准确度限制。用户可以设定宽松的检索式，检索出大量相关度低的专利文件，对其进行神经网络聚类建立分类器，再输入用户待预警的文件，取出其所在的那一类专利数据做进一步分析。

本发明需要保护的技术方案表征为：一种基于知识发现的技术竞争及专利预警分析方法，其特征在于，具体步骤包括:(1)数据提取阶段：根据用户输入的检索式，建立专题数据库；(2)数据预处理阶段：对专题数据库的专利文本进行预处理，形成特征词-专利权重矩阵；(3)数据挖掘阶段：对形成的专利文本向量，应用SOM神经网络方法和GMM混合高斯模型相结合的方法进行聚类，得到聚类结果；(4)结果解释分析阶段：对每一类专利文件进行分析，具体包括专利预警、专利技术热点和空白点分析、或技术生命周期分析，以及它们的综合运用。

步骤1数据提取阶段，建立专题数据库，对知识产权数据库和产业领域知识进行抽取分析，得到专利专题数据库。

步骤2数据预处理阶段，其步骤包括：

这里采用的是向量空间模型(VSM),基本思想是将特征词从专利文件中抽取出来，不考虑专利文件结构和词序语义。首先提取专利的标题和摘要,再进行中文分词、词性标注、合并同义词、去停用词(如图2所示)。专利文件由特征词组成的一个特征向量表示，记作V_i＝(d_i1,d_i2,...,d_im)，其中d_i1表示第一个特征词在专利文件i中的权重。对于n个专利文件，形成一个m×n专利特征矩阵D,D＝[d_ij]_m×n。由于专利文本和特征词数量大，而在某个确定的专利文件中出现的特征词有限，所以这里d_ij的计算采用TF-IDF方法，其中f_ij表示第i个特征词出现在第j个专利文件中的频度，p_i表示含有第i个特征词的专利文件数量。

步骤3数据挖掘阶段：对形成的专利特征矩阵，应用SOM神经网络方法和GMM混合高斯模型相结合的方法进行聚类，得到聚类结果，聚类得到的专利集合对应着不同主题的专利文件。

步骤3.1对专利向量文本进行SOM自组织学习训练，得到输出结点向量集Y。SOM神经网络方法的优点在于，将高维向量映射为低维向量时保持向量内部拓扑结构不变的特性。在这里，我们使用SOM将高维的专利文本数据映射到二维平面空间。如图3所示。

SOM神经网络模型由输入层和输出层组成，输出层即竞争层。输入层神经元个数对应专利文件的维度即特征词数量m,输出层神经元个数这里定义为a，这里将竞争层神经元排列成二维阵列形式。输入与输出层为全连接，输出层之间为侧向交互连接以相互作用。SOM模型实现步骤为五步：初始化，竞争层神经元相互竞争，竞争层神经元相互合作，神经元权值自适应，迭代直至收敛。

(1)初始化：输入与输出层为全连接，需要对每个突触赋初始权值，通常选择[0,1]内的小随机数，以实现无监督映射，得到权值矩阵W＝[w_ij]_m×a。

(2)竞争层神经元相互竞争：对于输入向量Vi,竞争层神经元根据判别函数产生获胜神经元。这里设置判别函数为余弦相似度度量函数，对于竞争层神经元b,相似度Sb为:

计算得S＝[s1,...,sa],选取S中最小值，其对应的即为获胜神经元。

(3)竞争层神经元相互合作：获胜神经元邻近的神经元容易被激活，所以需要定义激活的领域范围，μ表示被激活的神经元，i表示获胜神经元，σ表示邻域宽度(随时间增加而减小)，τ1是时间常数，t是离散时间变量(0,1,2，...)。邻域公式定义如下：

(4)神经元权值自适应：η(t)表示学习率参数(随时间t增加而减小)，η0为初始值，τ2是时间常数。权值向量W的更新公式定义如下：

(5)迭代直至收敛:不断选取新的专利特征向量重复以上步骤，迭代训练直至达到指定迭代次数或者输出的二维映射趋于稳定。最后得到输出层为保持高维内部拓扑结构的二维平面上的n个点X(x_i,y_i)，具有低维可视化性能。

步骤3.2用GMM混合高斯模型对X进行直接聚类，将其划分为K类。GMM是一种基于概率的聚类方法，与k均值相比较稳定性高、计算效率高、可理解度好。

GMM模型实现步骤为四步：初始化GMM模型，E步求数据点由各个高斯成分生成的概率，M步更新GMM模型参数，迭代直至收敛。

(1)初始化GMM模型：有n个样本点，划分为K类。则GMM模型由K个高斯分布组成，每一个高斯分布称为一个高斯成分，由他们线性组合成GMM混合模型，这里μ_k为均值向量初始化零，∑_k为协方差向量初始化为一个任意大的正数乘以单位矩阵，π_k初始化为1/n,概率密度函数和最大似然函数公式如下：

(2)E步已知μ_k，∑_k，π_k，求样本点由各个高斯成分生成的概率：

(3)M步已知γ(i,k)，更新GMM模型参数：

(4)迭代(2)(3)步骤，至最大似然函数收敛或者达到最大收敛次数。GMM最终得到每个样本点被分到所有类别的概率，是一种软对应关系，这里我们可以选取概率最大的作为其分类k。

步骤4结果解释分析阶段，对聚类之后的专利进行分析，每一类专利代表着不同的主题，专利主题内部相似度高。具体包括：专利预警、专利主题战略坐标分析、专利主题生命周期分析。

步骤4.1专利预警：用户设定参数，具体有检索式、待预警的文件、接收预警的联系方式、预警阈值。具体过程，如图4所示。这里，待预警的文件：是企业的研发或者产品技术特征说明书；被检专利即通过检索式在对知识产权数据库和产业领域知识库中检索到的已公开专利和文献。

通过用户输入检索式，经过上述三步，得到已经训练好了分类器。将待预警的文件进行同样的处理，形成专利特征向量，输入到分类器中，得到其分类，以及同属一类的其他专利文献。

传统的专利相似度比较方法是比较特征向量的欧氏距离，欧氏距离方法体现的是绝对值差异。这里我们同样选取余弦相似度来度量专利向量之间的相似度，与欧氏距离相比，余弦相似度关注的是向量的方向差异，对绝对数值不敏感，更适用于专利文本向量。

根据余弦相似度的度量，得出待预警的文件与该类别内其他专利的相似度，与用户设定的阈值进行比较，大于阈值则自动将相似专利文献列表发送给用户，并附上相似度大小度量值。

步骤4.2专利主题战略坐标分析：用户输入检索式，得到专题数据库，通过SOM-GMM聚类得到不同主题的专利文献。对不同主题的专利进行战略坐标分析，将得到的技术战略坐标图发送给用户。具体过程，如图6所示。

专利技术战略坐标使用二维象限描述专利主题内部关系与不同专利主题之间的关系。战略坐标的横轴表示向心力，纵轴表示密度，划分为四个象限。如图5所示。对于某一类专利文件，向心度表示该类专利与其他类别专利的链接强度，表示与其他类别的联系是否紧密，计算方法可以通过计算其特征词与其他类的特征词链接强度求得。密度表示该类别专利的主题内部联系是否紧密，计算方法可以通过计算每一对特征词在同类不同文献中出现的次数的平均值求得。

这里，若该类专利位于第一象限，密度高向心度高，说明研究主题趋向成熟，与其他类别联系紧密；若该类专利位于第二象限，密度高密度低，说明研究主题已经形成一定规模，但与其他专利类别联系不密切；若该类专利位于第三象限，密度低向心度低，说明研究内部结构松散，位于研究的边缘领域；若该类专利位于第四象限，密度低向心度高，说明与其他类别联系紧密，但是该领域自身结构不紧密。综上所述，位于第一象限的专利主题即为当前技术热点；位于第四象限的专利主题具有发展潜力，即技术空白点，企业可以针对这一领域进行技术研发工作，以在技术竞争中保持优势。

步骤4.3专利主题技术生命周期分析：用户输入检索式，得到专题数据库，通过SOM-GMM聚类得到不同主题的专利文献。对不同主题的专利进行技术生命周期分析，将得到的指标曲线图与技术成熟度数据发送给用户。具体过程，如图7所示。

采用专利考查来度量不同专利主题内的技术正处于哪一生命周期，分为生长期、成熟期、衰老期。通过对专利进行统计分析，可以找出其中的内在性质，其基本原理是技术在进化过程的不同阶段具有不同的属性。主要考察四项指标，专利等级、专利数量、性能和获利能力这四个指标。

对某一主题内的专利进行分析，统计专利等级和数量，绘制其随时间变化的曲线；调研主题专利技术所支持的产品的各种性能和经济指标，选择合适的性能指标作为技术的主参数，选择合适的经济指标表示技术的获利能力，可以获得性能曲线和获利能力曲线。把得到的四条曲线分别与标准参考曲线相比较，可以判断所研究的主题专利中的技术在曲线上的位置，表示专利主题的技术成熟度，即所在生命周期。

附图说明

为了更清楚地说明本发明中的技术方案，下面附图进行简单介绍：

图1是本发明中基于知识发现的技术竞争及专利预警分析方法流程图；

图2是本发明中专利文本预处理示意图；

图3是本发明中SOM-GMM两阶段聚类示意图；

图4是本发明中专利预警分析流程图；

图5是本发明中专利主题战略坐标示意图；

图6是本发明中专利主题战略坐标分析流程图；

图7是本发明中专利主题技术生命周期分析流程图。

具体实施方式

为了说明本发明所述的技术方案，下面通过具体的实施例来进行说明。

本发明提供了三种专利分析方式，包括专利预警分析、专利主题战略坐标分析和专利主题技术生命周期分析，分为三个实施例进行介绍。

实施例一

图4是本发明专利预警的方法流程图。用户需要输入检索式、待预警文件、预警阈值。具体包括以下步骤(图1)：

步骤1数据提取阶段，根据用户输入的检索式，在知识产权数据库和领域知识库中进行抽取分析，得到专利专题数据库。

步骤2数据预处理阶段，其步骤包括：

提取专利的标题和摘要,再进行中文分词、词性标注、合并同义词、去停用词以及词频统计。

步骤3数据挖掘阶段，其步骤包括：

步骤3.1对专利向量文本进行SOM自组织学习训练，得到输出结点向量集Y。在这里，我们使用SOM将高维的专利文本数据映射到二维平面空间。

步骤3.2用GMM混合高斯模型方法对X进行直接聚类，将其划分为K类。这里，我们选用余弦相似度作为聚类距离，在文本向量的聚类中余弦距离比欧氏距离有更好的表现。

步骤4结果解释分析阶段，对聚类之后的专利主题进行分析，每一类专利代表着不同的主题，专利主题内部相似度高。待预警文件进行同样的处理，形成专利特征向量，输入到分类器中，得到其分类，以及同属一类的其他专利文献。根据余弦相似度的度量，得出待预警文件与该类别内专利的相似度，与用户设定的阈值进行比较，大于阈值则自动将相似专利文献列表发送给用户，并附上相似度大小度量值。

实施例二

图6是本发明专利战略坐标分析的流程图。用户需要输入检索式。具体包括以下步骤：

步骤1、2、3，同实施例一。

步骤4结果解释分析阶段：对聚类之后得到的不同主题专利进行战略坐标分析，并向用户发送技术战略坐标图。技术战略坐标图中，向心度表示该类专利与其他类别专利的链接强度，计算方法可以通过计算其特征词与其他类的特征词链接强度求得。密度表示该类别专利的主题内部联系是否紧密，计算方法可以通过计算每一对特征词在同类不同文献中出现的次数的平均值求得。综上所述，位于第一象限的专利主题即为当前技术热点；位于第四象限的专利主题具有发展潜力，即技术空白点，企业可以针对这一领域进行技术研发工作，以在技术竞争中保持优势。

实施例三

图7是本发明专利战略坐标分析的流程图。用户需要输入检索式。具体包括以下步骤：

步骤1、2、3，同实施例一。

步骤4结果解释分析阶段，对聚类之后的专利主题进行分析，每一类专利代表着不同的主题，专利主题内部相似度高。对不同主题的专利进行技术生命周期分析，将得到的指标曲线图与技术成熟度数据发送给用户。

对某一主题内的专利进行分析，统计专利等级和数量，绘制其随时间变化的曲线；调研主题专利技术所支持的产品的各种性能和经济指标，选择合适的性能指标作为技术的主参数，选择合适的经济指标表示技术的获利能力，可以获得性能曲线和获利能力曲线。把得到的四条曲线分别与标准参考曲线相比较，可以判断所研究的主题专利中的技术在S曲线上的位置，表示专利主题的技术成熟度，即所在生命周期。

Claims

1.一种基于知识发现的技术竞争及专利预警分析方法，其特征在于，具体步骤包括:

步骤2数据预处理阶段，其步骤包括：

采用向量空间模型(VSM),基本思想是将特征词从专利文件中抽取出来，不考虑专利文件结构和词序语义。首先提取专利的标题和摘要,再进行中文分词、词性标注、合并同义词、去停用词。专利文件由特征词组成的一个特征向量表示，记作V_i＝(d_i1,d_i2,...,d_im)，其中d_i1表示第一个特征词在专利文件i中的权重。对于n个专利文件，形成一个m×n专利特征矩阵D,D＝[d_ij]_m×n。由于专利文本和特征词数量大，而在某个确定的专利文件中出现的特征词有限，所以这里d_ij的计算采用TF-IDF方法，其中f_ij表示第i个特征词出现在第j个专利文件中的频度，p_i表示含有第i个特征词的专利文件数量。

d_{i j} = \frac{f_{i j} \times \log_{2} (n / p_{i} + 0.01)}{\sqrt{Σ_{j = 1}^{m} {(f_{i j} \times \log_{2} (n / p_{i} + 0.01))}^{2}}}

步骤3.1对专利向量文本进行SOM自组织学习训练，得到输出结点向量集Y。SOM神经网络，将高维向量映射为低维向量时保持向量内部拓扑结构不变的特性，将高维的专利文本数据映射到二维平面空间。

s_{b} = \frac{Σ_{j = 1}^{m} V_{j} \times w_{b j}}{\sqrt{Σ_{j = 1}^{m} {(V_{j})}^{2} \times Σ_{j = 1}^{m} {(w_{b j})}^{2}}}

δ_{μ, i} = \exp (- \frac{s_{μ, i}}{2 σ^{2} (t)}), σ (t) = σ_{0} \exp (- \frac{t}{τ 1})

w_j(t+1)＝w_j(t)+η(t)δ_μ,i(x(t)-w_j(t)),

步骤3.2用GMM混合高斯模型对X进行直接聚类，将其划分为K类。GMM模型实现步骤为四步：初始化GMM模型，E步求数据点由各个高斯成分生成的概率，M步更新GMM模型参数，迭代直至收敛。

p (x) = Σ_{k = 1}^{K} p (k) p (x | k) = Σ_{k = 1}^{K} π_{k} N (x | μ_{k}, Σ_{k})

Σ_{i = 1}^{n} \log {Σ_{k = 1}^{K} π_{k} N (x | μ_{k}, Σ_{k})}

γ (i, k) = \frac{π_{k} N (x_{i} | μ_{k}, Σ_{k})}{Σ_{j = 1}^{K} π_{j} N (x_{i} | μ_{j}, Σ_{j})}

(3)M步已知γ(i,k)，更新GMM模型参数：

μ_{k} = \frac{1}{N_{k}} Σ_{i = 1}^{n} γ (i, k) x_{i}, Σ_{k} = \frac{1}{N_{k}} Σ_{i = 1}^{n} γ (i, k) (x_{i} - μ_{k}) {(x_{i} - μ_{k})}^{T}

N_{k} = Σ_{i = 1}^{n} γ (i, k), π_{k} = \frac{N_{k}}{n}

(4)迭代(2)(3)步骤，至最大似然函数收敛或者达到最大收敛次数。GMM最终得到每个样本点被分到所有类别的概率，选取概率最大的作为其分类k。

步骤4结果解释分析阶段，对聚类之后的专利进行分析，每一类专利代表着不同的主题，专利主题内部相似度高。具体包括：专利预警、专利主题战略坐标分析、专利主题生命周期分析。专利预警：用户设定参数，具体有检索式、待预警的文件、接收预警的联系方式、预警阈值。待预警的文件：是企业的研发或者产品技术特征说明书；被检专利即通过检索式在对知识产权数据库和产业领域知识库中检索到的已公开专利和文献。