CN106897392A - 一种基于知识发现的技术竞争及专利预警分析方法 - Google Patents
一种基于知识发现的技术竞争及专利预警分析方法 Download PDFInfo
- Publication number
- CN106897392A CN106897392A CN201710064192.6A CN201710064192A CN106897392A CN 106897392 A CN106897392 A CN 106897392A CN 201710064192 A CN201710064192 A CN 201710064192A CN 106897392 A CN106897392 A CN 106897392A
- Authority
- CN
- China
- Prior art keywords
- sigma
- neuron
- vector
- analysis
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 56
- 238000005516 engineering process Methods 0.000 title claims abstract description 46
- 230000000007 visual effect Effects 0.000 claims abstract description 4
- 210000002569 neuron Anatomy 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000007476 Maximum Likelihood Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 4
- 238000007418 data mining Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 230000003252 repetitive effect Effects 0.000 claims description 2
- 238000012827 research and development Methods 0.000 claims description 2
- 230000006978 adaptation Effects 0.000 claims 1
- 210000005036 nerve Anatomy 0.000 claims 1
- 210000004218 nerve net Anatomy 0.000 claims 1
- 230000007935 neutral effect Effects 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000012800 visualization Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 6
- 238000000205 computational method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010429 evolutionary process Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Technology Law (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及专利信息处理的相关技术领域,具体是一种技术竞争及专利预警分析方法。本发明提供一种基于知识发现的智能化专利分析方法,并提供给用户可视化程度高的分析结果。简述为通过对知识产权数据库和产业领域知识库的抽取分析,建立专题数据库,形成相应的数据集,在此基础上利用向量空间、神经网络、数理统计等数据挖掘和知识发现工具,揭示出蕴含在数据背后的深层信息,并向用户提供可视化报表。最终通过专利预警分析、专利主题战略坐标分析、专利主题生命周期分析,实现技术竞争及专利预警。
Description
技术领域
本发明涉及专利信息处理的相关技术领域,具体是一种技术竞争及专利预警分析方法。
背景技术
当今社会处于一个创新型的时代,互联网日益普及,高新技术发展迅猛。企业如何在激烈的技术竞争环境中保持领先,提升企业的整体创新力水平是关键。而在一定意义上,企业的专利水平代表了企业的整体创新力水平。所以企业可以通过对现有的专利进行分析,实现技术竞争以及专利预警。
目前流行的技术竞争及专利预警分析方法,大多采用人工操作,费时费力。基本流程是人工设定检索式,在数据库中检索出所需要的专题数据库,手工对其进行分析,再将分析结果手动汇总到图表中。这类方法存在以下缺陷(1)用户友好性差:对检索式准确度要求高,检索式过于精确,检索到的专利数据少,遗漏度高;检索式过于宽松,检索到的专利数据庞大,计算量大,难以实现人工量化分析。(2)分析手段效果差:人工对查找到的专利信息进行统计与技术分析,不但费时费力,而且分析手段落后,未挖掘出专利数据的深层信息。(3)分析结果可视化差:将分析结果手动汇总到图表,以文字表格的形式,无法对专利信息做出综合评价。
发明内容
为了解决以上问题,本发明提供一种基于知识发现的智能化专利分析方法,并提供给用户可视化程度高的分析结果。
本发明一种基于知识发现的技术竞争及专利预警分析方法,简述为:通过对知识产权数据库和领域知识的抽取分析,建立专题数据库,形成相应的数据集,并在此基础上,利用向量空间、神经网络、数理统计等数据挖掘和知识发现工具,揭示出蕴含在数据背后的深层信息,并对分析得到的结果进行智能化分析,向用户提供可视化报表,最终实现专利预警、专利技术热点和空白点分析、技术生命周期分析。
针对传统专利分析中,用户友好性差,对检索式准确度要求高的问题,本发明在数据挖掘步骤中,提出一种基于改进神经网络的聚类方法,用户可以放宽对检索式的准确度限制。用户可以设定宽松的检索式,检索出大量相关度低的专利文件,对其进行神经网络聚类建立分类器,再输入用户待预警的文件,取出其所在的那一类专利数据做进一步分析。
本发明需要保护的技术方案表征为:一种基于知识发现的技术竞争及专利预警分析方法,其特征在于,具体步骤包括:(1)数据提取阶段:根据用户输入的检索式,建立专题数据库;(2)数据预处理阶段:对专题数据库的专利文本进行预处理,形成特征词-专利权重矩阵;(3)数据挖掘阶段:对形成的专利文本向量,应用SOM神经网络方法和GMM混合高斯模型相结合的方法进行聚类,得到聚类结果;(4)结果解释分析阶段:对每一类专利文件进行分析,具体包括专利预警、专利技术热点和空白点分析、或技术生命周期分析,以及它们的综合运用。
步骤1数据提取阶段,建立专题数据库,对知识产权数据库和产业领域知识进行抽取分析,得到专利专题数据库。
步骤2数据预处理阶段,其步骤包括:
这里采用的是向量空间模型(VSM),基本思想是将特征词从专利文件中抽取出来,不考虑专利文件结构和词序语义。首先提取专利的标题和摘要,再进行中文分词、词性标注、合并同义词、去停用词(如图2所示)。专利文件由特征词组成的一个特征向量表示,记作Vi=(di1,di2,...,dim),其中di1表示第一个特征词在专利文件i中的权重。对于n个专利文件,形成一个m×n专利特征矩阵D,D=[dij]m×n。由于专利文本和特征词数量大,而在某个确定的专利文件中出现的特征词有限,所以这里dij的计算采用TF-IDF方法,其中fij表示第i个特征词出现在第j个专利文件中的频度,pi表示含有第i个特征词的专利文件数量。
步骤3数据挖掘阶段:对形成的专利特征矩阵,应用SOM神经网络方法和GMM混合高斯模型相结合的方法进行聚类,得到聚类结果,聚类得到的专利集合对应着不同主题的专利文件。
步骤3.1对专利向量文本进行SOM自组织学习训练,得到输出结点向量集Y。SOM神经网络方法的优点在于,将高维向量映射为低维向量时保持向量内部拓扑结构不变的特性。在这里,我们使用SOM将高维的专利文本数据映射到二维平面空间。如图3所示。
SOM神经网络模型由输入层和输出层组成,输出层即竞争层。输入层神经元个数对应专利文件的维度即特征词数量m,输出层神经元个数这里定义为a,这里将竞争层神经元排列成二维阵列形式。输入与输出层为全连接,输出层之间为侧向交互连接以相互作用。SOM模型实现步骤为五步:初始化,竞争层神经元相互竞争,竞争层神经元相互合作,神经元权值自适应,迭代直至收敛。
(1)初始化:输入与输出层为全连接,需要对每个突触赋初始权值,通常选择[0,1]内的小随机数,以实现无监督映射,得到权值矩阵W=[wij]m×a。
(2)竞争层神经元相互竞争:对于输入向量Vi,竞争层神经元根据判别函数产生获胜神经元。这里设置判别函数为余弦相似度度量函数,对于竞争层神经元b,相似度Sb为:
计算得S=[s1,...,sa],选取S中最小值,其对应的即为获胜神经元。
(3)竞争层神经元相互合作:获胜神经元邻近的神经元容易被激活,所以需要定义激活的领域范围,μ表示被激活的神经元,i表示获胜神经元,σ表示邻域宽度(随时间增加而减小),τ1是时间常数,t是离散时间变量(0,1,2,...)。邻域公式定义如下:
(4)神经元权值自适应:η(t)表示学习率参数(随时间t增加而减小),η0为初始值,τ2是时间常数。权值向量W的更新公式定义如下:
(5)迭代直至收敛:不断选取新的专利特征向量重复以上步骤,迭代训练直至达到指定迭代次数或者输出的二维映射趋于稳定。最后得到输出层为保持高维内部拓扑结构的二维平面上的n个点X(xi,yi),具有低维可视化性能。
步骤3.2用GMM混合高斯模型对X进行直接聚类,将其划分为K类。GMM是一种基于概率的聚类方法,与k均值相比较稳定性高、计算效率高、可理解度好。
GMM模型实现步骤为四步:初始化GMM模型,E步求数据点由各个高斯成分生成的概率,M步更新GMM模型参数,迭代直至收敛。
(1)初始化GMM模型:有n个样本点,划分为K类。则GMM模型由K个高斯分布组成,每一个高斯分布称为一个高斯成分,由他们线性组合成GMM混合模型,这里μk为均值向量初始化零,∑k为协方差向量初始化为一个任意大的正数乘以单位矩阵,πk初始化为1/n,概率密度函数和最大似然函数公式如下:
(2)E步已知μk,∑k,πk,求样本点由各个高斯成分生成的概率:
(3)M步已知γ(i,k),更新GMM模型参数:
(4)迭代(2)(3)步骤,至最大似然函数收敛或者达到最大收敛次数。GMM最终得到每个样本点被分到所有类别的概率,是一种软对应关系,这里我们可以选取概率最大的作为其分类k。
步骤4结果解释分析阶段,对聚类之后的专利进行分析,每一类专利代表着不同的主题,专利主题内部相似度高。具体包括:专利预警、专利主题战略坐标分析、专利主题生命周期分析。
步骤4.1专利预警:用户设定参数,具体有检索式、待预警的文件、接收预警的联系方式、预警阈值。具体过程,如图4所示。这里,待预警的文件:是企业的研发或者产品技术特征说明书;被检专利即通过检索式在对知识产权数据库和产业领域知识库中检索到的已公开专利和文献。
通过用户输入检索式,经过上述三步,得到已经训练好了分类器。将待预警的文件进行同样的处理,形成专利特征向量,输入到分类器中,得到其分类,以及同属一类的其他专利文献。
传统的专利相似度比较方法是比较特征向量的欧氏距离,欧氏距离方法体现的是绝对值差异。这里我们同样选取余弦相似度来度量专利向量之间的相似度,与欧氏距离相比,余弦相似度关注的是向量的方向差异,对绝对数值不敏感,更适用于专利文本向量。
根据余弦相似度的度量,得出待预警的文件与该类别内其他专利的相似度,与用户设定的阈值进行比较,大于阈值则自动将相似专利文献列表发送给用户,并附上相似度大小度量值。
步骤4.2专利主题战略坐标分析:用户输入检索式,得到专题数据库,通过SOM-GMM聚类得到不同主题的专利文献。对不同主题的专利进行战略坐标分析,将得到的技术战略坐标图发送给用户。具体过程,如图6所示。
专利技术战略坐标使用二维象限描述专利主题内部关系与不同专利主题之间的关系。战略坐标的横轴表示向心力,纵轴表示密度,划分为四个象限。如图5所示。对于某一类专利文件,向心度表示该类专利与其他类别专利的链接强度,表示与其他类别的联系是否紧密,计算方法可以通过计算其特征词与其他类的特征词链接强度求得。密度表示该类别专利的主题内部联系是否紧密,计算方法可以通过计算每一对特征词在同类不同文献中出现的次数的平均值求得。
这里,若该类专利位于第一象限,密度高向心度高,说明研究主题趋向成熟,与其他类别联系紧密;若该类专利位于第二象限,密度高密度低,说明研究主题已经形成一定规模,但与其他专利类别联系不密切;若该类专利位于第三象限,密度低向心度低,说明研究内部结构松散,位于研究的边缘领域;若该类专利位于第四象限,密度低向心度高,说明与其他类别联系紧密,但是该领域自身结构不紧密。综上所述,位于第一象限的专利主题即为当前技术热点;位于第四象限的专利主题具有发展潜力,即技术空白点,企业可以针对这一领域进行技术研发工作,以在技术竞争中保持优势。
步骤4.3专利主题技术生命周期分析:用户输入检索式,得到专题数据库,通过SOM-GMM聚类得到不同主题的专利文献。对不同主题的专利进行技术生命周期分析,将得到的指标曲线图与技术成熟度数据发送给用户。具体过程,如图7所示。
采用专利考查来度量不同专利主题内的技术正处于哪一生命周期,分为生长期、成熟期、衰老期。通过对专利进行统计分析,可以找出其中的内在性质,其基本原理是技术在进化过程的不同阶段具有不同的属性。主要考察四项指标,专利等级、专利数量、性能和获利能力这四个指标。
对某一主题内的专利进行分析,统计专利等级和数量,绘制其随时间变化的曲线;调研主题专利技术所支持的产品的各种性能和经济指标,选择合适的性能指标作为技术的主参数,选择合适的经济指标表示技术的获利能力,可以获得性能曲线和获利能力曲线。把得到的四条曲线分别与标准参考曲线相比较,可以判断所研究的主题专利中的技术在曲线上的位置,表示专利主题的技术成熟度,即所在生命周期。
附图说明
为了更清楚地说明本发明中的技术方案,下面附图进行简单介绍:
图1是本发明中基于知识发现的技术竞争及专利预警分析方法流程图;
图2是本发明中专利文本预处理示意图;
图3是本发明中SOM-GMM两阶段聚类示意图;
图4是本发明中专利预警分析流程图;
图5是本发明中专利主题战略坐标示意图;
图6是本发明中专利主题战略坐标分析流程图;
图7是本发明中专利主题技术生命周期分析流程图。
具体实施方式
为了说明本发明所述的技术方案,下面通过具体的实施例来进行说明。
本发明提供了三种专利分析方式,包括专利预警分析、专利主题战略坐标分析和专利主题技术生命周期分析,分为三个实施例进行介绍。
实施例一
图4是本发明专利预警的方法流程图。用户需要输入检索式、待预警文件、预警阈值。具体包括以下步骤(图1):
步骤1数据提取阶段,根据用户输入的检索式,在知识产权数据库和领域知识库中进行抽取分析,得到专利专题数据库。
步骤2数据预处理阶段,其步骤包括:
提取专利的标题和摘要,再进行中文分词、词性标注、合并同义词、去停用词以及词频统计。
步骤3数据挖掘阶段,其步骤包括:
步骤3.1对专利向量文本进行SOM自组织学习训练,得到输出结点向量集Y。在这里,我们使用SOM将高维的专利文本数据映射到二维平面空间。
步骤3.2用GMM混合高斯模型方法对X进行直接聚类,将其划分为K类。这里,我们选用余弦相似度作为聚类距离,在文本向量的聚类中余弦距离比欧氏距离有更好的表现。
步骤4结果解释分析阶段,对聚类之后的专利主题进行分析,每一类专利代表着不同的主题,专利主题内部相似度高。待预警文件进行同样的处理,形成专利特征向量,输入到分类器中,得到其分类,以及同属一类的其他专利文献。根据余弦相似度的度量,得出待预警文件与该类别内专利的相似度,与用户设定的阈值进行比较,大于阈值则自动将相似专利文献列表发送给用户,并附上相似度大小度量值。
实施例二
图6是本发明专利战略坐标分析的流程图。用户需要输入检索式。具体包括以下步骤:
步骤1、2、3,同实施例一。
步骤4结果解释分析阶段:对聚类之后得到的不同主题专利进行战略坐标分析,并向用户发送技术战略坐标图。技术战略坐标图中,向心度表示该类专利与其他类别专利的链接强度,计算方法可以通过计算其特征词与其他类的特征词链接强度求得。密度表示该类别专利的主题内部联系是否紧密,计算方法可以通过计算每一对特征词在同类不同文献中出现的次数的平均值求得。综上所述,位于第一象限的专利主题即为当前技术热点;位于第四象限的专利主题具有发展潜力,即技术空白点,企业可以针对这一领域进行技术研发工作,以在技术竞争中保持优势。
实施例三
图7是本发明专利战略坐标分析的流程图。用户需要输入检索式。具体包括以下步骤:
步骤1、2、3,同实施例一。
步骤4结果解释分析阶段,对聚类之后的专利主题进行分析,每一类专利代表着不同的主题,专利主题内部相似度高。对不同主题的专利进行技术生命周期分析,将得到的指标曲线图与技术成熟度数据发送给用户。
对某一主题内的专利进行分析,统计专利等级和数量,绘制其随时间变化的曲线;调研主题专利技术所支持的产品的各种性能和经济指标,选择合适的性能指标作为技术的主参数,选择合适的经济指标表示技术的获利能力,可以获得性能曲线和获利能力曲线。把得到的四条曲线分别与标准参考曲线相比较,可以判断所研究的主题专利中的技术在S曲线上的位置,表示专利主题的技术成熟度,即所在生命周期。
Claims (1)
1.一种基于知识发现的技术竞争及专利预警分析方法,其特征在于,具体步骤包括:
步骤1数据提取阶段,建立专题数据库,对知识产权数据库和产业领域知识进行抽取分析,得到专利专题数据库。
步骤2数据预处理阶段,其步骤包括:
采用向量空间模型(VSM),基本思想是将特征词从专利文件中抽取出来,不考虑专利文件结构和词序语义。首先提取专利的标题和摘要,再进行中文分词、词性标注、合并同义词、去停用词。专利文件由特征词组成的一个特征向量表示,记作Vi=(di1,di2,...,dim),其中di1表示第一个特征词在专利文件i中的权重。对于n个专利文件,形成一个m×n专利特征矩阵D,D=[dij]m×n。由于专利文本和特征词数量大,而在某个确定的专利文件中出现的特征词有限,所以这里dij的计算采用TF-IDF方法,其中fij表示第i个特征词出现在第j个专利文件中的频度,pi表示含有第i个特征词的专利文件数量。
步骤3数据挖掘阶段:对形成的专利特征矩阵,应用SOM神经网络方法和GMM混合高斯模型相结合的方法进行聚类,得到聚类结果,聚类得到的专利集合对应着不同主题的专利文件。
步骤3.1对专利向量文本进行SOM自组织学习训练,得到输出结点向量集Y。SOM神经网络,将高维向量映射为低维向量时保持向量内部拓扑结构不变的特性,将高维的专利文本数据映射到二维平面空间。
SOM神经网络模型由输入层和输出层组成,输出层即竞争层。输入层神经元个数对应专利文件的维度即特征词数量m,输出层神经元个数这里定义为a,这里将竞争层神经元排列成二维阵列形式。输入与输出层为全连接,输出层之间为侧向交互连接以相互作用。SOM模型实现步骤为五步:初始化,竞争层神经元相互竞争,竞争层神经元相互合作,神经元权值自适应,迭代直至收敛。
(1)初始化:输入与输出层为全连接,需要对每个突触赋初始权值,通常选择[0,1]内的小随机数,以实现无监督映射,得到权值矩阵W=[wij]m×a。
(2)竞争层神经元相互竞争:对于输入向量Vi,竞争层神经元根据判别函数产生获胜神经元。这里设置判别函数为余弦相似度度量函数,对于竞争层神经元b,相似度Sb为:
计算得S=[s1,...,sa],选取S中最小值,其对应的即为获胜神经元。
(3)竞争层神经元相互合作:获胜神经元邻近的神经元容易被激活,所以需要定义激活的领域范围,μ表示被激活的神经元,i表示获胜神经元,σ表示邻域宽度(随时间增加而减小),τ1是时间常数,t是离散时间变量(0,1,2,...)。邻域公式定义如下:
(4)神经元权值自适应:η(t)表示学习率参数(随时间t增加而减小),η0为初始值,τ2是时间常数。权值向量W的更新公式定义如下:
wj(t+1)=wj(t)+η(t)δμ,i(x(t)-wj(t)),
(5)迭代直至收敛:不断选取新的专利特征向量重复以上步骤,迭代训练直至达到指定迭代次数或者输出的二维映射趋于稳定。最后得到输出层为保持高维内部拓扑结构的二维平面上的n个点X(xi,yi),具有低维可视化性能。
步骤3.2用GMM混合高斯模型对X进行直接聚类,将其划分为K类。GMM模型实现步骤为四步:初始化GMM模型,E步求数据点由各个高斯成分生成的概率,M步更新GMM模型参数,迭代直至收敛。
(1)初始化GMM模型:有n个样本点,划分为K类。则GMM模型由K个高斯分布组成,每一个高斯分布称为一个高斯成分,由他们线性组合成GMM混合模型,这里μk为均值向量初始化零,∑k为协方差向量初始化为一个任意大的正数乘以单位矩阵,πk初始化为1/n,概率密度函数和最大似然函数公式如下:
(2)E步已知μk,∑k,πk,求样本点由各个高斯成分生成的概率:
(3)M步已知γ(i,k),更新GMM模型参数:
(4)迭代(2)(3)步骤,至最大似然函数收敛或者达到最大收敛次数。GMM最终得到每个样本点被分到所有类别的概率,选取概率最大的作为其分类k。
步骤4结果解释分析阶段,对聚类之后的专利进行分析,每一类专利代表着不同的主题,专利主题内部相似度高。具体包括:专利预警、专利主题战略坐标分析、专利主题生命周期分析。专利预警:用户设定参数,具体有检索式、待预警的文件、接收预警的联系方式、预警阈值。待预警的文件:是企业的研发或者产品技术特征说明书;被检专利即通过检索式在对知识产权数据库和产业领域知识库中检索到的已公开专利和文献。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710064192.6A CN106897392A (zh) | 2017-02-04 | 2017-02-04 | 一种基于知识发现的技术竞争及专利预警分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710064192.6A CN106897392A (zh) | 2017-02-04 | 2017-02-04 | 一种基于知识发现的技术竞争及专利预警分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106897392A true CN106897392A (zh) | 2017-06-27 |
Family
ID=59198766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710064192.6A Pending CN106897392A (zh) | 2017-02-04 | 2017-02-04 | 一种基于知识发现的技术竞争及专利预警分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106897392A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844478A (zh) * | 2017-11-20 | 2018-03-27 | 山东浪潮云服务信息科技有限公司 | 一种专利文件的处理方法及装置 |
CN108763445A (zh) * | 2018-05-25 | 2018-11-06 | 厦门智融合科技有限公司 | 专利知识库的构建方法、装置、计算机设备和存储介质 |
CN109684477A (zh) * | 2018-12-11 | 2019-04-26 | 北京极智感科技有限公司 | 一种专利文本特征提取方法及系统 |
CN109902168A (zh) * | 2019-01-25 | 2019-06-18 | 北京创新者信息技术有限公司 | 一种专利评价方法和系统 |
CN110570012A (zh) * | 2019-08-05 | 2019-12-13 | 华中科技大学 | 一种基于Storm的电厂生产设备故障预警方法及系统 |
CN110580261A (zh) * | 2019-09-09 | 2019-12-17 | 中国科学技术大学 | 针对高科技公司的深度技术追踪方法 |
CN112069238A (zh) * | 2020-08-12 | 2020-12-11 | 江苏省专利信息服务中心(江苏省知识产权维权援助中心) | 知识产权数据采集和治理方法与系统 |
CN112365133A (zh) * | 2020-10-26 | 2021-02-12 | 江苏省专利信息服务中心(江苏省知识产权维权援助中心) | 一种知识产权预警方法及系统 |
CN112673366A (zh) * | 2018-10-01 | 2021-04-16 | Eta瑞士钟表制造股份有限公司 | 用于数据库的通信方法 |
CN113722472A (zh) * | 2021-09-16 | 2021-11-30 | 北京市科学技术情报研究所 | 一种技术文献信息提取方法、系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6571228B1 (en) * | 2000-08-09 | 2003-05-27 | Po-Tong Wang | Hybrid neural networks for color identification |
CN102855281A (zh) * | 2012-07-31 | 2013-01-02 | 李建波 | 一种专利文献自动更新方法及应用该方法的专利发布和预警系统 |
CN104881401A (zh) * | 2015-05-27 | 2015-09-02 | 大连理工大学 | 一种专利文献聚类方法 |
-
2017
- 2017-02-04 CN CN201710064192.6A patent/CN106897392A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6571228B1 (en) * | 2000-08-09 | 2003-05-27 | Po-Tong Wang | Hybrid neural networks for color identification |
CN102855281A (zh) * | 2012-07-31 | 2013-01-02 | 李建波 | 一种专利文献自动更新方法及应用该方法的专利发布和预警系统 |
CN104881401A (zh) * | 2015-05-27 | 2015-09-02 | 大连理工大学 | 一种专利文献聚类方法 |
Non-Patent Citations (5)
Title |
---|
PLUSKID: "漫谈Clustering (3): Gaussian Mixture Model", 《HTTP://BLOG.PLUSKID.ORG/?P=39》 * |
刘玉琴等: "基于文本挖掘技术的产品技术成熟度预测", 《计算机集成制造系统》 * |
曲军伟等: "自组织映射在专利文本聚类中的应用研究", 《数字图书馆论坛》 * |
秦长江: "《知识图谱的构建与理论实践》", 28 February 2011, 北京:知识产权出版社 * |
隗玲等: "技术领域主题发现研究——以基因工程疫苗领域为例", 《数字图书馆论坛》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844478A (zh) * | 2017-11-20 | 2018-03-27 | 山东浪潮云服务信息科技有限公司 | 一种专利文件的处理方法及装置 |
CN107844478B (zh) * | 2017-11-20 | 2020-12-04 | 浪潮卓数大数据产业发展有限公司 | 一种专利文件的处理方法及装置 |
CN108763445A (zh) * | 2018-05-25 | 2018-11-06 | 厦门智融合科技有限公司 | 专利知识库的构建方法、装置、计算机设备和存储介质 |
US11714787B2 (en) | 2018-05-25 | 2023-08-01 | ZFusion Technology Co., Ltd. Xiamen | Construction method, device, computing device, and storage medium for constructing patent knowledge database |
WO2019223793A1 (zh) * | 2018-05-25 | 2019-11-28 | 厦门智融合科技有限公司 | 专利知识库的构建方法、装置、计算机设备和存储介质 |
CN112673366A (zh) * | 2018-10-01 | 2021-04-16 | Eta瑞士钟表制造股份有限公司 | 用于数据库的通信方法 |
US11556594B2 (en) | 2018-10-01 | 2023-01-17 | Eta Sa Manufacture Horlogere Suisse | Communication method for database |
CN109684477A (zh) * | 2018-12-11 | 2019-04-26 | 北京极智感科技有限公司 | 一种专利文本特征提取方法及系统 |
CN109902168B (zh) * | 2019-01-25 | 2022-02-11 | 北京创新者信息技术有限公司 | 一种专利评价方法和系统 |
CN109902168A (zh) * | 2019-01-25 | 2019-06-18 | 北京创新者信息技术有限公司 | 一种专利评价方法和系统 |
CN110570012B (zh) * | 2019-08-05 | 2022-05-20 | 华中科技大学 | 一种基于Storm的电厂生产设备故障预警方法及系统 |
CN110570012A (zh) * | 2019-08-05 | 2019-12-13 | 华中科技大学 | 一种基于Storm的电厂生产设备故障预警方法及系统 |
CN110580261A (zh) * | 2019-09-09 | 2019-12-17 | 中国科学技术大学 | 针对高科技公司的深度技术追踪方法 |
CN110580261B (zh) * | 2019-09-09 | 2022-07-15 | 中国科学技术大学 | 针对高科技公司的深度技术追踪方法 |
CN112069238A (zh) * | 2020-08-12 | 2020-12-11 | 江苏省专利信息服务中心(江苏省知识产权维权援助中心) | 知识产权数据采集和治理方法与系统 |
CN112365133A (zh) * | 2020-10-26 | 2021-02-12 | 江苏省专利信息服务中心(江苏省知识产权维权援助中心) | 一种知识产权预警方法及系统 |
CN113722472A (zh) * | 2021-09-16 | 2021-11-30 | 北京市科学技术情报研究所 | 一种技术文献信息提取方法、系统及存储介质 |
CN113722472B (zh) * | 2021-09-16 | 2022-09-09 | 北京市科学技术研究院 | 一种技术文献信息提取方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897392A (zh) | 一种基于知识发现的技术竞争及专利预警分析方法 | |
Xin et al. | Complex network classification with convolutional neural network | |
Vilnis et al. | Word representations via gaussian embedding | |
Gao et al. | Multiscale analysis of complex time series: integration of chaos and random fractal theory, and beyond | |
Jin et al. | An improved ID3 decision tree algorithm | |
Bassingthwaighte et al. | Fractal physiology | |
CN108108849A (zh) | 一种基于弱监督多模态深度学习的微博情感预测方法 | |
CN111238807A (zh) | 一种行星齿轮箱故障诊断方法 | |
Paisley et al. | Hidden Markov models with stick-breaking priors | |
CN111242206A (zh) | 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法 | |
CN110543564A (zh) | 基于主题模型的领域标签获取方法 | |
Kim et al. | The nonparametric metadata dependent relational model | |
Marsman et al. | Objective Bayesian edge screening and structure selection for Ising networks | |
Li et al. | Educational data mining for students' performance based on fuzzy C‐means clustering | |
Gupta et al. | Will I get in? modeling the graduate admission process for American universities | |
CN109871434A (zh) | 一种基于动态增量式的概率图模型的舆情演化跟踪方法 | |
Liong et al. | Automatic traditional Chinese painting classification: A benchmarking analysis | |
CN115827968A (zh) | 一种基于知识图谱推荐的个性化知识追踪方法 | |
Liebmann et al. | Hierarchical correlation clustering in multiple 2d scalar fields | |
CN108920451A (zh) | 基于动态阈值和多分类器的文本情感分析方法 | |
Broadwell et al. | The tell-tale hat: Surfacing the uncertainty in folklore classification | |
CN108764296A (zh) | 基于K-means与多任务关联学习结合的多分类方法 | |
Smith et al. | Phylogenetic sampling affects evolutionary patterns of morphological disparity | |
Kadiyala et al. | Analyzing the student’s academic performance by using clustering methods in data mining | |
CN106598916A (zh) | 一种基于均匀抽样的二阶差分聚类数确定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170627 |
|
RJ01 | Rejection of invention patent application after publication |