CN110580261A - 针对高科技公司的深度技术追踪方法 - Google Patents
针对高科技公司的深度技术追踪方法 Download PDFInfo
- Publication number
- CN110580261A CN110580261A CN201910864843.9A CN201910864843A CN110580261A CN 110580261 A CN110580261 A CN 110580261A CN 201910864843 A CN201910864843 A CN 201910864843A CN 110580261 A CN110580261 A CN 110580261A
- Authority
- CN
- China
- Prior art keywords
- year
- company
- technology
- companies
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 165
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000002860 competitive effect Effects 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 47
- 239000000126 substance Substances 0.000 claims description 13
- 238000012827 research and development Methods 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000002195 synergetic effect Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000003334 potential effect Effects 0.000 claims 1
- 238000011161 development Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008846 dynamic interplay Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Administration (AREA)
- Fuzzy Systems (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种针对高科技公司的深度技术追踪方法,包括:根据专利数据库,获取各公司在每一年申请的专利集合,以及各项技术在每一年申请的专利集合;利用基于专利特征的评价指数,结合各公司在每一年申请的专利集合与各项技术在每一年申请的专利集合,来衡量公司之间的竞争关系,并抽取基于竞争关系的内部特征;利用每一年所申请专利及相应的技术类别,构建专利技术二部图,从而获得技术之间协同关系,并抽取基于协同关系的外部特征;利用基于竞争关系的内部特征与基于协同关系的外部特征,预测未来一年,各个公司的技术分布。该方法能够准确预测公司未来一年技术分布。
Description
技术领域
本发明涉及机器学习和基于专利分析的技术管理领域,尤其涉及一种针对高科技公司的深度技术追踪方法。
背景技术
技术革新是高科技公司提高自身生产力和核心竞争力的重要手段,而实现该目标则需要在技术研发方面耗费大量的时间、人力、物力和财力。对于公司而言,可用的研发资金往往是有限的,因此有必要进行技术需求估计,从而合理分配研发资源,提高公司自主创新能力,增强公司核心技术竞争力。
专利数据作为技术信息的载体,是目前最大的技术信息源之一。因此,目前关于技术管理的研究工作或专利往往基于专利数据,这方面的研究工作主要分为:
1)基于统计分析的技术前景预测。
目前,基于统计分析的技术前景预测主要着重于分析专利特征与技术前景之间的关系,符合特定特征的技术类别即为高前景的技术类别。基于专利特征,领域专家定义了很多专业的技术指标,可以用来定性地衡量给定技术的发展前景。
2)基于专利挖掘的技术前景预测。
目前,基于专利挖掘的技术前景预测是将有监督的数据挖掘方法应用于技术前景预测。首先选定一定的预测目标,该预测目标往往是与技术前景相关的数据标签,然后将预测目标归类为分类或者回归问题,最后使用数据挖掘方法对预测目标进行有监督地学习或训练,从而得到预测模型。
针对高科技公司的深度技术追踪方案属于有监督的技术前景预测,旨在利用公开的专利数据,挖掘高科技公司潜在的研发偏好,对高科技公司未来可能发展的技术类别进行个性化的预测或者推荐,从而给高科技公司更多的时间来制定未来研发策略。
但是,目前的方案,无法准确预测未来可能发展的技术类别,从而无法有效实现技术追踪。
发明内容
本发明的目的是提供一种针对高科技公司的深度技术追踪方法,能够准确预测公司未来一年技术分布。
本发明的目的是通过以下技术方案实现的:
一种针对高科技公司的深度技术追踪方法,包括:
根据专利数据库,获取各公司在每一年申请的专利集合,以及各项技术在每一年申请的专利集合;
利用基于专利特征的评价指数,结合各公司在每一年申请的专利集合与各项技术在每一年申请的专利集合,来衡量公司之间的竞争关系,并抽取基于竞争关系的内部特征;
利用每一年所申请专利及相应的技术类别,构建专利技术二部图,从而获得技术之间协同关系,并抽取基于协同关系的外部特征;
利用基于竞争关系的内部特征与基于协同关系的外部特征,预测未来一年,各个公司的技术分布。
由上述本发明提供的技术方案可以看出,根据专利数据库中数据,建模公司之间的竞争关系和技术之间的协同关系,然后基于上述两种关系,挖掘动态变化的公司研发趋势和技术发展趋势,从而对公司的对于某项技术的研发可能性进行动态预测,相比于现有技术而言,极大地提高了预测结果的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种针对高科技公司的深度技术追踪方法的流程图;
图2为本发明实施例提供的一种深度技术追踪模型的框架图;
图3为本发明实施例提供的联合专利分类体系示意图;
图4为本发明实施例提供的一种深度技术追踪的神经网络结构图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种针对高科技公司的深度技术追踪方法,该方法通过分析专利数据库中高科技公司在各项技术的专利发明历史,将公司之间的竞争关系、技术之间的协同关系、公司和技术之间的动态交互关系建模到深度技术追踪模型中,目的是估测其未来时间内研发某项技术的可能性高低。相比于现有技术而言,极大的提高了预测结果的准确性。如图1~图2所示,分别为该方案对应的流程图,以及模型框架图。
如图1所述,该方法主要包括如下步骤:
步骤11、根据专利数据库,获取各公司在每一年申请的专利集合,以及各项技术在每一年申请的专利集合。
本发明实施例中,从专利数据库获取专利数据、专利所属公司、以及专利所属的技术类别;所述专利数据库可通过互联网获取。其中,专利数据包括专利的文本信息、时间信息、分类信息等;专利所属公司即为专利权人,专利类别即为技术类别(例如,联合专利分类(CPC)体系)。如图3所示,示例性地给出联合专利分类体系。
假设M个公司和N项技术在T年中申请(或者授权)了Q个专利,公司集合表示为:SU={i|i=1,2,…,M};技术集合表示为:SV={j|j=1,2,…,N};年份集合表示为:SY={t|t=1,2,…,T};专利集合表示为:SP={k|k=1,2,…,Q}。
则公司i的专利申请记录表示为其中,表示公司i在第t年申请的专利集合;类似的,技术j的专利申请记录表示为其中,表示技术j在第t年申请的专利集合。
表1列出了上述内容所涉及的各个基本概念的符号表示。
表1基本概念的符号表示
本发明实施例中,将引入一个重要的概念——技术分布。公司i在第t年的技术分布可以表示为:其中,这里表示第t年公司i在技术j上申请的专利数量。显然,如果第t年公司i在一项技术j上申请的专利数量越多,技术分布就会越大,表明公司i在该项技术的投入的关注更多。因此,追踪一个公司的技术分布是非常有意义的,分析现有的技术分布可以分析出当前公司的技术优势和劣势,挖掘未来的技术分布则能够挖掘公司潜在的研发重点。
本发明实施例所提供追踪方案的目标为:通过挖掘T-1年前的各个公司和各项技术的历史专利申请记录,即和来预测未来一年,即第T年,公司i的技术分布,表示为:其中,为预测到的第T年公司i在技术j上申请的专利数量。
本发明实施例中,从模型训练的角度来考虑,如果要训练一个模型,就必须有训练集和测试集,将第T年的数据和作为测试集中的数据,用T-1年前的数据,预测T年的技术,从而达到训练的目的。因此,这第T年的数据也是存在的。
步骤12、利用基于专利特征的评价指数,结合各公司在每一年申请的专利集合与各项技术在每一年申请的专利集合,来衡量公司之间的竞争关系,并抽取基于竞争关系的内部特征。
本步骤优选实施方式如下:
1、利用基于专利特征的评价指数衡量公司竞争关系。
公司之间的竞争行为与技术策略之间有着密不可分的关系,我们希望将这种潜在的竞争关系建模到公司技术研发预测中。首先需要衡量公司之间的竞争关系,在这方面,常常可以使用专业的专利指数。主要如下:
1)专利活动(Patent Activity):指在第t年公司i在j技术领域内的专利申请或者授权行为,该评价指数的增长或者下降意味着公司i在技术j上的研发活动的增长或者下降,,因此也是未来技术和业务的增长和下降;计算公式为:
其中,表示公司i在第t年申请的专利集合;表示技术j在第t年申请的专利集合。
2)技术份额(Technology Share):基于专利活动指数,衡量了第t年一个公司在某项技术上的竞争水平,计算公式为:
3)研发重点(R&D Emphasis):体现了一个公司在特定技术领域的关注度,侧重于公司之间的不同点,研发重点实际上也是上文所定义的技术分布,计算公式为:
其中,表示第t年公司i在技术j上申请的专利数量。
2、建立公司竞争关系识别模块,并抽取基于竞争关系的内部特征。
由于专利指数越相似的公司往往越倾向于成为竞争对手,因此,基于欧几里得距离,定义了一个竞争评分函数来比较公司之间的相似度,具体的,第t年公司i和公司i'的竞争程度为:
上式中,q=1~3,依次对应于3个评价指数;对应于第t年公司i'的第q个评价指数。
根据上述竞争度指数,对于第t年,给定一个公司i,计算与所有其他公司之间的竞争程度;根据计算结果,从大到小进行排序,取排名前m的公司作为潜在的竞争对手集合抽取出公司i和m个竞争对手的专利申请记录,分别表示为和 表示竞争对手集合在第t年申请的专利集合。
之后,可以根据和形成公司i的基于竞争关系的内部特征。具体操作如下:对于任意一个专利首先抽取该专利k1的标题作为它的描述性信息,k1则表示成一个单词序列通过语言模型(例如,Word2Vec),每一个单词都由一个预训练的词向量进行表示,l=1,2,...,d1,该词向量el的维度为d0,每一个单词序列的长度为d1;对于一个公司i的第t年,从公司i的专利集合中随机抽取d2个专利作为该公司的内部特征,该公司每一年的内部特征都写成一个张量加上已经识别出来的m个竞争对手,同样在专利集合中随机抽取d2个专利,总共得到m+1个公司的内部特征的张量;最终得到公司i基于竞争关系的内部特征,表示为
步骤13、利用每一年所申请专利及相应的技术类别,构建专利技术二部图,从而获得技术之间协同关系,并抽取基于协同关系的外部特征。
本步骤优选实施方式如下:
1、利用专利所属技术类别,构建专利技术二部图。
技术之间往往是紧密联系的,一项技术的火热可能引发相关技术的崛起,称这些技术之间存在潜在的协同关系。事实上,几乎所有的专利都属于多标签分类,各个分类代表不同的技术,也就是说一个专利往往是与多项技术联系在一起的,同样的,一项技术下面也有很多不同的专利。因此,可以通过一个二部图来建立专利和技术之间的联系,该二部图的节点包括所有的专利和所有的技术,边代表专利与技术之间的所属关系。
2、建立技术潜在协同关系识别模块,并抽取基于协同关系的外部特征。
给定一个年份t,能够获得第t年所有的专利和所有的技术类别,从而构建专利技术二部图;然后,根据构建专利技术二部图,建立一个技术之间的带权网络,其中,带权网络的每一个节点均为一项技术,边为技术之间的协同关系,边权的计算方法为:
其中,ctrt(j,j')是指技术j和j'之间的协同程度,代表技术j和技术j'在第t年共享的专利数量,代表技术j和技术j'在第t年总共申请的专利数量;ctrt(j1,j2)越大,说明有越多共同属于技术j和技术j'的专利,技术j和技术j'的协同性越高。
根据上述协同指数,对于第t年的技术j,获取与其他所有技术之间的协同程度,并按照从大大小的顺序排列,提取排名前n的协同技术集合抽取技术j和排名前n的协同技术的专利申请记录,分别表示为和 表示技术j的协同技术集合在第t年申请的专利集合。
之后,可以根据和形成技术j的基于协同关系的外部特征。具体操作如下:对于任意一个专利首先抽取该专利k2的标题作为它的描述性信息,专利k2则表示成一个单词序列通过语言模型,每一个单词都由一个预训练的词向量进行表示,l=1,2,...,d1,该词向量el的维度为d0,每一个单词序列的长度为d1;对于一项技术j的第t年,从技术j的专利集合中随机抽取d2个专利作为该技术j的外部特征,该技术j每一年的外部特征都写成一个张量加上已经识别出来的前n项协同技术,同样在每一项协同技术的专利集合中随机抽取d2个专利,总共得到n+1个技术的内部特征的张量;最终得到技术j基于协同关系的外部特征,表示为
步骤14、利用基于竞争关系的内部特征与基于协同关系的外部特征,预测未来一年,各个公司的技术分布。
优选的,在预测之前是通过使用卷积神经网络对基于竞争关系的内部特征与基于协同关系的外部特征进行向量表征转换为低维的语义表征,其优选实施方式如下:
如图4右侧部分所示,使用卷积神经网络对基于竞争关系的内部特征与基于协同关系的外部特征进行向量表征;
对于一个专利的文本单词序列采用一个大小为3×d0的卷积核进行卷积:
其中,el:l+h-1是词嵌入向量el,…,el+h-1,hd0是h和d0的乘积,h可以理解为一个自定义的滑动窗口大小,表示每次对h个词进行卷积;通过和使得和el保持相同的维度,和是基本的卷积操作中的两个参数矩阵,d3是输出维度。那么,文本单词序列就可以通过卷积操作输出得到文本特征
然后,使用在h维方向用大小为p-max的卷积核进行池化(即,在卷积操作以后输出的向量中得到的连续p个数中取最大值),将文本特征eh转换为一个新的隐层序列:
其中,ehp表示文本特征eh经过池化后得到的向量,ehp的维度为d1+h-1。
本领域技术人员可以理解,p-max(p-最大池化),是指p个数中取最大的一个数。例如p=3时,我们就是向量中连续的3个数中取最大的一个数。
类似的,可以采用多个上述卷积池化过程,直到一个专利的文本表征向量变成d是一个专利的输出维度;每一年中有d2个专利的公司i表示为σ是均值函数;最后,对于公司i,基于竞争关系的内部特征的张量转化为
考虑到竞争公司之间有各种各样的交互,对于公司i来说,不同竞争对手对其的影响不同,通过竞争公司之间的竞争程度来量化潜在影响;第t年公司i基于竞争关系的内部特征的向量表征为:
其中,pcrt(i,i')为公司i和公司i'之间的竞争程度,分别表示公司i和公司i'第t年的专利文本表征;表示与公司i在第t年竞争程度排名前m个公司的集合;
基于同样的原理,基于协同关系的外部特征也可以同类相似的卷积神经网络进行表征。对于技术j,基于协同关系的内部特征的张量可以转化为
考虑到协同技术之间有各种各样的交互,对于技术j来说,不同协同技术对其的影响不同,通过协同技术之间的协同程度来量化潜在影响;第t年技术j基于协同关系的外部特征的向量表征为:
其中,ctrt(j,j')为技术j和技术j'之间的协同程度;分别表示技术j和技术j'第t年的专利文本表征;表示与技术j在第t年协同程度排名前n个技术的集合。
通过卷积神经网络输出的向量表征,可以输入至深度技术预测模型,预测未来一年各个公司的技术分布,优选实施方式如下:
除了基于竞争关系的内部特征和基于协同关系的外部特征以外,公司和技术的动态发展趋势对于未来公司的技术分布情况也非常重要。因此,采用了循环神经网络(Recurrent NeuralNetwork,RNN)的思想,将公司的技术动态变化建模为一个时间序列预测问题。具体的,使用了门机制的循环神经网络(GatedRecurrentNeuralNetwork,GRU)来学习公司每一年的隐状态(隐向量),相比于传统的RNN,GRU在长期依赖上表现的更好,而且可以有效地解决梯度消失和梯度爆炸问题。
如图4左侧部分所示,给定公司i,第1年~第T-1年基于竞争关系的内部特征的向量表征为GRU将会从第t=1年到t=T-1年逐个更新单元序列(每一元素代表一个元层单元)和公司i的隐向量初始化后,在第y年,公司隐向量从和内部特征的向量表征更新到
其中,和分别是更新门和重置门,σ是一个非线性激活函数(比如,sigmoid);W*表示权值矩阵,需要进行训练得知,*=xz,uz,xr,ur,xu。
通过以上过程,在不同年份,将相应的内部特征的向量表征输入到GRU中,能够自动学习公司i的隐向量则所有M个公司在第t年的隐向量记为
基于同样的原理,为了挖掘技术的动态变化,使用类似的GRU结构,只不过输入的是每年的基于协同关系的外部特征。即,对于技术来说,将基于协同关系的外部特征的向量表征输入到GRU中,能够自动学习公司i的隐向量则所有N项技术司在第t年的隐向量记为
得到公司和技术的动态表征之后,我们可以获得从第2到第T的隐向量,分别表示为u和v:u=[u2,u3,…,uT],v=[v2,v3,…,vT];也即,利用第1年的相关数据预测得到公司第2年的对应的隐向量,用第T-1年的专利预测得到第T年的表征。
对第T年的技术分布进行预测:其中,ρ是一个预测函数或者是神经网络。这里为了简单,可以使用σ是一个sigmoid函数,这样更容易训练并且可以有效防止过拟合。
预测结果则预测到的公司i在第T年的技术分布表示为:
注意到实际上一个公司的技术分布往往是非常稀疏的,因为公司往往具有少数的业务和技术,对于训练来说比较困难。为了解决这样的问题,采用贝叶斯个性化排序的方式进行成对训练:
其中,Θ包括所有的模型参数,λ是正则化因子,Ds表示整个训练过程,包括多个(i,j+,j-)三元组,意味着公司i在技术j+投入的关注程度多余技术j-;为了最小化上述目标函数,采用Adadelta优化器来后向更新模型参数,上述过程能够通过Tensorflow自动求解。
本发明实施例上述方案,根据专利数据库中公司的专利申请记录和专利所属技术类别,建模公司之间的竞争关系和技术之间的协同关系,然后将上述两种关系输入到深度技术追踪方案,挖掘动态变化的公司研发趋势和技术发展趋势,从而对公司的对于某项技术的研发可能性进行动态预测,相比于现有技术而言,极大地提高了预测结果的准确性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (9)
1.一种针对高科技公司的深度技术追踪方法,其特征在于,包括:
根据专利数据库,获取各公司在每一年申请的专利集合,以及各项技术在每一年申请的专利集合;
利用基于专利特征的评价指数,结合各公司在每一年申请的专利集合与各项技术在每一年申请的专利集合,来衡量公司之间的竞争关系,并抽取基于竞争关系的内部特征;
利用每一年所申请专利及相应的技术类别,构建专利技术二部图,从而获得技术之间协同关系,并抽取基于协同关系的外部特征;
利用基于竞争关系的内部特征与基于协同关系的外部特征,预测未来一年,各个公司的技术分布。
2.根据权利要求1所述的一种针对高科技公司的深度技术追踪方法,其特征在于,根据专利数据库,获取各公司在每一年申请的专利集合,以及各项技术在每一年申请的专利集合包括:
从专利数据库获取专利数据、专利所属公司、以及专利所属技术类别;
假设M个公司和N项技术在T年中申请了Q个专利,公司集合表示为:SU={i|i=1,2,…,M};技术集合表示为:SV={j|j=1,2,…,N};年份集合表示为:SY={t|t=1,2,…,T};专利集合表示为:SP={k|k=1,2,…,Q};
则公司i的专利申请记录表示为其中,表示公司i在第t年申请的专利集合;技术j的专利申请记录表示为其中,表示技术j在第t年申请的专利集合。
3.根据权利要求1所述的一种针对高科技公司的深度技术追踪方法,其特征在于,衡量公司之间的竞争关系采用如下评价指数:
专利活动:指在第t年公司i在j技术领域内的专利申请或者授权行为,该评价指数的增长或者下降意味着公司i在技术j上的研发活动的增长或者下降,计算公式为:
其中,表示公司i在第t年申请的专利集合;表示技术j在第t年申请的专利集合;
技术份额:基于专利活动指数,衡量了第t年一个公司在某项技术上的竞争水平,计算公式为:
研发重点:体现了一个公司在特定技术领域的关注度,侧重于公司之间的不同点,研发重点也即公司的技术分布,计算公式为:
其中,表示第t年公司i在技术j上申请的专利数量。
4.根据权利要求1所述的一种针对高科技公司的深度技术追踪方法,其特征在于,所述抽取基于竞争关系的内部特征包括:
基于欧几里得距离,定义了一个竞争评分函数来比较公司之间的相似度,具体的,第t年公司i和公司i'的竞争程度为:
上式中,q=1~3,依次对应于3个评价指数;对应于第t年公司i'的第q个评价指数;
对于第t年,给定一个公司i,计算与所有其他公司之间的竞争程度;根据计算结果,从大到小进行排序,取排名前m的公司作为潜在的竞争对手集合抽取出公司i和m个竞争对手的专利申请记录,分别表示为和 表示竞争对手集合在第t年申请的专利集合;
对于任意一个专利首先抽取该专利k1的标题作为它的描述性信息,k1则表示成一个单词序列通过语言模型,每一个单词都由一个预训练的词向量进行表示,l=1,2,...,d1,该词向量el的维度为d0,每一个单词序列的长度为d1;对于一个公司i的第t年,从公司i的专利集合中随机抽取d2个专利作为该公司的内部特征,该公司每一年的内部特征都写成一个张量加上已经识别出来的m个竞争对手,同样在专利集合中随机抽取d2个专利,总共得到m+1个公司的内部特征的张量;最终得到公司i基于竞争关系的内部特征,表示为
5.根据权利要求1所述的一种针对高科技公司的深度技术追踪方法,其特征在于,利用每一年所申请专利及相应的技术类别,构建专利技术二部图,从而获得技术之间协同关系,并抽取基于协同关系的外部特征包括:
给定一个年份t,能够获得第t年所有的专利和所有的技术类别,从而构建专利技术二部图;
根据构建专利技术二部图,建立一个技术之间的带权网络,其中,带权网络的每一节点均为一项技术,边为技术之间的协同关系,边权的计算方法为:
其中,ctrt(j,j')是指技术j和j'之间的协同程度,代表技术j和技术j'在第t年共享的专利数量,代表技术j和技术j'在第t年总共申请的专利数量;
对于第t年的技术j,获取与其他所有技术之间的协同程度,并按照从大大小的顺序排列,提取排名前n的协同技术集合抽取技术j和排名前n的协同技术的专利申请记录,分别表示为和 表示技术j的协同技术集合在第t年申请的专利集合;
对于任意一个专利首先抽取该专利k2的标题作为它的描述性信息,专利k2则表示成一个单词序列通过语言模型,每一个单词都由一个预训练的词向量进行表示,l=1,2,...,d1,该词向量el的维度为d0,每一个单词序列的长度为d1;对于一项技术j的第t年,从技术j的专利集合中随机抽取d2个专利作为该技术j的外部特征,该技术j每一年的外部特征都写成一个张量加上已经识别出来的前n项协同技术,同样在每一项协同技术的专利集合中随机抽取d2个专利,总共得到n+1个技术的内部特征的张量;最终得到技术j基于协同关系的外部特征,表示为
6.根据权利要求4或5所述的一种针对高科技公司的深度技术追踪方法,其特征在于,该方法还包括:使用卷积神经网络对基于竞争关系的内部特征与基于协同关系的外部特征进行向量表征;
对于一个专利的文本单词序列采用一个大小为3×d0的卷积核进行卷积:
其中,el:l+h-1是词嵌入向量el,…,el+h-1,hd0是h和d0的乘积,h为一个自定义的滑动窗口大小,表示每次对h个词进行卷积;通过和使得和el保持相同的维度,和是卷积操作中的两个参数矩阵,d3是输出维度;最终,文本单词序列通过卷积操作输出得到文本特征
然后,使用在h维方向用大小为p-max的卷积核进行池化,将文本特征eh转换为一个新的隐层序列:
采用多个卷积池化过程,直到一个专利的文本表征向量变成d是一个专利的输出维度;每一年中有d2个专利的公司i表示为 σ是均值函数;最后,对于公司i,基于竞争关系的内部特征的张量转化为
对于公司i来说,不同竞争对手对其的影响不同,通过竞争公司之间的竞争程度来量化潜在影响;第t年公司i基于竞争关系的内部特征的向量表征为:
其中,pcrt(i,i')为公司i和公司i'之间的竞争程度,分别表示公司i和公司i'第t年的专利文本表征;表示与公司i在第t年竞争程度排名前m个公司的集合;
基于同样的原理,对于技术来说,不同协同技术对其的影响不同,通过协同技术之间的协同程度来量化潜在影响;第t年技术j基于协同关系的外部特征的向量表征为:
其中,ctrt(j,j')为技术j和技术j'之间的协同程度;分别表示技术j和技术j'第t年的专利文本表征;表示与技术j在第t年协同程度排名前n个技术的集合。
7.根据权利要求6所述的一种针对高科技公司的深度技术追踪方法,其特征在于,利用基于竞争关系的内部特征与基于协同关系的外部特征,预测未来一年,各个公司的技术分布包括:
使用门机制的循环神经网络GRU来学习公司每一年的隐向量;给定公司i,第1年~第T-1年基于竞争关系的内部特征的向量表征为GRU将会从第t=1年到t=T-1年逐个更新单元序列和公司i的隐向量初始化后,在第y年,公司隐向量从和内部特征的向量表征更新到
其中,和分别是更新门和重置门,σ是一个非线性激活函数;W*表示权值矩阵,需要进行训练得知;
通过以上过程,在不同年份,将相应的内部特征的向量表征输入到GRU中,能够自动学习公司i的隐向量则所有M个公司在第t年的隐向量记为
基于同样的原理,对于技术来说,将基于协同关系的外部特征的向量表征输入到GRU中,能够自动学习公司i的隐向量则所有N项技术司在第t年的隐向量记为
对第T年的技术分布进行预测:其中,ρ是一个预测函数或者是神经网络;u=[u2,u3,…,uT],v=[v2,v3,…,vT],
8.根据权利要求1或7所述的一种针对高科技公司的深度技术追踪方法,其特征在于,预测到的公司i在第T年的技术分布表示为:
其中,为预测到的第T年公司i在技术j上申请的专利数量。
9.根据权利要求1或7所述的一种针对高科技公司的深度技术追踪方法,其特征在于,采用贝叶斯个性化排序的方式进行成对训练:
其中,Θ包括所有的模型参数,λ是正则化因子,Ds表示整个训练过程,包括多个(i,j+,j-)三元组,意味着公司i在技术j+投入的关注程度多余技术j-;为了最小化上述目标函数,采用Adadelta优化器来后向更新模型参数,上述过程能够通过Tensorflow自动求解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864843.9A CN110580261B (zh) | 2019-09-09 | 2019-09-09 | 针对高科技公司的深度技术追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864843.9A CN110580261B (zh) | 2019-09-09 | 2019-09-09 | 针对高科技公司的深度技术追踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110580261A true CN110580261A (zh) | 2019-12-17 |
CN110580261B CN110580261B (zh) | 2022-07-15 |
Family
ID=68812992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910864843.9A Active CN110580261B (zh) | 2019-09-09 | 2019-09-09 | 针对高科技公司的深度技术追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110580261B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1421808A (zh) * | 2001-11-26 | 2003-06-04 | 英业达股份有限公司 | 趋势专利预测系统及其方法 |
US20110208721A1 (en) * | 2010-02-22 | 2011-08-25 | Gavin Clarkson | Method for categorizing patented technological interrelationships |
CN105677907A (zh) * | 2016-02-16 | 2016-06-15 | 大连理工大学 | 一种专利技术演化分析方法及系统 |
CN106897392A (zh) * | 2017-02-04 | 2017-06-27 | 同济大学 | 一种基于知识发现的技术竞争及专利预警分析方法 |
CN107133726A (zh) * | 2017-04-20 | 2017-09-05 | 北京理工大学 | 基于专利信息的产品方案竞争力评价方法 |
CN108109087A (zh) * | 2016-11-24 | 2018-06-01 | 广州市优专网络科技有限公司 | 一种知识产权管理和运营系统 |
CN108255807A (zh) * | 2017-12-26 | 2018-07-06 | 中国专利信息中心 | 一种识别研发方向的方法 |
-
2019
- 2019-09-09 CN CN201910864843.9A patent/CN110580261B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1421808A (zh) * | 2001-11-26 | 2003-06-04 | 英业达股份有限公司 | 趋势专利预测系统及其方法 |
US20110208721A1 (en) * | 2010-02-22 | 2011-08-25 | Gavin Clarkson | Method for categorizing patented technological interrelationships |
CN105677907A (zh) * | 2016-02-16 | 2016-06-15 | 大连理工大学 | 一种专利技术演化分析方法及系统 |
CN108109087A (zh) * | 2016-11-24 | 2018-06-01 | 广州市优专网络科技有限公司 | 一种知识产权管理和运营系统 |
CN106897392A (zh) * | 2017-02-04 | 2017-06-27 | 同济大学 | 一种基于知识发现的技术竞争及专利预警分析方法 |
CN107133726A (zh) * | 2017-04-20 | 2017-09-05 | 北京理工大学 | 基于专利信息的产品方案竞争力评价方法 |
CN108255807A (zh) * | 2017-12-26 | 2018-07-06 | 中国专利信息中心 | 一种识别研发方向的方法 |
Non-Patent Citations (2)
Title |
---|
QI LIU等: "EKT:Exercise-aware Knowledge Tracing for Student Performance Prediction", 《ARXIV》 * |
潘艳丽等: "晶体管产业专利预警分析", 《深圳职业技术学院学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110580261B (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Predicting construction cost and schedule success using artificial neural networks ensemble and support vector machines classification models | |
Dejaeger et al. | Data mining techniques for software effort estimation: a comparative study | |
Sanni-Anibire et al. | Machine learning model for delay risk assessment in tall building projects | |
CN110659742B (zh) | 获取用户行为序列的序列表示向量的方法和装置 | |
Poole et al. | On statistic alignment for domain adaptation in structural health monitoring | |
Santoso et al. | The analysis of student performance using data mining | |
Li et al. | Explain graph neural networks to understand weighted graph features in node classification | |
Gao et al. | Modeling the effort and learning ability of students in MOOCs | |
Wang et al. | Webpage depth viewability prediction using deep sequential neural networks | |
Gao et al. | Detection of pavement maintenance treatments using deep-learning network | |
Hamim et al. | Student profile modeling using boosting algorithms | |
Nyman et al. | Big data and economic forecasting: A top-down approach using directed algorithmic text analysis | |
Frey et al. | Modeling ecological success of common pool resource systems using large datasets | |
Wang et al. | Research on CTR prediction based on stacked autoencoder | |
Bi et al. | Judicial knowledge-enhanced magnitude-aware reasoning for numerical legal judgment prediction | |
Hain et al. | The promises of Machine Learning and Big Data in entrepreneurship research | |
Papoušková et al. | Modelling loss given default in peer-to-peer lending using random forests | |
Pavlekovic et al. | Modeling children’s mathematical gift by neural networks and logistic regression | |
Eom et al. | Marketable value estimation of patents using ensemble learning methodology: Focusing on US patents for the electricity sector | |
CN110580261B (zh) | 针对高科技公司的深度技术追踪方法 | |
Fourkiotis et al. | Comparing Machine Learning Techniques for House Price Prediction | |
Durães | Student attention evaluation system using machine learning for decision making | |
Bhalekar et al. | Machine learning: Survey, types and challenges | |
Qin et al. | Recommender resources based on acquiring user's requirement and exploring user's preference with Word2Vec model in web service | |
Tu | Analysis and prediction method of student behavior mining based on campus big data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |