CN110580261B - 针对高科技公司的深度技术追踪方法 - Google Patents

针对高科技公司的深度技术追踪方法 Download PDF

Info

Publication number
CN110580261B
CN110580261B CN201910864843.9A CN201910864843A CN110580261B CN 110580261 B CN110580261 B CN 110580261B CN 201910864843 A CN201910864843 A CN 201910864843A CN 110580261 B CN110580261 B CN 110580261B
Authority
CN
China
Prior art keywords
year
company
technology
relationship
companies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910864843.9A
Other languages
English (en)
Other versions
CN110580261A (zh
Inventor
刘淇
陈恩红
武晗
张琨
吕广奕
于润龙
赵伟豪
马建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201910864843.9A priority Critical patent/CN110580261B/zh
Publication of CN110580261A publication Critical patent/CN110580261A/zh
Application granted granted Critical
Publication of CN110580261B publication Critical patent/CN110580261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Educational Administration (AREA)
  • Fuzzy Systems (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对高科技公司的深度技术追踪方法,包括:根据专利数据库,获取各公司在每一年申请的专利集合,以及各项技术在每一年申请的专利集合;利用基于专利特征的评价指数,结合各公司在每一年申请的专利集合与各项技术在每一年申请的专利集合,来衡量公司之间的竞争关系,并抽取基于竞争关系的内部特征;利用每一年所申请专利及相应的技术类别,构建专利技术二部图,从而获得技术之间协同关系,并抽取基于协同关系的外部特征;利用基于竞争关系的内部特征与基于协同关系的外部特征,预测未来一年,各个公司的技术分布。该方法能够准确预测公司未来一年技术分布。

Description

针对高科技公司的深度技术追踪方法
技术领域
本发明涉及机器学习和基于专利分析的技术管理领域,尤其涉及一种针对高科技公司的深度技术追踪方法。
背景技术
技术革新是高科技公司提高自身生产力和核心竞争力的重要手段,而实现该目标则需要在技术研发方面耗费大量的时间、人力、物力和财力。对于公司而言,可用的研发资金往往是有限的,因此有必要进行技术需求估计,从而合理分配研发资源,提高公司自主创新能力,增强公司核心技术竞争力。
专利数据作为技术信息的载体,是目前最大的技术信息源之一。因此,目前关于技术管理的研究工作或专利往往基于专利数据,这方面的研究工作主要分为:
1)基于统计分析的技术前景预测。
目前,基于统计分析的技术前景预测主要着重于分析专利特征与技术前景之间的关系,符合特定特征的技术类别即为高前景的技术类别。基于专利特征,领域专家定义了很多专业的技术指标,可以用来定性地衡量给定技术的发展前景。
2)基于专利挖掘的技术前景预测。
目前,基于专利挖掘的技术前景预测是将有监督的数据挖掘方法应用于技术前景预测。首先选定一定的预测目标,该预测目标往往是与技术前景相关的数据标签,然后将预测目标归类为分类或者回归问题,最后使用数据挖掘方法对预测目标进行有监督地学习或训练,从而得到预测模型。
针对高科技公司的深度技术追踪方案属于有监督的技术前景预测,旨在利用公开的专利数据,挖掘高科技公司潜在的研发偏好,对高科技公司未来可能发展的技术类别进行个性化的预测或者推荐,从而给高科技公司更多的时间来制定未来研发策略。
但是,目前的方案,无法准确预测未来可能发展的技术类别,从而无法有效实现技术追踪。
发明内容
本发明的目的是提供一种针对高科技公司的深度技术追踪方法,能够准确预测公司未来一年技术分布。
本发明的目的是通过以下技术方案实现的:
一种针对高科技公司的深度技术追踪方法,包括:
根据专利数据库,获取各公司在每一年申请的专利集合,以及各项技术在每一年申请的专利集合;
利用基于专利特征的评价指数,结合各公司在每一年申请的专利集合与各项技术在每一年申请的专利集合,来衡量公司之间的竞争关系,并抽取基于竞争关系的内部特征;
利用每一年所申请专利及相应的技术类别,构建专利技术二部图,从而获得技术之间协同关系,并抽取基于协同关系的外部特征;
利用基于竞争关系的内部特征与基于协同关系的外部特征,预测未来一年,各个公司的技术分布。
由上述本发明提供的技术方案可以看出,根据专利数据库中数据,建模公司之间的竞争关系和技术之间的协同关系,然后基于上述两种关系,挖掘动态变化的公司研发趋势和技术发展趋势,从而对公司的对于某项技术的研发可能性进行动态预测,相比于现有技术而言,极大地提高了预测结果的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种针对高科技公司的深度技术追踪方法的流程图;
图2为本发明实施例提供的一种深度技术追踪模型的框架图;
图3为本发明实施例提供的联合专利分类体系示意图;
图4为本发明实施例提供的一种深度技术追踪的神经网络结构图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种针对高科技公司的深度技术追踪方法,该方法通过分析专利数据库中高科技公司在各项技术的专利发明历史,将公司之间的竞争关系、技术之间的协同关系、公司和技术之间的动态交互关系建模到深度技术追踪模型中,目的是估测其未来时间内研发某项技术的可能性高低。相比于现有技术而言,极大的提高了预测结果的准确性。如图1~图2所示,分别为该方案对应的流程图,以及模型框架图。
如图1所述,该方法主要包括如下步骤:
步骤11、根据专利数据库,获取各公司在每一年申请的专利集合,以及各项技术在每一年申请的专利集合。
本发明实施例中,从专利数据库获取专利数据、专利所属公司、以及专利所属的技术类别;所述专利数据库可通过互联网获取。其中,专利数据包括专利的文本信息、时间信息、分类信息等;专利所属公司即为专利权人,专利类别即为技术类别(例如,联合专利分类(CPC)体系)。如图3所示,示例性地给出联合专利分类体系。
假设M个公司和N项技术在T年中申请(或者授权)了Q个专利,公司集合表示为:SU={i|i=1,2,…,M};技术集合表示为:SV={j|j=1,2,…,N};年份集合表示为:SY={t|t=1,2,…,T};专利集合表示为:SP={k|k=1,2,…,Q}。
则公司i的专利申请记录表示为
Figure BDA0002200947610000031
其中,
Figure BDA0002200947610000032
表示公司i在第t年申请的专利集合;类似的,技术j的专利申请记录表示为
Figure BDA0002200947610000033
其中,
Figure BDA0002200947610000034
表示技术j在第t年申请的专利集合。
表1列出了上述内容所涉及的各个基本概念的符号表示。
Figure BDA0002200947610000035
Figure BDA0002200947610000041
表1基本概念的符号表示
本发明实施例中,将引入一个重要的概念——技术分布。公司i在第t年的技术分布可以表示为:
Figure BDA0002200947610000042
其中,
Figure BDA0002200947610000043
这里
Figure BDA0002200947610000044
表示第t年公司i在技术j上申请的专利数量。显然,如果第t年公司i在一项技术j上申请的专利数量越多,技术分布
Figure BDA0002200947610000045
就会越大,表明公司i在该项技术的投入的关注更多。因此,追踪一个公司的技术分布是非常有意义的,分析现有的技术分布可以分析出当前公司的技术优势和劣势,挖掘未来的技术分布则能够挖掘公司潜在的研发重点。
本发明实施例所提供追踪方案的目标为:通过挖掘T-1年前的各个公司和各项技术的历史专利申请记录,即
Figure BDA0002200947610000046
Figure BDA0002200947610000047
来预测未来一年,即第T年,公司i的技术分布,表示为:
Figure BDA0002200947610000048
其中,
Figure BDA0002200947610000049
为预测到的第T年公司i在技术j上申请的专利数量。
本发明实施例中,从模型训练的角度来考虑,如果要训练一个模型,就必须有训练集和测试集,将第T年的数据
Figure BDA00022009476100000410
Figure BDA00022009476100000411
作为测试集中的数据,用T-1年前的数据,预测T年的技术,从而达到训练的目的。因此,这第T年的数据
Figure BDA00022009476100000412
也是存在的。
步骤12、利用基于专利特征的评价指数,结合各公司在每一年申请的专利集合与各项技术在每一年申请的专利集合,来衡量公司之间的竞争关系,并抽取基于竞争关系的内部特征。
本步骤优选实施方式如下:
1、利用基于专利特征的评价指数衡量公司竞争关系。
公司之间的竞争行为与技术策略之间有着密不可分的关系,我们希望将这种潜在的竞争关系建模到公司技术研发预测中。首先需要衡量公司之间的竞争关系,在这方面,常常可以使用专业的专利指数。主要如下:
1)专利活动(Patent Activity):指在第t年公司i在j技术领域内的专利申请或者授权行为,该评价指数的增长或者下降意味着公司i在技术j上的研发活动的增长或者下降,,因此也是未来技术和业务的增长和下降;计算公式为:
Figure BDA0002200947610000051
其中,
Figure BDA0002200947610000052
表示公司i在第t年申请的专利集合;
Figure BDA0002200947610000053
表示技术j在第t年申请的专利集合。
2)技术份额(Technology Share):基于专利活动指数,衡量了第t年一个公司在某项技术上的竞争水平,计算公式为:
Figure BDA0002200947610000054
3)研发重点(R&D Emphasis):体现了一个公司在特定技术领域的关注度,侧重于公司之间的不同点,研发重点实际上也是上文所定义的技术分布,计算公式为:
Figure BDA0002200947610000055
其中,
Figure BDA0002200947610000056
表示第t年公司i在技术j上申请的专利数量。
2、建立公司竞争关系识别模块,并抽取基于竞争关系的内部特征。
由于专利指数越相似的公司往往越倾向于成为竞争对手,因此,基于欧几里得距离,定义了一个竞争评分函数来比较公司之间的相似度,具体的,第t年公司i和公司i'的竞争程度为:
Figure BDA0002200947610000057
上式中,q=1~3,依次对应于3个评价指数;
Figure BDA0002200947610000058
对应于第t年公司i'的第q个评价指数。
根据上述竞争度指数,对于第t年,给定一个公司i,计算与所有其他公司之间的竞争程度;根据计算结果,从大到小进行排序,取排名前m的公司作为潜在的竞争对手集合
Figure BDA0002200947610000059
抽取出公司i和m个竞争对手的专利申请记录,分别表示为
Figure BDA00022009476100000510
Figure BDA00022009476100000511
Figure BDA00022009476100000512
表示竞争对手集合
Figure BDA00022009476100000513
在第t年申请的专利集合。
之后,可以根据
Figure BDA0002200947610000061
Figure BDA0002200947610000062
形成公司i的基于竞争关系的内部特征。具体操作如下:对于任意一个专利
Figure BDA0002200947610000063
首先抽取该专利k1的标题作为它的描述性信息,k1则表示成一个单词序列
Figure BDA0002200947610000064
通过语言模型(例如,Word2Vec),每一个单词都由一个预训练的词向量
Figure BDA0002200947610000065
进行表示,l=1,2,...,d1,该词向量el的维度为d0,每一个单词序列的长度为d1;对于一个公司i的第t年,从公司i的专利集合
Figure BDA0002200947610000066
中随机抽取d2个专利作为该公司的内部特征,该公司每一年的内部特征都写成一个张量
Figure BDA0002200947610000067
加上已经识别出来的m个竞争对手,同样在专利集合
Figure BDA0002200947610000068
中随机抽取d2个专利,总共得到m+1个公司的内部特征的张量;最终得到公司i基于竞争关系的内部特征,表示为
Figure BDA0002200947610000069
步骤13、利用每一年所申请专利及相应的技术类别,构建专利技术二部图,从而获得技术之间协同关系,并抽取基于协同关系的外部特征。
本步骤优选实施方式如下:
1、利用专利所属技术类别,构建专利技术二部图。
技术之间往往是紧密联系的,一项技术的火热可能引发相关技术的崛起,称这些技术之间存在潜在的协同关系。事实上,几乎所有的专利都属于多标签分类,各个分类代表不同的技术,也就是说一个专利往往是与多项技术联系在一起的,同样的,一项技术下面也有很多不同的专利。因此,可以通过一个二部图来建立专利和技术之间的联系,该二部图的节点包括所有的专利和所有的技术,边代表专利与技术之间的所属关系。
2、建立技术潜在协同关系识别模块,并抽取基于协同关系的外部特征。
给定一个年份t,能够获得第t年所有的专利和所有的技术类别,从而构建专利技术二部图;然后,根据构建专利技术二部图,建立一个技术之间的带权网络,其中,带权网络的每一个节点均为一项技术,边为技术之间的协同关系,边权的计算方法为:
Figure BDA00022009476100000610
其中,ctrt(j,j')是指技术j和j'之间的协同程度,
Figure BDA00022009476100000611
代表技术j和技术j'在第t年共享的专利数量,
Figure BDA00022009476100000612
代表技术j和技术j'在第t年总共申请的专利数量;ctrt(j1,j2)越大,说明有越多共同属于技术j和技术j'的专利,技术j和技术j'的协同性越高。
根据上述协同指数,对于第t年的技术j,获取与其他所有技术之间的协同程度,并按照从大大小的顺序排列,提取排名前n的协同技术集合
Figure BDA0002200947610000071
抽取技术j和排名前n的协同技术的专利申请记录,分别表示为
Figure BDA0002200947610000072
Figure BDA0002200947610000073
Figure BDA0002200947610000074
表示技术j的协同技术集合
Figure BDA0002200947610000075
在第t年申请的专利集合。
之后,可以根据
Figure BDA0002200947610000076
Figure BDA0002200947610000077
形成技术j的基于协同关系的外部特征。具体操作如下:对于任意一个专利
Figure BDA0002200947610000078
首先抽取该专利k2的标题作为它的描述性信息,专利k2则表示成一个单词序列
Figure BDA0002200947610000079
通过语言模型,每一个单词都由一个预训练的词向量
Figure BDA00022009476100000710
进行表示,l=1,2,...,d1,该词向量el的维度为d0,每一个单词序列的长度为d1;对于一项技术j的第t年,从技术j的专利集合
Figure BDA00022009476100000711
中随机抽取d2个专利作为该技术j的外部特征,该技术j每一年的外部特征都写成一个张量
Figure BDA00022009476100000712
加上已经识别出来的前n项协同技术,同样在每一项协同技术的专利集合
Figure BDA00022009476100000713
中随机抽取d2个专利,总共得到n+1个技术的内部特征的张量;最终得到技术j基于协同关系的外部特征,表示为
Figure BDA00022009476100000714
步骤14、利用基于竞争关系的内部特征与基于协同关系的外部特征,预测未来一年,各个公司的技术分布。
优选的,在预测之前是通过使用卷积神经网络对基于竞争关系的内部特征与基于协同关系的外部特征进行向量表征转换为低维的语义表征,其优选实施方式如下:
如图4右侧部分所示,使用卷积神经网络对基于竞争关系的内部特征与基于协同关系的外部特征进行向量表征;
对于一个专利的文本单词序列
Figure BDA00022009476100000715
采用一个大小为3×d0的卷积核进行卷积:
Figure BDA00022009476100000716
其中,el:l+h-1是词嵌入向量el,…,el+h-1
Figure BDA00022009476100000717
hd0是h和d0的乘积,h可以理解为一个自定义的滑动窗口大小,表示每次对h个词进行卷积;通过
Figure BDA00022009476100000718
Figure BDA00022009476100000719
使得
Figure BDA00022009476100000720
和el保持相同的维度,
Figure BDA00022009476100000721
Figure BDA00022009476100000722
是基本的卷积操作中的两个参数矩阵,d3是输出维度。那么,文本单词序列
Figure BDA0002200947610000081
就可以通过卷积操作输出得到文本特征
Figure BDA0002200947610000082
然后,使用在h维方向用大小为p-max的卷积核进行池化(即,在卷积操作以后输出的向量中得到的连续p个数中取最大值),将文本特征eh转换为一个新的隐层序列:
Figure BDA0002200947610000083
其中,ehp表示文本特征eh经过池化后得到的向量,ehp的维度为d1+h-1。
本领域技术人员可以理解,p-max(p-最大池化),是指p个数中取最大的一个数。例如p=3时,我们就是向量中连续的3个数中取最大的一个数。
类似的,可以采用多个上述卷积池化过程,直到一个专利的文本表征向量变成
Figure BDA0002200947610000084
d是一个专利的输出维度;每一年中有d2个专利的公司i表示为
Figure BDA0002200947610000085
σ是均值函数;最后,对于公司i,基于竞争关系的内部特征的张量
Figure BDA0002200947610000086
转化为
Figure BDA0002200947610000087
考虑到竞争公司之间有各种各样的交互,对于公司i来说,不同竞争对手对其的影响不同,通过竞争公司之间的竞争程度来量化潜在影响;第t年公司i基于竞争关系的内部特征的向量表征为:
Figure BDA0002200947610000088
其中,pcrt(i,i')为公司i和公司i'之间的竞争程度,
Figure BDA0002200947610000089
分别表示公司i和公司i'第t年的专利文本表征;
Figure BDA00022009476100000810
表示与公司i在第t年竞争程度排名前m个公司的集合;
基于同样的原理,基于协同关系的外部特征也可以同类相似的卷积神经网络进行表征。对于技术j,基于协同关系的内部特征的张量
Figure BDA00022009476100000811
可以转化为
Figure BDA00022009476100000812
考虑到协同技术之间有各种各样的交互,对于技术j来说,不同协同技术对其的影响不同,通过协同技术之间的协同程度来量化潜在影响;第t年技术j基于协同关系的外部特征的向量表征为:
Figure BDA00022009476100000813
其中,ctrt(j,j')为技术j和技术j'之间的协同程度;
Figure BDA00022009476100000814
分别表示技术j和技术j'第t年的专利文本表征;
Figure BDA00022009476100000815
表示与技术j在第t年协同程度排名前n个技术的集合。
通过卷积神经网络输出的向量表征,可以输入至深度技术预测模型,预测未来一年各个公司的技术分布,优选实施方式如下:
除了基于竞争关系的内部特征和基于协同关系的外部特征以外,公司和技术的动态发展趋势对于未来公司的技术分布情况也非常重要。因此,采用了循环神经网络(Recurrent NeuralNetwork,RNN)的思想,将公司的技术动态变化建模为一个时间序列预测问题。具体的,使用了门机制的循环神经网络(GatedRecurrentNeuralNetwork,GRU)来学习公司每一年的隐状态(隐向量),相比于传统的RNN,GRU在长期依赖上表现的更好,而且可以有效地解决梯度消失和梯度爆炸问题。
如图4左侧部分所示,给定公司i,第1年~第T-1年基于竞争关系的内部特征的向量表征为
Figure BDA0002200947610000091
GRU将会从第t=1年到t=T-1年逐个更新单元序列
Figure BDA0002200947610000092
(每一元素代表一个元层单元)和公司i的隐向量
Figure BDA0002200947610000093
初始化后,在第y年,公司隐向量从
Figure BDA0002200947610000094
和内部特征的向量表征
Figure BDA0002200947610000095
更新到
Figure BDA00022009476100000919
Figure BDA0002200947610000097
Figure BDA0002200947610000098
Figure BDA0002200947610000099
Figure BDA00022009476100000910
其中,
Figure BDA00022009476100000911
Figure BDA00022009476100000912
分别是更新门和重置门,σ是一个非线性激活函数(比如,sigmoid);W*表示权值矩阵,需要进行训练得知,*=xz,uz,xr,ur,xu。
通过以上过程,在不同年份,将相应的内部特征的向量表征
Figure BDA00022009476100000913
输入到GRU中,能够自动学习公司i的隐向量
Figure BDA00022009476100000914
则所有M个公司在第t年的隐向量记为
Figure BDA00022009476100000915
基于同样的原理,为了挖掘技术的动态变化,使用类似的GRU结构,只不过输入的是每年的基于协同关系的外部特征。即,对于技术来说,将基于协同关系的外部特征的向量表征
Figure BDA00022009476100000916
输入到GRU中,能够自动学习公司i的隐向量
Figure BDA00022009476100000917
则所有N项技术司在第t年的隐向量记为
Figure BDA00022009476100000918
得到公司和技术的动态表征之后,我们可以获得从第2到第T的隐向量,分别表示为u和v:u=[u2,u3,…,uT],v=[v2,v3,…,vT];也即,利用第1年的相关数据预测得到公司第2年的对应的隐向量,用第T-1年的专利预测得到第T年的表征。
对第T年的技术分布进行预测:
Figure BDA0002200947610000101
其中,ρ是一个预测函数或者是神经网络。这里为了简单,可以使用
Figure BDA0002200947610000102
σ是一个sigmoid函数,这样更容易训练并且可以有效防止过拟合。
预测结果
Figure BDA0002200947610000103
则预测到的公司i在第T年的技术分布表示为:
Figure BDA0002200947610000104
注意到实际上一个公司的技术分布往往是非常稀疏的,因为公司往往具有少数的业务和技术,对于训练来说比较困难。为了解决这样的问题,采用贝叶斯个性化排序的方式进行成对训练:
Figure BDA0002200947610000105
其中,Θ包括所有的模型参数,λ是正则化因子,Ds表示整个训练过程,包括多个(i,j+,j-)三元组,意味着公司i在技术j+投入的关注程度多余技术j-;为了最小化上述目标函数,采用Adadelta优化器来后向更新模型参数,上述过程能够通过Tensorflow自动求解。
本发明实施例上述方案,根据专利数据库中公司的专利申请记录和专利所属技术类别,建模公司之间的竞争关系和技术之间的协同关系,然后将上述两种关系输入到深度技术追踪方案,挖掘动态变化的公司研发趋势和技术发展趋势,从而对公司的对于某项技术的研发可能性进行动态预测,相比于现有技术而言,极大地提高了预测结果的准确性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种针对高科技公司的深度技术追踪方法,其特征在于,包括:
根据专利数据库,获取各公司在每一年申请的专利集合,以及各项技术在每一年申请的专利集合;
利用基于专利特征的评价指数,结合各公司在每一年申请的专利集合与各项技术在每一年申请的专利集合,来衡量公司之间的竞争关系,并抽取基于竞争关系的内部特征;
利用每一年所申请专利及相应的技术类别,构建专利技术二部图,从而获得技术之间协同关系,并抽取基于协同关系的外部特征;
利用基于竞争关系的内部特征与基于协同关系的外部特征,预测未来一年,各个公司的技术分布;
其中,衡量公司之间的竞争关系采用如下评价指数:
专利活动:指在第t年公司i在j技术领域内的专利申请或者授权行为,该评价指数的增长或者下降意味着公司i在技术j上的研发活动的增长或者下降,计算公式为:
Figure FDA0003577889260000011
其中,
Figure FDA0003577889260000012
表示公司i在第t年申请的专利集合;
Figure FDA0003577889260000013
表示技术j在第t年申请的专利集合;
技术份额:基于专利活动指数,衡量了第t年一个公司在某项技术上的竞争水平,计算公式为:
Figure FDA0003577889260000014
研发重点:体现了一个公司在特定技术领域的关注度,侧重于公司之间的不同点,研发重点也即公司的技术分布,计算公式为:
Figure FDA0003577889260000015
其中,
Figure FDA0003577889260000016
表示第t年公司i在技术j上申请的专利数量;
所述抽取基于竞争关系的内部特征包括:
基于欧几里得距离,定义了一个竞争评分函数来比较公司之间的相似度,具体的,第t年公司i和公司i'的竞争程度为:
Figure FDA0003577889260000021
上式中,q=1~3,依次对应于3个评价指数;
Figure FDA0003577889260000022
对应于第t年公司i'的第q个评价指数;
对于第t年,给定一个公司i,计算与所有其他公司之间的竞争程度;根据计算结果,从大到小进行排序,取排名前m的公司作为潜在的竞争对手集合
Figure FDA0003577889260000023
抽取出公司i和m个竞争对手的专利申请记录,分别表示为
Figure FDA0003577889260000024
Figure FDA0003577889260000025
Figure FDA0003577889260000026
表示竞争对手集合
Figure FDA0003577889260000027
在第t年申请的专利集合;
对于任意一个专利
Figure FDA0003577889260000028
首先抽取该专利k1的标题作为它的描述性信息,k1则表示成一个单词序列
Figure FDA0003577889260000029
通过语言模型,每一个单词都由一个预训练的词向量
Figure FDA00035778892600000210
进行表示,l=1,2,...,d1,该词向量el的维度为d0,每一个单词序列的长度为d1;对于一个公司i的第t年,从公司i的专利集合
Figure FDA00035778892600000211
中随机抽取d2个专利作为该公司的内部特征,该公司每一年的内部特征都写成一个张量
Figure FDA00035778892600000212
加上已经识别出来的m个竞争对手,同样在专利集合
Figure FDA00035778892600000213
中随机抽取d2个专利,总共得到m+1个公司的内部特征的张量;最终得到公司i基于竞争关系的内部特征,表示为
Figure FDA00035778892600000214
利用每一年所申请专利及相应的技术类别,构建专利技术二部图,从而获得技术之间协同关系,并抽取基于协同关系的外部特征包括:
给定一个年份t,能够获得第t年所有的专利和所有的技术类别,从而构建专利技术二部图;
根据构建专利技术二部图,建立一个技术之间的带权网络,其中,带权网络的每一节点均为一项技术,边为技术之间的协同关系,边权的计算方法为:
Figure FDA00035778892600000215
其中,ctrt(j,j')是指技术j和j'之间的协同程度,
Figure FDA00035778892600000216
代表技术j和技术j'在第t年共享的专利数量,
Figure FDA00035778892600000217
代表技术j和技术j'在第t年总共申请的专利数量;
对于第t年的技术j,获取与其他所有技术之间的协同程度,并按照从大到小的顺序排列,提取排名前n的协同技术集合
Figure FDA0003577889260000031
抽取技术j和排名前n的协同技术的专利申请记录,分别表示为
Figure FDA0003577889260000032
Figure FDA0003577889260000033
Figure FDA0003577889260000034
表示技术j的协同技术集合
Figure FDA0003577889260000035
在第t年申请的专利集合;
对于任意一个专利
Figure FDA0003577889260000036
首先抽取该专利k2的标题作为它的描述性信息,专利k2则表示成一个单词序列
Figure FDA0003577889260000037
通过语言模型,每一个单词都由一个预训练的词向量
Figure FDA0003577889260000038
进行表示,l=1,2,...,d1,该词向量el的维度为d0,每一个单词序列的长度为d1;对于一项技术j的第t年,从技术j的专利集合
Figure FDA0003577889260000039
中随机抽取d2个专利作为该技术j的外部特征,该技术j每一年的外部特征都写成一个张量
Figure FDA00035778892600000310
加上已经识别出来的前n项协同技术,同样在每一项协同技术的专利集合
Figure FDA00035778892600000311
中随机抽取d2个专利,总共得到n+1个技术的内部特征的张量;最终得到技术j基于协同关系的外部特征,表示为
Figure FDA00035778892600000312
2.根据权利要求1所述的一种针对高科技公司的深度技术追踪方法,其特征在于,根据专利数据库,获取各公司在每一年申请的专利集合,以及各项技术在每一年申请的专利集合包括:
从专利数据库获取专利数据、专利所属公司、以及专利所属技术类别;
假设M个公司和N项技术在T年中申请了Q个专利,公司集合表示为:SU={i|i=1,2,…,M};技术集合表示为:SV={j|j=1,2,…,N};年份集合表示为:SY={t|t=1,2,…,T};专利集合表示为:SP={k|k=1,2,…,Q};
则公司i的专利申请记录表示为
Figure FDA00035778892600000313
其中,
Figure FDA00035778892600000314
表示公司i在第t年申请的专利集合;技术j的专利申请记录表示为
Figure FDA00035778892600000315
其中,
Figure FDA00035778892600000316
表示技术j在第t年申请的专利集合。
3.根据权利要求1所述的一种针对高科技公司的深度技术追踪方法,其特征在于,该方法还包括:使用卷积神经网络对基于竞争关系的内部特征与基于协同关系的外部特征进行向量表征;
对于一个专利的文本单词序列
Figure FDA0003577889260000041
采用一个大小为3×d0的卷积核进行卷积:
Figure FDA0003577889260000042
其中,el:l+h-1是词嵌入向量
Figure FDA0003577889260000043
hd0是h和d0的乘积,h为一个自定义的滑动窗口大小,表示每次对h个词进行卷积;通过
Figure FDA0003577889260000044
Figure FDA0003577889260000045
使得
Figure FDA0003577889260000046
和el保持相同的维度,
Figure FDA0003577889260000047
Figure FDA0003577889260000048
是卷积操作中的两个参数矩阵,d3是输出维度;最终,文本单词序列
Figure FDA0003577889260000049
通过卷积操作输出得到文本特征
Figure FDA00035778892600000410
然后,使用在h维方向用大小为p-max的卷积核进行池化,将文本特征eh转换为一个新的隐层序列:
Figure FDA00035778892600000411
采用多个卷积池化过程,直到一个专利的文本表征向量变成
Figure FDA00035778892600000412
d是一个专利的输出维度;每一年中有d2个专利的公司i表示为
Figure FDA00035778892600000413
σ是均值函数;最后,对于公司i,基于竞争关系的内部特征的张量
Figure FDA00035778892600000414
转化为
Figure FDA00035778892600000415
对于公司i来说,不同竞争对手对其的影响不同,通过竞争公司之间的竞争程度来量化潜在影响;第t年公司i基于竞争关系的内部特征的向量表征为:
Figure FDA00035778892600000416
其中,pcrt(i,i')为公司i和公司i'之间的竞争程度,
Figure FDA00035778892600000417
分别表示公司i和公司i'第t年的专利文本表征;
Figure FDA00035778892600000418
表示与公司i在第t年竞争程度排名前m个公司的集合;
基于同样的原理,对于技术来说,不同协同技术对其的影响不同,通过协同技术之间的协同程度来量化潜在影响;第t年技术j基于协同关系的外部特征的向量表征为:
Figure FDA00035778892600000419
其中,ctrt(j,j')为技术j和技术j'之间的协同程度;
Figure FDA00035778892600000420
分别表示技术j和技术j'第t年的专利文本表征;
Figure FDA00035778892600000421
表示与技术j在第t年协同程度排名前n个技术的集合。
4.根据权利要求3所述的一种针对高科技公司的深度技术追踪方法,其特征在于,利用基于竞争关系的内部特征与基于协同关系的外部特征,预测未来一年,各个公司的技术分布包括:
使用门机制的循环神经网络GRU来学习公司每一年的隐向量;给定公司i,第1年~第T-1年基于竞争关系的内部特征的向量表征为
Figure FDA0003577889260000051
GRU将会从第t=1年到t=T-1年逐个更新单元序列
Figure FDA0003577889260000052
和公司i的隐向量
Figure FDA0003577889260000053
初始化后,在第y年,公司隐向量从
Figure FDA0003577889260000054
和内部特征的向量表征
Figure FDA0003577889260000055
更新到
Figure FDA0003577889260000056
Figure FDA0003577889260000057
Figure FDA0003577889260000058
Figure FDA0003577889260000059
Figure FDA00035778892600000510
其中,
Figure FDA00035778892600000511
Figure FDA00035778892600000512
分别是更新门和重置门,σ是一个非线性激活函数;W*表示权值矩阵,需要进行训练得知;
通过以上过程,在不同年份,将相应的内部特征的向量表征
Figure FDA00035778892600000513
输入到GRU中,能够自动学习公司i的隐向量
Figure FDA00035778892600000514
则所有M个公司在第t年的隐向量记为
Figure FDA00035778892600000515
基于同样的原理,对于技术来说,将基于协同关系的外部特征的向量表征
Figure FDA00035778892600000516
输入到GRU中,能够自动学习公司i的隐向量
Figure FDA00035778892600000517
则所有N项技术司在第t年的隐向量记为
Figure FDA00035778892600000518
对第T年的技术分布进行预测:
Figure FDA00035778892600000519
其中,ρ是一个预测函数或者是神经网络;u=[u2,u3,…,uT],v=[v2,v3,…,vT],
Figure FDA00035778892600000520
5.根据权利要求1或4所述的一种针对高科技公司的深度技术追踪方法,其特征在于,预测到的公司i在第T年的技术分布表示为:
Figure FDA00035778892600000521
其中,
Figure FDA00035778892600000522
为预测到的第T年公司i在技术j上申请的专利数量。
6.根据权利要求4所述的一种针对高科技公司的深度技术追踪方法,其特征在于,采用贝叶斯个性化排序的方式进行成对训练:
Figure FDA00035778892600000523
其中,Θ包括所有的模型参数,λ是正则化因子,Ds表示整个训练过程,包括多个(i,j+,j-)三元组,意味着公司i在技术j+投入的关注程度多于技术j-;为了最小化上述目标函数,采用Adadelta优化器来后向更新模型参数,上述过程能够通过Tensorflow自动求解。
CN201910864843.9A 2019-09-09 2019-09-09 针对高科技公司的深度技术追踪方法 Active CN110580261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910864843.9A CN110580261B (zh) 2019-09-09 2019-09-09 针对高科技公司的深度技术追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910864843.9A CN110580261B (zh) 2019-09-09 2019-09-09 针对高科技公司的深度技术追踪方法

Publications (2)

Publication Number Publication Date
CN110580261A CN110580261A (zh) 2019-12-17
CN110580261B true CN110580261B (zh) 2022-07-15

Family

ID=68812992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910864843.9A Active CN110580261B (zh) 2019-09-09 2019-09-09 针对高科技公司的深度技术追踪方法

Country Status (1)

Country Link
CN (1) CN110580261B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1421808A (zh) * 2001-11-26 2003-06-04 英业达股份有限公司 趋势专利预测系统及其方法
CN105677907A (zh) * 2016-02-16 2016-06-15 大连理工大学 一种专利技术演化分析方法及系统
CN106897392A (zh) * 2017-02-04 2017-06-27 同济大学 一种基于知识发现的技术竞争及专利预警分析方法
CN107133726A (zh) * 2017-04-20 2017-09-05 北京理工大学 基于专利信息的产品方案竞争力评价方法
CN108109087A (zh) * 2016-11-24 2018-06-01 广州市优专网络科技有限公司 一种知识产权管理和运营系统
CN108255807A (zh) * 2017-12-26 2018-07-06 中国专利信息中心 一种识别研发方向的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110208721A1 (en) * 2010-02-22 2011-08-25 Gavin Clarkson Method for categorizing patented technological interrelationships

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1421808A (zh) * 2001-11-26 2003-06-04 英业达股份有限公司 趋势专利预测系统及其方法
CN105677907A (zh) * 2016-02-16 2016-06-15 大连理工大学 一种专利技术演化分析方法及系统
CN108109087A (zh) * 2016-11-24 2018-06-01 广州市优专网络科技有限公司 一种知识产权管理和运营系统
CN106897392A (zh) * 2017-02-04 2017-06-27 同济大学 一种基于知识发现的技术竞争及专利预警分析方法
CN107133726A (zh) * 2017-04-20 2017-09-05 北京理工大学 基于专利信息的产品方案竞争力评价方法
CN108255807A (zh) * 2017-12-26 2018-07-06 中国专利信息中心 一种识别研发方向的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EKT:Exercise-aware Knowledge Tracing for Student Performance Prediction;Qi Liu等;《arXiv》;20190707;第1-16页 *
晶体管产业专利预警分析;潘艳丽等;《深圳职业技术学院学报》;20190331;第29-35页 *

Also Published As

Publication number Publication date
CN110580261A (zh) 2019-12-17

Similar Documents

Publication Publication Date Title
Chen et al. Selecting critical features for data classification based on machine learning methods
Spirtes et al. An algorithm for fast recovery of sparse causal graphs
Chen et al. General functional matrix factorization using gradient boosting
Akerkar et al. Intelligent techniques for data science
CN110083836A (zh) 一种文本预测结果的关键证据抽取方法
Akerkar Advanced data analytics for business
Li et al. Explain graph neural networks to understand weighted graph features in node classification
Zhu et al. Identifying the technology convergence using patent text information: A graph convolutional networks (GCN)-based approach
Wang et al. Webpage depth viewability prediction using deep sequential neural networks
Beck et al. Machine learning in official statistics
Nyman et al. Big data and economic forecasting: A top-down approach using directed algorithmic text analysis
Wang et al. Research on CTR prediction based on stacked autoencoder
Liu et al. Age inference using a hierarchical attention neural network
US20220366295A1 (en) Pre-search content recommendations
Zhang et al. Analysis and research on library user behavior based on apriori algorithm
Bi et al. Judicial knowledge-enhanced magnitude-aware reasoning for numerical legal judgment prediction
Shi et al. Deep heterogeneous network for temporal set prediction
Pavlekovic et al. Modeling children’s mathematical gift by neural networks and logistic regression
CN110580261B (zh) 针对高科技公司的深度技术追踪方法
Withanawasam Apache Mahout Essentials
Amirian et al. Data science and analytics
Wu et al. Generating life course trajectory sequences with recurrent neural networks and application to early detection of social disadvantage
Theodorou et al. Synthesize extremely high-dimensional longitudinal electronic health records via hierarchical autoregressive language model
Kumbhar et al. Web mining: A Synergic approach resorting to classifications and clustering
Rahaman et al. Identifying the signature of suicidality: A machine learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant