CN117112784A - 一种文献识别与技术路径演化的实现方法 - Google Patents
一种文献识别与技术路径演化的实现方法 Download PDFInfo
- Publication number
- CN117112784A CN117112784A CN202310854426.2A CN202310854426A CN117112784A CN 117112784 A CN117112784 A CN 117112784A CN 202310854426 A CN202310854426 A CN 202310854426A CN 117112784 A CN117112784 A CN 117112784A
- Authority
- CN
- China
- Prior art keywords
- node
- technical
- documents
- matrix
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 109
- 238000011156 evaluation Methods 0.000 claims abstract description 32
- 238000011161 development Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 25
- 230000008859 change Effects 0.000 claims abstract description 6
- 238000009960 carding Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 107
- 238000004364 calculation method Methods 0.000 claims description 50
- 238000005516 engineering process Methods 0.000 claims description 43
- 239000013598 vector Substances 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 12
- 238000011160 research Methods 0.000 claims description 11
- 238000005259 measurement Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000007423 decrease Effects 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 230000033001 locomotion Effects 0.000 claims description 6
- 238000001303 quality assessment method Methods 0.000 claims description 5
- 230000035800 maturation Effects 0.000 claims description 4
- 238000000691 measurement method Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000003313 weakening effect Effects 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 2
- 230000015556 catabolic process Effects 0.000 claims 1
- 238000006731 degradation reaction Methods 0.000 claims 1
- 238000009377 nuclear transmutation Methods 0.000 abstract description 3
- 238000001212 derivatisation Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 30
- 230000018109 developmental process Effects 0.000 description 20
- 238000013441 quality evaluation Methods 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000035784 germination Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Operations Research (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文献识别与技术路径演化的实现方法,该方法首先是根据检索的文献划分技术领域的生命周期,再结合文献间关系构建关系网络、划分网路社群,按技术领域生命周期的发展阶段去分析各阶段中各社群的关键节点,构建核心文献评价指标体系,通过灰色关联度排序方法去对各阶段中各社群的关键节点进行核心文献识别排序,获得在各阶段中的核心文献,最后通过梳理技术路径,分析出技术领域的演化发展过程。本发明构建关系网络能够从与技术领域中有关的海量文献中体现科学技术演化的脉络、衍生、嬗变、关联要素等的知识。本发明引入时间维度的关系网络方法,能够帮助更好地理解专利之间的演化过程和关联变化。
Description
技术领域
本发明涉及一种文献识别与技术路径演化的实现方法,属于文本信息处理技术领域。
背景技术
在现阶段经济社会转型升级的强烈需求、知识和技术体系的内生驱动、大数和信息技术的支撑下,科技创新研究对信息或知识的需求不再停留于对信息的获取和序化,而更需要从海量信息中获得能够体现科学技术演化的脉络、衍生、嬗变、关联要素等的知识,更需要的是对未知知识的探索、计算和发现,需要快速分析出某项技术路径演化过程。
现有对文献技术路径演化的方法主要有基于LDA的文本聚类分析和社会网络图,虽然目前有关于LDA嵌有时间元素的技术,LDA的优势在于词向量分析及主题与词之间的关联性分析,但LDA的主题总结过程人为主观因素较强,文本聚类分析很难全面、准确地反映产业技术轨道发展规律;社会网络图可以很好的展示不同时间段之间的关联性和聚集性,但关联因素(如专利之间的引用和被引用之间的关系)只反应了文献间的相互关系,并不能代表文献本身的质量好坏,因此社会网络图的方法展示相关技术的演进过程也不是非常准确与合理。
发明内容
本发明目的在于针对上述现有技术的缺陷和不足,提出了一种文献识别与技术路径演化的实现方法,该方法在社会网络图的基础上进一步融合技术生命周期技术和关键文献评价与量化排序方法,提出包括数据获取与处理、技术生命周期发展阶段划分、引用关系网络构建、高价值核心文献识别与提取和核心技术演进过程推断技术,实现快速分析某项技术路径演化过程。
本发明解决其技术问题所采用的技术方案是:一种文献识别与技术路径演化的实现方法,该方法首先是根据检索的文献划分技术领域的生命周期,再结合文献间关系构建关系网络、划分网路社群,按技术领域生命周期的发展阶段去分析各阶段中各社群的关键节点,构建核心文献评价指标体系,通过灰色关联度排序方法去对各阶段中各社群的关键节点进行核心文献识别排序,获得在各阶段中的核心文献,最后通过梳理技术路径,分析出技术领域的演化发展过程。
方法流程:
步骤1:对获取的文献数据集进行统计和分析,划分所分析的技术领域生命周期。
步骤2:建立文献关系网络,划分i个社群,按技术领域的生命周期去分析不同社群的发展情况,接着获取不同阶段下第i个高中心度的文献。
步骤3:通过灰色关联度的方法,对高中心性度的文献进一步进行核心文献的识别。
步骤4:从核心文献中分析技术路径的演化。
进一步地,本发明上述步骤1包括:
步骤1-1:收集相关技术领域的专利数据,包括每年的专利申请数量,文献发表数量等。
步骤1-2:使用拟合方法,如线性回归、多项式回归等,来拟合趋势线,得到拟合函数。
步骤1-3:计算拟合函数的斜率。斜率表示每年专利申请数量的变化速率,可用于判断技术领域的生命周期阶段。
步骤1-4:分析拟合函数的曲线形状。根据曲线的形态特征,推断技术领域的生命周期阶段。
步骤1-5:根据斜率和曲线形状的分析,划分技术领域的生命周期阶段。常见的生命周期阶段包括前期探索阶段、快速增长阶段、成熟阶段和衰退阶段。前期探索阶段表现为较少的文献发表数量或专利申请数量,快速增长阶段表现为文献发表数量或专利申请数量的迅速增加和活跃的技术领域活动,成熟阶段表现为文献发表数量或专利申请数量的稳定和相对平稳的技术领域活动,衰退阶段表现为文献发表数量或专利申请数量的下降和减弱的技术领域活动。
进一步地,本发明上述步骤2包括:
步骤2-1:建立复杂网络的关系矩阵。
步骤2-2:对复杂关系矩阵进行可视化,并用FR算法对节点进行布局。
步骤2-3:对布局后的复杂网络关系图进一步进行社群划分。
步骤2-4:分析复杂关系网络各社群中的高中心性度关键节点。
步骤2-5:引入时间轴分析各社群在不同阶段的发展情况。
进一步地,本发明上述步骤2-1包括:
步骤2-1-1:确定需要建立关系矩阵的资料对象,可以是文献、专利等。
步骤2-1-2:确定文献间关系的定义或度量方式,如相似度、相关性、共现关系等。例如文献中,可以是论文间的引证关系,所属期刊关系等;对于专利可以是专利引用关系、共同发明人关系、IPC分类号等。
步骤2-1-3:从关系的定义或度量方式中去计算关系度量的大小,主要有相似度计算,相关性计算,共现性计算,对其进行加权求和,得到分析对象间的关系强度r,r计算方式如下:
r=wcs cosine_similarity(A,B)+wklKL(P||Q)+wsS(i,j)(2.7)
其中cosine_similarity(A,B)是采用余弦相似度方法得到的关系强度,KL(P||Q)是采用KL散度(Kullback-Leibler Divergence)得到的关系强度,S(i,j)是Jaccard系数矩阵计算得到的关系强度,并且wcs、wkl和ws分别是针对上述三类度量方法的权重。根据具体文献的实际情况这三类度量指标并不一定同时出现,需要根据实际情况进行选择使用。
步骤2-1-4:对于不同文献标题、主题、摘要等信息之间的相似度计算,采用不同文献中的词向量之间的余弦相似度方法,计算方式(2.8)如下:
其中,A和B分别表示两篇文献中的词向量的表示形式,·表示向量的点积,|·|表示向量的范数。
步骤2-1-5:对于相关性计算,主要是分析作者之间、单位之间、期刊之间、专利代理机构之间的关联性,本发明采用KL散度(Kullback-Leibler Divergence)计算方法,计算公式(2.9)如下:
KL(P||Q)=∑P(x)log(P(x)/Q(x))(2.9)
其中,P(x)和Q(x)分别表示为两篇文献中待分析关联元素的概率分布函数。
步骤2-1-6:对于文献之间的关联性,如引用与被引用关系,使用共现性计算方法即Jaccard系数矩阵方法,Jaccard系数矩阵计算公式如式(2.10)所示。
式中S(i,j)表示为文献i和文献j共同被引用的强度,cit(i)和cit(j)分别表示文献i和文献j各自被引用的频次,coc(i,j)表示文献i和文献j共同被引用的频次。
步骤2-1-7:权重系数的计算
权重系数的计算使用层次分析法(Analytic Hierarchy Process,AHP)方法获得,同时这三类权重系数满足:
wcs+wkl+ws=1
步骤2-1-8:将文献间关系强度组建成文献间关系矩阵,关系矩阵是一个方阵,其中每个元素表示文献之间的关系强度。根据具体需求,对关系矩阵进行标准化处理,以消除度量方法本身的影响或调整关系强度的尺度。
进一步地,本发明上述步骤2-2包括:
步骤2-2-1:得到关系矩阵后将其进行可视化。将数据导入关系网络可视化软件或使用程序进行可视化。
步骤2-2-2:使用FR算法(Fruchterman-Reingold)确定各节点的位置。FR算法主要由弹簧模型和能量模型组成,弹簧模型用于模拟节点之间的引力和斥力,能量模型用于计算整个图布局的能量。弹簧模型通过弹簧的拉伸和压缩来模拟节点之间的引力和斥力。弹簧模型的能量函数定义如下:
其中,Es是弹簧模型的能量n是节点数,k是弹簧的刚度系数,d(i,j)是节点i和节点j之间的距离,s(i,j)是节点i和节点j之间的理想长度。
能量模型通过考虑节点的权重来计算整个图布局的能量。每个节点都有一个权重,表示其重要性或优先级。能量模型的函数定义如下:
其中,E是全局能量模型中的能量,c表示两个点之间的静电力常数,wij是节点i和节点j两个点之间的权重。
步骤2-2-3:通过迭代FR算法优化能量函数来逐步调整节点的位置,以达到图布局的平衡状态。
进一步地,本发明上述步骤2-3包括:
步骤2-3-1:将每个节点视为一个单独的社群,利用程序让节点进行移动。
步骤2-3-2:遍历每个节点,计算将该节点移动到相邻社群时的模块化指数增益。遍历每个节点,计算该节点移动到相邻社群时的模块化指数增益
直到没有节点进一步移动,或者模块化指数增益满足停止容差条件,否则重复步骤2-3-1和步骤2-3-2。模块化指数增益/>及停止准则条件如式(2.13):
其中是模块化指数增益,Q(n+1)是节点移动后的新模块指数,Q(n)是节点移动前的旧模块指数,ε是停止容差,通常为1×10-4。
步骤2-3-3:采用Louvain算法计算模块指数公式如式(2.14):
其中,Q(n)是模块化指数,表示社群划分的质量;c是社群的索引,表示第c个社群;Σin是社群内部的连接权重之和,表示社群内节点之间的连接总权重;Σtot是节点的度数,即与节点相连的边的数量之和,表示节点的总度数;m是网络中所有边的总权重之和的一半,即m=1/2×总边权重和;ec是社群c的内部连接的比例,即ec=Σin/(2m),表示社群内部连接权重与总连接权重的比例;ac是社群c的度数之和的比例的平方,即它表示社群中节点度数之和与总度数之和的比例的平方。
步骤2-3-4:重复步骤2-3-1和步骤2-3-2,将节点移动到能够最大化模块度增益的相邻社群中,直到没有节点进一步移动。
步骤2-3-5:将每个社群视为一个单独的节点,构建新的网络。重复步骤2,直到无法继续优化模块度。
步骤2-3-6:达到最大模块度的社群划分即最终的划分结果。按所需的社群个数进行裁剪得到所需的K个主社群。
进一步地,本发明上述步骤2-4包括:
步骤2-4-1:计算节点中的中心性指标Ca(v),即节点中心度。Ca(v)计算公式如下:
其中,Cd(v)表示节点v的度中心性,Cc(v)表示节点v的接近中心性,Cb(v)表示节点v的介数中心性,Ce(v)表示节点v的特征向量中心性。
步骤2-4-2:计算度中心性Cd(v),其数学表达式如下:
Cd(v)=deg(v)(2.16)
其中,deg(v)表示节点v的度数,即与节点v相连的边的数量。
步骤2-4-3:计算接近中心性Cc(v),其数学表达式如下:
其中,d(u,v)表示节点u和节点v之间的最短路径长度。
步骤2-4-4:计算介数中心性Cb(v),其数学表达式如下:
其中,σst表示节点s和节点t之间的最短路径数量,σst(v)表示通过节点v的最短路径数量。
步骤2-4-5:计算特征向量中心性Ce(v),其数学表达式如下:
其中,λ表示最大特征值,A(u,v)表示节点u和节点v之间的连接权重,Ce(u)表示节点u的特征向量中心性。
步骤2-4-6:通过节点的中心性指标大小筛选复杂网络图中的关键节点文献。
进一步地,本发明上述步骤2-5包括:
步骤2-5-1:将文献数据集中包含与时间相关的信息,即为每个文献的节点和边添加一个时间戳属性列,用于表示文献的时间信息。
步骤2-5-2:按时间信息创建时间轴,通过软件或程序实现将节点按时间戳信息出现、消失,节点间的边按时间戳出现、消失。
进一步地,本发明上述步骤3包括:
步骤3-1:数据源选择。
以社群中的某一个主题下的关键节点,即高中心性文献作为数据源,并将数据源按照时间进行排列,以技术领域生命周期的时间界限对文献进行划分,得到p个不同时间段的文献数据源。
步骤3-2:核心文献技术质量指标选取。
选取核心文献技术质量指标,用于评价文献类型主要包括论文和专利等形式,高价值论文的重要技术指标包括:论文引用次数、H指数、影响因子、引文评分、SJR、SNIP、AltmetricScore、下载次数和在线浏览次数、期刊排名等指标。单项高价值专利评估主要包括:专利引用数量(包括前引、后引)、技术影响力指数、科学关联度、技术覆盖范围、独立权利要求数、专利许可、专利权人影响力等指标体系。
文献主要包括论文和专利等形式,高价值论文的重要技术指标包括:论文引用次数、H指数、影响因子、引文评分、SJR、SNIP、Altmetric Score、下载次数和在线浏览次数、期刊排名等指标。
由单项高价值专利评估主要包括:专利引用数量(包括前引、后引)、技术影响力指数、科学关联度、技术覆盖范围、独立权利要求数、专利许可、专利权人影响力等指标体系。
不管是论文和专利文件,以及他们的具体评级指标都需要跟进详细评价模型以及数据来源进一步的选择和判断。
以高价值论文评估指标选取为例,相关的指标的详细说明如下表1所示:
表1高价值论文评估指标及释义
以高价值专利价值评估指标选取为例,评估核心专利的定量指标及重要程度如表2所列。
表2核心专利技术质量评估指标
步骤3-3:计算每个指标的灰色关联度系数及其权重,从而得到灰色关联度,以灰色关联度作为排序的测度。
步骤3-4:计算每一行中的灰色关联度,灰色关联度公式如(2.4.4):
其中,是关联度加权求和公式,用于计算待评估文献序列i在所有评估指标上的加权关联度,ωi是按AHP方法对核心文献技术质量评估指标的赋权,γ(x0(j),X* i(j))是待评估文献X* i(j)在第j个评估指标上的关联度系数。
通过将每个评估指标的关联度乘以对应的权重,并将它们加权求和,得到待评估专利序列X* i的总体灰色关联度,依据关联度大小得出在关键节点文献中的核心文献。
进一步地,本发明上述步骤3-3包括:
步骤3-3-1:建立层次结构模型,
层次结构模型包括目标层Z、准则层C以及方案层P,参照图2,在本实施例中目标层Z为核心文献,准则层C为核心文献技术质量评估指标,方案层P为待评估的文献。
步骤3-3-2:构造判断矩阵
按照要素的重要程度评定等级,为了让矩阵中的各要素的重要性能够进行定量显示,采用了矩阵判断标度(1-9标度法),如下表3所示
表3矩阵判断标度
若元素i与元素j的重要性之比为aij,那么元素j与i的重要性之比为aji=1/aij,根据表格建立各层次判断矩阵A为:
A=(aij)n×n(2.21)
其中:aij为元素i与元素j的重要性之比。
步骤3-3-3判断矩阵的归一化
将A的每一列向量求和归一化处理,得到矩阵B
其中:bij为归一化后矩阵B各元素
步骤3-3-4计算指标权重
将B的每一行按行求和得到行权重ωi
步骤3-3-5计算最大特征根的近似值,根据公式:
λ该特征值作为最大特征根用于一致性检验。
步骤3-3-6一致性检验
人为创造的比较矩阵一般是不满足一致性的,但是在此还是把它当做一致矩阵来处理,获得一组权重,但是这组权重能不能被接受,需要进一步考量,所以需要引入一致性标准检验,其判断方法为:
第一步,运用公式计算一致性指标C.I.(Consistency Index)。
第二步,查表4平均随机一致性指标R.I,平均随机一致性指标R.I.(RandomIndex)通过矩阵阶数进行确定。
表4平均随机一致性指标R.I.。
矩阵阶数 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
R.I. | 0 | 0 | 0.52 | 0.89 | 1.12 | 1.26 | 1.36 |
第三步,计算一致性比例C.R.(Consistency Ratio),利用如下公式判断是否满足要求。
当C.R.<0.1时,判断矩阵达到要求,得到检验验证后的层次分析法权重ωi;若当C.R.>0.1时,判断矩阵不符合要求,则跳转到步骤40-2.2需要重新修正判断矩阵。
进一步地,本发明上述步骤3-4包括:
步骤3-4-1:构建原始数据矩阵X,每一行x是对于待评价文献的评价指标分数有n个,有m列个参考指标,因此构成m×n原始数据矩阵X。
步骤3-4-2确定参考序x0选择原始数据矩阵X中各指标数据最大值,设定为参考序列:
x0=(x01,x02,...,x0j,....,x0n) (2.30)
数据规范化处理,将数据按望大归一化方法指标通过公式(2.29)转换为望大指标。
式中,为规范化后的数据,X*即为望大归一化后的数据矩阵。
步骤3-4-3计算差矩阵D,即计算x0n与差作为差矩阵D的元素,并由此构成差矩阵D:
D(i,j)=|x0(j)-X*(i,j)|j·n (2.31)
步骤3-4-4求差矩阵D中的最大值M与最小值m,方法如下:
M=max(max(D)) (2.32)
m=min(min(D)) (2.33)
步骤3-4-5计算灰色关联度系数矩阵γ(x0(j),X* i(j)),使用差矩阵D及其最大值M与最小值m组成的灰色关联度系数矩阵公式(2.34)进行计算,
式中,ξ为分辨系数,ξ=0.5。
进一步地,本发明上述步骤4包括:
步骤4-1:以划分的技术领域生命周期为时间轴。也确定研究领域的时间范围,将其作为时间轴的基准。根据相关文献、专利或研究历史等信息来确定时间范围,并将其划分为不同的阶段或时间段。
步骤4-2:从构建的复杂关系网络中选择社群作为研究对象。
步骤4-3:根据核心文献的排序结果,选择排名靠前的核心文献进行解读和分析。通过阅读这些核心文献,识别出其中的关键技术,将这些关键技术进行梳理和记录,形成技术路径图。
步骤4-4:分析文献技术路径的演化。根据技术路径图,分析文献在不同时间段的演化趋势和变化。观察关键技术的出现、发展和衰退情况,以及技术路径的延伸和转变。通过对文献内容的比较和对时间轴上的位置关系的观察,了解技术领域在不同时间段的发展方向和趋势。
有益效果:
1、本发明构建关系网络,能够从与技术领域中有关的海量文献中体现科学技术演化的脉络、衍生、嬗变、关联要素等的知识。
2、本发明引入时间维度的关系网络方法,能够帮助更好地理解专利之间的演化过程和关联变化。
3、本发明建立高质量文献评价指标体系而非仅依靠关系网络中的中心度指标,并使用灰色关联度方法从而实现文献质量优劣的排序,更好地识别出某一阶段的关键文献。
4、本发明综合使用关系网络方法、灰色关联度排序方法识别出某一阶段的关键文献,并纳入到文献主题的全生命周期模型中,最终探索出文献技术路径的演化趋势。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
其中:
图1为本发明的方法流程图。
图2为本发明的关系矩阵示意图。
图3为本发明的核心专利技术质量评估指标层次结构模型图。
图4为江苏省智能网联汽车测试与评价关键技术专利申请趋势图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1所示,本发明提供了一种文献识别与技术路径演化的实现方法,该方法首先是根据检索的文献划分技术领域的生命周期,再结合文献间关系构建关系网络、划分网路社群,按技术领域生命周期的发展阶段去分析各阶段中各社群的关键节点,构建核心文献评价指标体系,通过灰色关联度排序方法去对各阶段中各社群的关键节点进行核心文献识别排序,获得在各阶段中的核心文献,最后通过梳理技术路径,分析出技术领域的演化发展过程。具体包括:
步骤1:对获取的文献数据集进行统计和分析,划分所分析的技术领域生命周期。
步骤2:建立文献关系网络,划分i个社群,按技术领域的生命周期去分析不同社群的发展情况,接着获取不同阶段下第i个高中心度的文献。
步骤3:通过灰色关联度的方法,对高中心性度的文献进一步进行核心文献的识别。
步骤4:从核心文献中分析技术路径的演化。
进一步地,本发明上述步骤1包括:
步骤1-1:收集相关技术领域的专利数据,包括每年的专利申请数量,文献发表数量等。
步骤1-2:使用拟合方法,如线性回归、多项式回归等,来拟合趋势线,得到拟合函数。
步骤1-3:计算拟合函数的斜率。斜率表示每年专利申请数量的变化速率,用于判断技术领域的生命周期阶段。
步骤1-4:分析拟合函数的曲线形状。根据曲线的形态特征,推断技术领域的生命周期阶段。
步骤1-5:根据斜率和曲线形状的分析,划分技术领域的生命周期阶段。常见的生命周期阶段包括前期探索阶段、快速增长阶段、成熟阶段和衰退阶段。前期探索阶段表现为较少的文献发表数量或专利申请数量,快速增长阶段表现为文献发表数量或专利申请数量的迅速增加和活跃的技术领域活动,成熟阶段表现为文献发表数量或专利申请数量的稳定和相对平稳的技术领域活动,衰退阶段表现为文献发表数量或专利申请数量的下降和减弱的技术领域活动。
进一步地,本发明上述步骤2包括:
步骤2-1:建立复杂网络的关系矩阵。
步骤2-2:对复杂关系矩阵进行可视化,并用FR算法对节点进行布局。
步骤2-3:对布局后的复杂网络关系图进一步进行社群划分。
步骤2-4:分析复杂关系网络各社群中的高中心性度关键节点。
步骤2-5:引入时间轴分析各社群在不同阶段的发展情况。
进一步地,本发明上述步骤2-1包括:
步骤2-1-1:确定需要建立关系矩阵的资料对象,可以是文献、专利等。
步骤2-1-2:确定文献间关系的定义或度量方式,如相似度、相关性、共现关系等。例如文献中,可以是论文间的引证关系,所属期刊关系等;对于专利可以是专利引用关系、共同发明人关系、IPC分类号等。
步骤2-1-3:从关系的定义或度量方式中去计算关系度量的大小,主要有相似度计算,相关性计算,共现性计算,对其进行加权求和,得到分析对象间的关系强度r,r计算方式如下:
r=wcs cosine_similarity(A,B)+wklKL(P||Q)+wsS(i,j) (2.7)
其中cosine_similarity(A,B)是采用余弦相似度方法得到的关系强度,KL(P||Q)是采用KL散度(Kullback-Leibler Divergence)得到的关系强度,S(i,j)是Jaccard系数矩阵计算得到的关系强度,并且wcs、wkl和ws分别是针对上述三类度量方法的权重。根据具体文献的实际情况这三类度量指标并不一定同时出现,需要根据实际情况进行选择使用。
步骤2-1-4:对于不同文献标题、主题、摘要等信息之间的相似度计算,采用不同文献中的词向量之间的余弦相似度方法,计算方式(2.8)如下:
其中,A和B分别表示两篇文献中的词向量的表示形式,·表示向量的点积,|·|表示向量的范数。
步骤2-1-5:对于相关性计算,主要是分析作者之间、单位之间、期刊之间、专利代理机构之间的关联性,本发明采用KL散度(Kullback-Leibler Divergence)计算方法,计算公式(2.9)如下:
KL(P||Q)=∑P(x)log(P(x)/Q(x)) (2.9)
其中,P(x)和Q(x)分别表示为两篇文献中待分析关联元素的概率分布函数。
步骤2-1-6:对于文献之间的关联性,如引用与被引用关系,使用共现性计算方法即Jaccard系数矩阵方法,Jaccard系数矩阵计算公式如式(2.10)所示。
式中S(i,j)表示为文献i和文献j共同被引用的强度,cit(i)和cit(j)分别表示文献i和文献j各自被引用的频次,coc(i,j)表示文献i和文献j共同被引用的频次。
步骤2-1-7:权重系数的计算
权重系数的计算使用层次分析法(Analytic Hierarchy Process,AHP)方法获得,同时这三类权重系数满足:
wcs+wkl+ws=1
步骤2-1-8:将文献间关系强度组建成文献间关系矩阵,关系矩阵是一个方阵,其中每个元素表示文献之间的关系强度。根据具体需求,对关系矩阵进行标准化处理,以消除度量方法本身的影响或调整关系强度的尺度。
进一步地,本发明上述步骤2-2包括:
步骤2-2-1:得到关系矩阵后将其进行可视化。将数据导入关系网络可视化软件或使用程序进行可视化。
步骤2-2-2:使用FR算法(Fruchterman-Reingold)确定各节点的位置。FR算法主要由弹簧模型和能量模型组成,弹簧模型用于模拟节点之间的引力和斥力,能量模型用于计算整个图布局的能量。弹簧模型通过弹簧的拉伸和压缩来模拟节点之间的引力和斥力。弹簧模型的能量函数定义如下:
其中,Es是弹簧模型的能量n是节点数,k是弹簧的刚度系数,d(i,j)是节点i和节点j之间的距离,s(i,j)是节点i和节点j之间的理想长度。
能量模型通过考虑节点的权重来计算整个图布局的能量。每个节点都有一个权重,表示其重要性或优先级。能量模型的函数定义如下:
其中,E是全局能量模型中的能量,c表示两个点之间的静电力常数,wij是节点i和节点j两个点之间的权重。
步骤2-2-3:通过迭代FR算法优化能量函数来逐步调整节点的位置,以达到图布局的平衡状态。
进一步地,本发明上述步骤2-3包括:
步骤2-3-1:将每个节点视为一个单独的社群,利用程序让节点进行移动。
步骤2-3-2:遍历每个节点,计算将该节点移动到相邻社群时的模块化指数增益。遍历每个节点,计算该节点移动到相邻社群时的模块化指数增益
直到没有节点进一步移动,或者模块化指数增益满足停止容差条件,否则重复步骤2-3.1和步骤2-3.2。模块化指数增益/>及停止准则条件如式(2.13):
其中是模块化指数增益,Q(n+1)是节点移动后的新模块指数,Q(n)是节点移动前的旧模块指数,ε是停止容差,通常为1×10-4。
步骤2-3-3:采用Louvain算法计算模块指数公式如式(2.14):
其中,Q(n)是模块化指数,表示社群划分的质量;c是社群的索引,表示第c个社群;Σin是社群内部的连接权重之和,表示社群内节点之间的连接总权重;Σtot是节点的度数,即与节点相连的边的数量之和,表示节点的总度数;m是网络中所有边的总权重之和的一半,即m=1/2×总边权重和;ec是社群c的内部连接的比例,即ec=Σin/(2m),表示社群内部连接权重与总连接权重的比例;ac是社群c的度数之和的比例的平方,即它表示社群中节点度数之和与总度数之和的比例的平方。
步骤2-3-4:重复步骤2-3-1和步骤2-3-2,将节点移动到能够最大化模块度增益的相邻社群中,直到没有节点进一步移动。
步骤2-3-5:将每个社群视为一个单独的节点,构建新的网络。重复步骤2,直到无法继续优化模块度。
步骤2-3-6:达到最大模块度的社群划分即最终的划分结果。按所需的社群个数进行裁剪得到所需的K个主社群。
进一步地,本发明上述步骤2-4包括:
步骤2-4-1:计算节点中的中心性指标Ca(v),即节点中心度。Ca(v)计算公式如下:
其中,Cd(v)表示节点v的度中心性,Cc(v)表示节点v的接近中心性,Cb(v)表示节点v的介数中心性,Ce(v)表示节点v的特征向量中心性。
步骤2-4-2:计算度中心性Cd(v),其数学表达式如下:
Cd(v)=deg(v) (2.16)
其中,deg(v)表示节点v的度数,即与节点v相连的边的数量。
步骤2-4-3:计算接近中心性Cc(v),其数学表达式如下:
其中,d(u,v)表示节点u和节点v之间的最短路径长度。
步骤2-4-4:计算介数中心性Cb(v),其数学表达式如下:
其中,σst表示节点s和节点t之间的最短路径数量,σst(v)表示通过节点v的最短路径数量。
步骤2-4-5:计算特征向量中心性Ce(v),其数学表达式如下:
其中,λ表示最大特征值,A(u,v)表示节点u和节点v之间的连接权重,Ce(u)表示节点u的特征向量中心性。
步骤2-4-6:通过节点的中心性指标大小筛选复杂网络图中的关键节点文献。
进一步地,本发明上述步骤2-5包括:
步骤2-5-1:将文献数据集中包含与时间相关的信息,即为每个文献的节点和边添加一个时间戳属性列,用于表示文献的时间信息。
步骤2-5-2:按时间信息创建时间轴,通过软件或程序实现将节点按时间戳信息出现、消失,节点间的边按时间戳出现、消失。
进一步地,本发明上述步骤3包括:
步骤3-1:数据源选择。
以社群中的某一个主题下的关键节点,即高中心性文献作为数据源,并将数据源按照时间进行排列,以技术领域生命周期的时间界限对文献进行划分,得到p个不同时间段的文献数据源。
步骤3-2:核心文献技术质量指标选取。
文献主要包括论文和专利等形式,高价值论文的重要技术指标包括:论文引用次数、H指数、影响因子、引文评分、SJR、SNIP、Altmetric Score、下载次数和在线浏览次数、期刊排名等指标。
由单项高价值专利评估主要包括:专利引用数量(包括前引、后引)、技术影响力指数、科学关联度、技术覆盖范围、独立权利要求数、专利许可、专利权人影响力等指标体系。
不管是论文和专利文件,以及他们的具体评级指标都需要跟进详细评价模型以及数据来源进一步的选择和判断。
以高价值论文评估指标选取为例,相关的指标的详细说明如下表所示:
表为高价值论文评估指标及释义
以高价值专利价值评估指标选取为例,评估核心专利的定量指标及重要程度如下:
表为核心专利技术质量评估指标
步骤3-3:确定指标并计算每个指标的灰色关联度系数及其权重,从而得到灰色关联度,以灰色关联度作为排序的测度。
步骤3-4:计算每一行中的灰色关联度,灰色关联度公式如(2.4.4):
其中,Ri(x0,X* i)是关联度加权求和公式,用于计算待评估文献序列i在所有评估指标上的加权关联度,ωi是按AHP方法对核心文献技术质量评估指标的赋权,γ(x0(j),X* i(j))是待评估文献X* i(j)在第j个评估指标上的关联度系数。
通过将每个评估指标的关联度乘以对应的权重,并将它们加权求和,得到待评估专利序列X* i的总体灰色关联度,依据关联度大小得出在关键节点文献中的核心文献。
进一步地,本发明上述步骤3-3包括:
步骤3-3-1:建立层次结构模型,
层次结构模型包括目标层Z、准则层C以及方案层P,参照图2,在本实施例中目标层Z为核心文献,准则层C为核心文献技术质量评估指标,方案层P为待评估的文献。
步骤3-3-2:构造判断矩阵
按照要素的重要程度评定等级,为了让矩阵中的各要素的重要性能够进行定量显示,采用了矩阵判断标度(1-9标度法),如下表1所示
表1:矩阵判断标度
若元素i与元素j的重要性之比为aij,那么元素j与i的重要性之比为aji=1/aij,根据表格建立各层次判断矩阵A为:
A=(aij)n×n (2.21)
其中:aij为元素i与元素j的重要性之比。
步骤3-3-3判断矩阵的归一化
将A的每一列向量求和归一化处理,得到矩阵B
其中:bij为归一化后矩阵B各元素
步骤3-3-4计算指标权重
将B的每一行按行求和得到行权重ωi
步骤3-3-5计算最大特征根的近似值,根据公式:
λ该特征值作为最大特征根用于一致性检验。
步骤3-3-6一致性检验
人为创造的比较矩阵一般是不满足一致性的,但是在此还是把它当做一致矩阵来处理,获得一组权重,但是这组权重能不能被接受,需要进一步考量,所以需要引入一致性标准检验,其判断方法为:
第一小步,运用公式计算一致性指标C.I.(Consistency Index)。
第二小步,查表2,平均随机一致性指标R.I.(Random Index)通过矩阵阶数进行确定。
表2:平均随机一致性指标R.I.。
矩阵阶数 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
R.I. | 0 | 0 | 0.52 | 0.89 | 1.12 | 1.26 | 1.36 |
第三小步,计算一致性比例C.R.(Consistency Ratio),利用如下公式判断是否满足要求。
当C.R.<0.1时,判断矩阵达到要求,得到检验验证后的层次分析法权重ωi;若当C.R.>0.1时,判断矩阵不符合要求,则跳转到步骤40-2.2需要重新修正判断矩阵。
进一步地,本发明上述步骤3-4包括:
步骤3-4-1:构建原始数据矩阵X,每一行x是对于待评价文献的评价指标分数有n个,有m列个参考指标,因此构成m×n原始数据矩阵X。
步骤3-4-2确定参考序x0选择原始数据矩阵X中各指标数据最大值,设定为参考序列:
x0=(x01,x02,...,x0j,....,x0n) (2.30)
数据规范化处理,将数据按望大归一化方法指标通过公式(2.29)转换为望大指标。
式中,为规范化后的数据,X*即为望大归一化后的数据矩阵。
步骤3-4-3计算差矩阵D,即计算x0n与差作为差矩阵D的元素,并由此构成差矩阵D:/>
D(i,j)=|x0(j)-X*(i,j)|j·n (2.31)
步骤3-4-4求差矩阵D中的最大值M与最小值m,方法如下:
M=max(max(D)) (2.32)
m=min(min(D)) (2.33)
步骤3-4-5计算灰色关联度系数矩阵γ(x0(j),X* i(j)),使用差矩阵D及其最大值M与最小值m组成的灰色关联度系数矩阵公式(2.34)进行计算,
式中,ξ为分辨系数,ξ=0.5。
进一步地,本发明上述步骤4包括:
步骤4-1:以划分的技术领域生命周期为时间轴。也可以确定研究领域的时间范围,将其作为时间轴的基准。根据相关文献、专利或研究历史等信息来确定时间范围,并将其划分为不同的阶段或时间段。
步骤4-2:从构建的复杂关系网络中选择社群作为研究对象。
步骤4-3:根据核心文献的排序结果,选择排名靠前的核心文献进行解读和分析。通过阅读这些核心文献,识别出其中的关键技术,将这些关键技术进行梳理和记录,形成技术路径图。
步骤4-4:分析文献技术路径的演化。根据技术路径图,分析文献在不同时间段的演化趋势和变化。观察关键技术的出现、发展和衰退情况,以及技术路径的延伸和转变。通过对文献内容的比较和对时间轴上的位置关系的观察,了解技术领域在不同时间段的发展方向和趋势。
下面以江苏省智能网联测试专利为例的技术路径演化分析为例进行分析。
本发明以江苏省智能网联测试专利为例,通过智慧芽专利数据库检索平台,使用关键词组合方式进行专利检索。
首先采用检索式MAINF:((智能网联OR自动驾驶OR无人驾驶)AND(测试))AN_PROVINCE:(江苏)进行初步检索,接着根据这些数据从中重新分析与处理,组合新的检索式进行检索。经过多次迭代操作,最终确定检索式中关键词涵盖自动驾驶、智能网联、测试装备、试验方法、并发测试、V2X测试、评价方法等。为确保准确性,剔除了无关关键词(如轨道车、无人机领域)。由于本发明重点研究江苏省区域,因此在检索式中加入了搜索字段AN_PROVINCE:(江苏)对检索区域进行限制;而检索时间限定在2012年1月1日至2022年12月31日,共检索出4593条与江苏省智能网联汽车测试与评价领域专利。
根据技术领生命周期时间段的划分方法,对江苏省智能网联测试技术领域发展阶段进行划分。从图4中通过曲线图像形状,可以看出,2000—2022年间江苏省智能网联测试专利每年专利申请数量变化趋势可划分为三个不同的阶段:2000—2015年为前期探索阶段,这一时期专利申请数目相对偏低,且专利申请数量的变化幅度很小,整个产业还处于技术萌芽阶段。2016—2019年为快速增长阶段,江苏省的专利申请数量显著加速增长,从84项增加到559项,江苏省智能网联测试技术进入快速发展期。第三阶段为2020-2022年,这一阶段中专利申请数目仍有提升,产业技术创新进入下一个快速发展阶段。
本实施例仅对江苏省智能网联测试动态专利文献间的引用关系进行分析,其他的如标题、主题之间的相似强度;发明人、申请人、专利机构等之间的相关强度,均未考虑,因此是使用Jaccard系数矩阵计算公式(2.10)进行了计算,且引用关系权重为1,其余的均为0。
要建立江苏省智能网联测试动态专利引用网络,首先是将江苏省智能网联测试专利数据导出,根据专利的引用信息,筛去所有被引用专利数量小于等于1的专利引用信息,获得1778条专利引用-被引关系,涉及2990件被引专利。接着构建共被引矩阵,共被引次数矩阵为一个2990×2990的矩阵,运用Python语言对共被引次数矩阵进行处理,到Jaccard系数矩阵。
得到的部分Jaccard系数矩阵如下:
表3.7 Jaccard系数矩阵
CN106153352A | CN107103104A | CN105699095A | CN108645628A | |
CN106153352A | 0 | 0.0769 | 0.1428 | 0.009 |
CN107103104A | 0.0769 | 0 | 0 | 0 |
CN107103104A | 0.1428 | 0 | 0 | 0 |
CN108645628A | 0.009 | 0 | 0 | 0 |
接着,通过共被引关系构建共被引关系强度矩阵并将其导入Python中进行可视化,通过FR算法进行节点布局,对于布局完成的节点网络,进一步的使用专利引用网络的社群划分方法对其模块化系数进行优化,得到较好模块化结构的网络图,选择前6个社群可以较好地揭示江苏省智能网联测试的技术领域分布。接着我们通过导入带有时间戳的数据,以申请年份作为时间轴形成动态网络,在时间轴推移下的江苏省智能网联测试的技术领域分布。
进一步去分析网络中的关键节点,通过上文中的专利引用网络的分析方法,初步识别关键节点专利,获取社群大致内容。
从上文中我们得出了江苏省智能网联测试专利的技术领域主要有六大类,我们对其中智能网联实车测试技术领域为例,对其在不同阶段的核心专利进行识别。首先我们根据在专利引用网络图中,按发展阶段截取属于智能网联实车测试技术社群的高中心度的关键节点作为我们识别核心专利的数据集,如表3.10,并按照指标进行打分并做标准化处理。
表3.10关键节点数据集
表关键技术节点标准化处理后数据(部分)(2.30)(2.31)
关键技术节点数据集的灰色关联系数
结合AHP方法得到权重,通过(2.20)灰色关联度排序得到核心专利结果如下:
表3.12 2000~2015阶段实车测试核心专利及其灰色关联度
表3.132016~2019阶段实车测试核心专利及其灰色关联度
表3.142020~2022阶段实车测试核心专利及其灰色关联度
针对智能网联测试核心实车测试技术领域的核心专利进行解读,梳理出江苏省智能网联测试技术专利中,对于实车测试领域的技术演进路线如图:
在2000年~2015年这个技术萌芽时期,试验用驾驶机器人技术开始萌芽,并且在实车测试领域的核心专利中得到了体现。
随着时间的推移,进入了2016年~2019年这一快速发展时期。在这个阶段,驾驶机器人技术路径从汽车试验用气电混合式驾驶机器人进一步发展到机器人驾驶车辆的集成协调控制方法。同时,还涉及到用于汽车试验的电磁驱动驾驶机器人。这表明研究的重点逐渐从单一机器人的控制方法扩展到多机器人系统的集成协调控制,并且在汽车试验中开始采用电磁驱动驾驶机器人。
在方法技术路径上,从最初的汽车驾驶机器人的车速跟踪模糊控制方法逐渐演化为机器人驾驶车辆的集成协调控制方法,进而发展到无人驾驶车辆控制方法和无人驾驶车辆的装置和技术。这表明在该技术领域,研究重点逐渐从单一功能的车速跟踪扩展到车辆的整体控制和无人驾驶技术的研究与应用。
进入2020年~2022年,这是一个新时代的发展阶段。在这个时间段中,技术路径进一步演化,涵盖了无人驾驶车辆控制方法、装置和无人驾驶车辆,以及一种换挡机械结构的运动传递性能优化方法。这表明研究的重点逐渐从传统的机器人驾驶扩展到无人驾驶技术,融入智能化的技术。车辆控制的整体系统和换挡机械结构的优化方法出现在核心专利的行列中,也说明了技术在进一步更新。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种文献识别与技术路径演化的实现方法,其特征在于:所述方法首先是根据检索的文献划分技术领域的生命周期,再结合文献间关系构建关系网络、划分网络社群,按技术领域生命周期的发展阶段去分析各阶段中各社群的关键节点,构建核心文献评价指标体系,通过灰色关联度排序方法去对各阶段中各社群的关键节点进行核心文献识别排序,获得在各阶段中的核心文献,最后通过梳理技术路径,分析出技术领域的演化发展过程。
2.根据权利要求1所述的一种文献识别与技术路径演化的实现方法,其特征在于:所述方法包括:
步骤1:对获取的文献数据集进行统计和分析,划分所分析的技术领域生命周期;
步骤2:建立文献关系网络,划分i个社群,按技术领域的生命周期去分析不同社群的发展情况,接着获取不同阶段下第i个高中心度的文献;
步骤3:通过灰色关联度的方法,对高中心性度的文献进一步进行核心文献的识别;
步骤3-1:数据源选择;
以社群中的某一个主题下的关键节点,即高中心性文献作为数据源,并将数据源按照时间进行排列,以技术领域生命周期的时间界限对文献进行划分,得到p个不同时间段的文献数据源;
步骤3-2:核心文献技术质量指标选取;
选取核心文献技术质量指标,用于评价文献类型主要包括论文和专利形式,高价值论文的重要技术指标包括:论文引用次数、H指数、影响因子、引文评分、SJR、SNIP、AltmetricScore、下载次数和在线浏览次数、期刊排名指标,单项高价值专利评估包括:专利引用数量(包括前引、后引)、技术影响力指数、科学关联度、技术覆盖范围、独立权利要求数、专利许可、专利权人影响力指标体系;
步骤3-3:计算每个指标的灰色关联度系数及其权重,从而得到灰色关联度,以灰色关联度作为排序的测度;
步骤3-4:计算每一行中的灰色关联度,灰色关联度公式如(2.4.4):
其中,Ri(x0,X* i)是关联度加权求和公式,用于计算待评估文献序列i在所有评估指标上的加权关联度,ωi是按AHP方法对核心文献技术质量评估指标的赋权,γ(x0(j),X* i(j))是待评估文献X* i(j)在第j个评估指标上的关联度系数;
通过将每个评估指标的关联度乘以对应的权重,并将它们加权求和,得到待评估专利序列X* i的总体灰色关联度,依据关联度大小得出在关键节点文献中的核心文献;
步骤4:从核心文献中分析技术路径的演化;
步骤4-1:以划分的技术领域生命周期为时间轴,确定研究领域的时间范围,将其作为时间轴的基准,根据相关文献、专利或研究历史信息来确定时间范围,并将其划分为不同的阶段或时间段;
步骤4-2:从构建的复杂关系网络中选择社群作为研究对象;
步骤4-3:根据核心文献的排序结果,选择排名靠前的核心文献进行解读和分析,通过阅读这些核心文献,识别出其中的关键技术,将这些关键技术进行梳理和记录,形成技术路径图;
步骤4-4:分析文献技术路径的演化,根据技术路径图,分析文献在不同时间段的演化趋势和变化,观察关键技术的出现、发展和衰退情况,以及技术路径的延伸和转变,通过对文献内容的比较和对时间轴上的位置关系的观察,了解技术领域在不同时间段的发展方向和趋势。
3.根据权利要求2所述的一种文献识别与技术路径演化的实现方法,其特征在于:所述步骤1包括:
步骤1-1:收集相关技术领域的专利数据,包括每年的专利申请数量,文献发表数量;
步骤1-2:使用拟合方法,即线性回归、多项式回归,来拟合趋势线,得到拟合函数;
步骤1-3:计算拟合函数的斜率,斜率表示每年专利申请数量的变化速率,用于判断技术领域的生命周期阶段;
步骤1-4:分析拟合函数的曲线形状,根据曲线的形态特征,推断技术领域的生命周期阶段;
步骤1-5:根据斜率和曲线形状的分析,划分技术领域的生命周期阶段,生命周期阶段包括前期探索阶段、快速增长阶段、成熟阶段和衰退阶段,前期探索阶段为较少的文献发表数量或专利申请数量,快速增长阶段为文献发表数量或专利申请数量的迅速增加和活跃的技术领域活动,成熟阶段为文献发表数量或专利申请数量的稳定和相对平稳的技术领域活动,衰退阶段为文献发表数量或专利申请数量的下降和减弱的技术领域活动。
4.根据权利要求2所述的一种文献识别与技术路径演化的实现方法,其特征在于:所述步骤2包括:
步骤2-1:建立复杂网络的关系矩阵;
步骤2-2:对复杂关系矩阵进行可视化,并用FR算法对节点进行布局;
步骤2-3:对布局后的复杂网络关系图进一步进行社群划分;
步骤2-4:分析复杂关系网络各社群中的高中心性度关键节点;
步骤2-5:引入时间轴分析各社群在不同阶段的发展情况。
5.根据权利要求4所述的一种文献识别与技术路径演化的实现方法,其特征在于:所述步骤2-1包括:
步骤2-1-1:确定需要建立关系矩阵的资料对象,即为文献、专利;
步骤2-1-2:确定文献间关系的定义或度量方式,即相似度、相关性、共现关系,在文献中是论文间的引证关系,所属期刊关系,对于专利是专利引用关系、共同发明人关系、IPC分类号;
步骤2-1-3:从关系的定义或度量方式中去计算关系度量的大小,有相似度计算,相关性计算,共现性计算,对其进行加权求和,得到分析对象间的关系强度r,r计算方式如下:
r=wcscosine_similarity(A,B)+wklKL(P||Q)+wsS(i,j) (2.7)
其中cosine_similarity(A,B)是采用余弦相似度方法得到的关系强度,KL(P||Q)是采用KL散度(Kullback-Leibler Divergence)得到的关系强度,S(i,j)是Jaccard系数矩阵计算得到的关系强度,并且wcs、wkl和ws分别是针对上述三类度量方法的权重,根据具体文献的实际情况这三类度量指标并不一定同时出现,需要根据实际情况进行选择使用;
步骤2-1-4:对于不同文献标题、主题、摘要等信息之间的相似度计算,采用不同文献中的词向量之间的余弦相似度方法,计算方式(2.8)如下:
其中,A和B分别表示两篇文献中的词向量的表示形式,·表示向量的点积,|·|表示向量的范数;
步骤2-1-5:对于相关性计算,分析作者之间、单位之间、期刊之间、专利代理机构之间的关联性,采用KL散度(Kullback-Leibler Divergence)计算方法,计算公式(2.9)如下:
KL(P||Q)=∑P(x)log(P(x)/Q(x)) (2.9)
其中,P(x)和Q(x)分别表示为两篇文献中待分析关联元素的概率分布函数;
步骤2-1-6:对于文献之间的关联性,引用与被引用关系,使用共现性计算方法即Jaccard系数矩阵方法,Jaccard系数矩阵计算公式如式(2.10)所示:
式中S(i,j)表示为文献i和文献j共同被引用的强度,cit(i)和cit(j)分别表示文献i和文献j各自被引用的频次,coc(i,j)表示文献i和文献j共同被引用的频次;
步骤2-1-7:权重系数的计算;
权重系数的计算使用层次分析法(Analytic Hierarchy Process,AHP)方法获得,同时这三类权重系数满足:
wcs+wkl+ws=1
步骤2-1-8:将文献间关系强度组建成文献间关系矩阵,关系矩阵是一个方阵,其中每个元素表示文献之间的关系强度,根据具体需求,对关系矩阵进行标准化处理,以消除度量方法本身的影响或调整关系强度的尺度。
6.根据权利要求4所述的一种文献识别与技术路径演化的实现方法,其特征在于:所述2-2包括:
步骤2-2-1:得到关系矩阵后将其进行可视化,将数据导入关系网络可视化软件或使用程序进行可视化;
步骤2-2-2:使用FR算法(Fruchterman-Reingold)确定各节点的位置,FR算法由弹簧模型和能量模型组成,弹簧模型用于模拟节点之间的引力和斥力,能量模型用于计算整个图布局的能量,弹簧模型通过弹簧的拉伸和压缩来模拟节点之间的引力和斥力,弹簧模型的能量函数定义如下:
其中,Es是弹簧模型的能量n是节点数,k是弹簧的刚度系数,d(i,j)是节点i和节点j之间的距离,s(i,j)是节点i和节点j之间的理想长度;
能量模型通过考虑节点的权重来计算整个图布局的能量,每个节点都有一个权重,表示其重要性或优先级,能量模型的函数定义如下:
其中,E是全局能量模型中的能量,c表示两个点之间的静电力常数,wij是节点i和节点j两个点之间的权重;
步骤2-2-3:通过迭代FR算法优化能量函数来逐步调整节点的位置,以达到图布局的平衡状态。
7.根据权利要求4所述的一种文献识别与技术路径演化的实现方法,其特征在于:所述2-3包括:
步骤2-3-1:将每个节点视为一个单独的社群,利用程序让节点进行移动;
步骤2-3-2:遍历每个节点,计算将该节点移动到相邻社群时的模块化指数增益,遍历每个节点,计算该节点移动到相邻社群时的模块化指数增益
直到没有节点移动,或者模块化指数增益满足停止容差条件,否则重复步骤2-3-1和步骤2-3-2,模块化指数增益/>及停止准则条件如式(2.13):
其中是模块化指数增益,Q(n+1)是节点移动后的新模块指数,Q(n)是节点移动前的旧模块指数,ε是停止容差,通常为1×10-4,
步骤2-3-3:采用Louvain算法计算模块指数公式如式(2.14):
其中,Q(n)是模块化指数,表示社群划分的质量;c是社群的索引,表示第c个社群;Σin是社群内部的连接权重之和,表示社群内节点之间的连接总权重;Σtot是节点的度数,即与节点相连的边的数量之和,表示节点的总度数;m是网络中所有边的总权重之和的一半,即m=1/2×总边权重和;ec是社群c的内部连接的比例,即ec=Σin/(2m),表示社群内部连接权重与总连接权重的比例;ac是社群c的度数之和的比例的平方,即它表示社群中节点度数之和与总度数之和的比例的平方;
步骤2-3-4:重复步骤2-3-1和步骤2-3-2,将节点移动到能够最大化模块度增益的相邻社群中,直到没有节点移动;
步骤2-3-5:将每个社群视为一个单独的节点,构建新的网络,重复步骤2,直到无法继续优化模块度;
步骤2-3-6:达到最大模块度的社群划分即最终的划分结果,按所需的社群个数进行裁剪得到所需的K个主社群;
所述步骤2-4包括:
步骤2-4-1:计算节点中的中心性指标Ca(v),即节点中心度,Ca(v)计算公式如下:
其中,Cd(v)表示节点v的度中心性,Cc(v)表示节点v的接近中心性,Cb(v)表示节点v的介数中心性,Ce(v)表示节点v的特征向量中心性;
步骤2-4-2:计算度中心性Cd(v),其数学表达式如下:
Cd(v)=deg(v) (2.16)
其中,deg(v)表示节点v的度数,即与节点v相连的边的数量;
步骤2-4-3:计算接近中心性Cc(v),其数学表达式如下:
其中,d(u,v)表示节点u和节点v之间的最短路径长度;
步骤2-4-4:计算介数中心性Cb(v),其数学表达式如下:
其中,σst表示节点s和节点t之间的最短路径数量,σst(v)表示通过节点v的最短路径数量;
步骤2-4-5:计算特征向量中心性Ce(v),其数学表达式如下:
其中,λ表示最大特征值,A(u,v)表示节点u和节点v之间的连接权重,Ce(u)表示节点u的特征向量中心性;
步骤2-4-6:通过节点的中心性指标大小筛选复杂网络图中的关键节点文献。
8.根据权利要求2所述的一种文献识别与技术路径演化的实现方法,其特征在于:所述步骤3-4灰色关联度计算步骤包括:
步骤3-4-1:构建原始数据矩阵X,每一行x是对于待评价文献的评价指标分数有n个,有m列个参考指标,因此构成m×n原始数据矩阵X;
步骤3-4-2确定参考序x0选择原始数据矩阵X中各指标数据最大值,设定为参考序列:
x0=(x01,x02,...,x0j,....,x0n) (2.30)
数据规范化处理,将数据按望大归一化方法指标通过公式(2.29)转换为望大指标;
式中,为规范化后的数据,X*即为望大归一化后的数据矩阵;
步骤3-4-3计算差矩阵D,即计算x0n与差作为差矩阵D的元素,并由此构成差矩阵D:
步骤3-4-4求差矩阵D中的最大值M与最小值m,方法如下:
M=max(max(D)) (2.32)
m=min(min(D)) (2.33)
步骤3-4-5计算灰色关联度系数矩阵γ(x0(j),X* i(j)),使用差矩阵D及其最大值M与最小值m组成的灰色关联度系数矩阵公式(2.34)进行计算,
式中,ξ为分辨系数,ξ=0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310854426.2A CN117112784A (zh) | 2023-07-13 | 2023-07-13 | 一种文献识别与技术路径演化的实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310854426.2A CN117112784A (zh) | 2023-07-13 | 2023-07-13 | 一种文献识别与技术路径演化的实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117112784A true CN117112784A (zh) | 2023-11-24 |
Family
ID=88811732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310854426.2A Pending CN117112784A (zh) | 2023-07-13 | 2023-07-13 | 一种文献识别与技术路径演化的实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117112784A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634502A (zh) * | 2024-01-26 | 2024-03-01 | 中国农业科学院农业信息研究所 | 技术机会识别方法、装置、计算机设备及存储介质 |
-
2023
- 2023-07-13 CN CN202310854426.2A patent/CN117112784A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634502A (zh) * | 2024-01-26 | 2024-03-01 | 中国农业科学院农业信息研究所 | 技术机会识别方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lubis et al. | Optimization of distance formula in K-Nearest Neighbor method | |
CN110110094B (zh) | 基于社交网络知识图谱的跨网络人物关联方法 | |
CN108073568B (zh) | 关键词提取方法和装置 | |
US7660459B2 (en) | Method and system for predicting customer behavior based on data network geography | |
CN117112784A (zh) | 一种文献识别与技术路径演化的实现方法 | |
CN115688024A (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN113807900A (zh) | 一种基于贝叶斯优化的rf订单需求预测方法 | |
Lu et al. | Crowdsourcing evaluation of saliency-based XAI methods | |
Xiyang et al. | A combined deep learning model for damage size estimation of rolling bearing | |
Kumar et al. | A novel fuzzy rough sets theory based cf recommendation system | |
Ikematsu et al. | A fast method for detecting communities from tripartite networks | |
Çakıt et al. | Comparative analysis of machine learning algorithms for predicting standard time in a manufacturing environment | |
Gunawan et al. | C4. 5, K-Nearest Neighbor, Naïve Bayes, and Random Forest Algorithms Comparison to Predict Students' on TIME Graduation | |
Kuznietsova et al. | Business Intelligence Techniques for Missing Data Imputations | |
van Weert | Predicting Academic Success Using Academic Genealogical Data, a Data Science Approach | |
Sridhar et al. | Extending Deep Neural Categorisation Models for Recommendations by Applying Gradient Based Learning | |
Li et al. | Compilation of cutting load spectrum for CNC lathe based on DBN-BP prediction model | |
Di Thommazo et al. | Using artificial intelligence techniques to enhance traceability links | |
Nababan et al. | Prediction Of Hotel Booking Cancellation Using K-Nearest Neighbors (K-Nn) Algorithm And Synthetic Minority Over-Sampling Technique (Smote) | |
Pazahr | Increasing the Accuracy of Recommender Systems Using the Combination of K-Means and Differential Evolution Algorithms | |
He et al. | Recommendation algorithm based on restricted Boltzmann machine and item type | |
Shen et al. | Investment time series prediction using a hybrid model based on RBMs and pattern clustering | |
CN109408782B (zh) | 基于kl距离相似性度量的研究热点演变行为检测方法 | |
Shchepina et al. | Modeling the trajectories of interests and preferences of users in digital social systems | |
Gupta et al. | Recommendations through click stream: Tracking the need, current work and future directions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |