CN109213869A

CN109213869A - 基于多源数据的热点技术预测方法

Info

Publication number: CN109213869A
Application number: CN201710521012.2A
Authority: CN
Inventors: 刘淇; 陈恩红; 曾宪宇; 武晗; 朱洪渊
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2019-01-15
Anticipated expiration: 2037-06-29
Also published as: CN109213869B

Abstract

一种基于多源数据的热点技术预测方法，包括：获取多源数据；根据所述多源数据筛选技术词汇和应用词汇；针对每一所述技术词汇和应用词汇，按照时间统计其在所述多源数据中出现的比例得到一时序序列；挖掘技术词汇和技术词汇之间以及技术词汇和应用词汇之间的依赖关系，根据所述依赖关系构建有向图；根据所述时序序列和有向图据预测热点技术。

Description

基于多源数据的热点技术预测方法

技术领域

本发明涉及网络信息处理领域，尤其涉及到一种基于多源数据的热点技术预测方法。

背景技术

随着人们对于各个学科领域研究的深入，越来越多的技术方向被提出，例如，近年来极大的吸引人们关注的数据挖掘领域内就包括推荐算法设计、社交网络分析、用户画像构建等具体方向。如何发现领域内一些有较高的潜力和价值的研究方向是一个重要的问题，于研究方向本身而言，及时的指出高潜力和价值的研究方向将会促使更多的研究者投入相应的领域，促进领域的整体进步和发展；而于研究者而言，帮助其发现相应的高潜力研究方向可以促进其本身做出更有价值的工作。因此，构建一种能够广泛运用的热点技术预测方法具有重要的意义和作用。

目前传统的热点技术发现方法主要有两类：第一种是由资深研究人员根据其经验和积累进行寻找和判断，这种方式极其依赖研究人员的自身水平和素质，通常来说具有丰富经验的研究人员能够更容易的发现和指出热点技术，而这种经验需要常年的积累，因此不具有推广性；第二种是根据相关技术文献或者词语出现比例的统计信息进行发现，例如相关领域词汇出现比例的上升意味着该种技术研究方向正在成为热点，这种方法发现的热点技术具有一定的滞后性，因为相关技术文献的出版和统计信息通常晚于技术人员的研究时间。

相关技术能否成为热点主要与两方面的因素有关：一是其前驱技术是否已经完善，只有在前驱技术已经趋于完善的基础上，相关的后续技术才能够有效地被研究和发展，例如目前正被追捧的深度学习和神经网络，其实早在上个世纪就被提出，而最近十年才被人们广泛的认可和研究，其主要原因就是近些年来GPU计算技术的发展帮助其解决了计算困难的问题；二是相关的应用是否即将或者已经广泛被人们接受，被广泛接受的应用背后涉及到的相关技术才能更容易的引起相关企业和研发机构的热情，从而成为热点，例如在国内已被广泛研究和运用的移动支付技术，在很多发达国家并没有成为主流应用研究热点，主要原因就是在很多发达国家信用支付已经成为主流，相关公司和机构的动力和意愿不足。

发明内容

鉴于现有方案存在的问题，为了克服上述现有技术方案的不足，本发明提出了一种基于多源数据的热点技术预测方法。

根据本发明的一个方面，提供了一种基于多源数据的热点技术预测方法，包括：获取多源数据；根据所述多源数据筛选技术词汇和应用词汇；针对每一所述技术词汇和应用词汇，按照时间统计其在所述多源数据中出现的比例得到一时序序列；挖掘技术词汇和技术词汇之间以及技术词汇和应用词汇之间的依赖关系，根据所述依赖关系构建有向图；根据所述时序序列和有向图据预测热点技术。

在本发明的一些实施例中，根据序列匹配算法挖掘所述依赖关系，第一词汇的序列P和第二词汇的序列Q之间的互相关函数R(t)为：

其中，P＝[p₁，p₂，p₃，...，p_m]和Q＝[q₁，q₂，q₃，...，q_m]，P(i)和R(i)分别表示相应词汇在相应序列上第i个位置的在数据资源中出现的比例值，i为任一整数，m为正整数，当1≤i≤m时，P(i)＝q_i，Q(i)＝q_i，当i＜1或i＞m时，相应的值P(i)和Q(i)均为0，R(t)表示将序列P平移t个时间单位后与序列Q的相关性，根据第一词汇的序列P和第二词汇的序列Q之间的互相关函数R(t)计算两序列之间的最佳匹配位置t_p和最佳响应R_PQ：

t_p＝arg max_tR(t)，R_PQ＝max_tR(t)。

在本发明的一些实施例中，挖掘技术词汇和技术词汇之间以及技术词汇和应用词汇之间的依赖关系，根据所述依赖关系构建有向图包括：针对每一技术词汇，选取与其时序序列之间具有最大的M个最佳匹配位置和最佳响应的时序序列对应的词汇作为与该技术词汇有相似性和依赖性的技术词汇或者应用词汇；根据该技术词汇与选取的技术词汇或者应用词汇之间的最佳匹配位置构建该技术词汇与选取的技术词汇或者应用词汇之间的箭头连线，若该技术词汇与选取的技术词汇或者应用词汇之间的最佳匹配位置为正，则箭头指向选取的技术词汇或者应用词汇，若该技术词汇与选取的技术词汇或者应用词汇之间的最佳匹配位置为负，则箭头指向该技术词汇，构建所述有向图。

在本发明的一些实施例中，根据所述时序序列和有向图据预测热点技术包括：利用IS HOT算法在筛选出的应用词汇中选择正在或者即将成为热点的应用，并记它们构成的集合为K＝{k₁，k₂，k₃，......}；以及利用热点技术预判算法预测即将成为热点的技术。

在本发明的一些实施例中，所述IS HOT算法能根据任一技术词汇或应用词汇的时序序列，判断该技术是否正在或者即将被广泛研究或者该应用是否已经或者即将成为热点，所述IS HOT算法包括：对于任一词汇的时序序列P＝[p₁，p₂，p₃，...，p_m]，设定判断阈值α和β，若p_m＞α或者则输出结构为True，判定该词汇对应的技术正在或者即将被广泛研究，或者该词汇对应的应用已经或即将成为热点，否则输出结果为False。

在本发明的一些实施例中，所述热点技术预判算法包括：利用IS HOT算法在筛选出的技术词汇中选择已经或者即将被广泛研究的技术词汇J；利用IS HOT算法判断该技术词汇J在所述有向图中对应的每一后节点J_b进行运算，判断该技术词汇J所有的节点J_b是否全部输出为TRUE，若是，则将该技术词汇J作为预测热点的备选；对于备选的技术词汇J，据前述的有向图选定其对应的前节点J_f，判断其对应的前节点是否全部位于集合K，若是在判断技术词汇J为预测热点。

在本发明的一些实施例中，根据所述多源数据筛选技术词汇和应用词汇包括：采用TF-IDF算法对多源数据的文档进行分析提取得到侯选关键词。

在本发明的一些实施例中，TF-IDF算法包括：利用jieba分词工具包对文档的摘要和全文进行分词，并去除掉无意义的无关词语；统计每个词语出现的文档数，将一单词w_i出现的文档数记为N_i，总文档数记为N，则w_i的IDF值为对任一篇文档t_j来说，w_i在t_j中出现的次数记为TF(w_i，t_j)，则w_i相对于文档t_j的TF-IDF值为TF-IDF(w_i，t_j)＝TF(w_i，t_j)*IDF(w_i)，对每篇文档中的单词计算其TF-IDF值，按照其大小排列，每篇文档选取最高的k个TF-IDF值可以得到每篇文档的k个关键词，所述候选关键词包括获得的每篇文档的关键词。

在本发明的一些实施例中，根据所述多源数据筛选技术词汇和应用词汇还包括：对所述候选关键词进行筛选获得技术词汇和应用词汇。

在本发明的一些实施例中，获取多源数据包括利用网络爬虫爬取学术论文和科技新闻数据。

从上述技术方案可以看出，本发明具有以下有益效果：

基于多源数据中的词汇的依赖关系预测热点技术，具有预测时效性，且预测准确率高；

根据序列匹配算法挖掘词汇之间的依赖关系，去除了人为干扰因素，提高预测准确率；

本发明预测热点技术的方法主要采用了客观的计算方式，适用于应用计算机完成。

附图说明

图1为本发明一实施例中基于多源数据的热点技术预测方法的流程图；

图2为本发明一实施例中相关词汇出现比例的时序序列的示例图；

图3为本发明实施例的有向图的一个示例图。

具体实施方式

本发明某些实施例于后方将参照所附附图做更全面性地描述，其中一些但并非全部的实施例将被示出。实际上，本发明的各种实施例可以许多不同形式实现，而不应被解释为限于此数所阐述的实施例；相对地，提供这些实施例使得本发明满足适用的法律要求。

在本说明书中，下述用于描述本发明原理的各种实施例只是说明，不应该以任何方式解释为限制发明的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。下述描述包括多种具体细节来帮助理解，但这些细节应认为仅仅是示例性的。因此，本领域普通技术人员应认识到，在不背离本发明的范围和精神的情况下，可以对本文中描述的实施例进行多种改变和修改。此外，为了清楚和简洁起见，省略了公知功能和结构的描述。此外，贯穿附图，相同附图标记用于相似功能和操作。

本发明提供一种基于多源数据的热点技术预测方法，包括：获取多源数据；根据所述多源数据筛选技术词汇和应用词汇；针对每一所述技术词汇和应用词汇，根据其在所述多源数据中出现的比例得到一时序序列；挖掘词汇之间的依赖关系，根据所述依赖关系构建有向图；以及根据所述时序序列和有向图据预测热点技术。

本发明通过文本处理技术与序列分析技术综合考虑到不同技术之间的发展依赖关系，相关应用的普及情况，对相关技术研究的热度进行预测。只有在前驱依赖技术已完善且相关应用即将或已经成为热点时，相关技术才能在某种程度上有成为热点的可能，该预测热点技术的方法主要采用了客观的计算方式，适用于应用计算机完成，且极大限度地排除了人为主观因素，可以进行客观的预测，准确率高。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为本发明一实施例中基于多源数据的热点技术预测方法的流程图，如图1所示，该基于多源数据的热点技术预测方法具体包括以下步骤：

S100获取多源数据。

本实施例中，利用网络爬虫爬取学术论文和科技新闻数据并在本地存储，利用Python的Scrapy框架，定制了专门的分布式网络爬虫，能够保证快速且有效地对相应数据进行爬取，该爬虫以一个指定的URL为起点，沿着其页内的链接对相应的论文和新闻进行爬取，将数据存储于本地的MongoDB数据库中。

在学术论文方面，本实施例中选取了ACM和IEEE的信息科技类论文作为数据源，在其他实施例中还可以选取其他数据源，首先指定一篇文档的URL，从该URL对应的页面中解析获取文档的相关信息，包括ID、题目、摘要、关键词、出版年限等，同时根据页内的相关引用和其他链接信息得到数据库中其他文档的URL，将这些URL作为后续爬取的目标，利用这种迭代的方式可以获取到大量学术论文的信息，具体的存储字段如表1所示：

表1

ID

题目

作者

摘要

关键词

全文

出版年份

对于科技新闻数据，本实施例选取了包括BBC新闻、CNET新闻等多家权威网站的科技板块作为数据源，在其他实施例中还可以选取其他数据源。通过分析每个网站的URL和页内链接规则，针对每个网站定制不同的爬取策略。首先针对每个网站给定一个初始的URL，爬取该URL对应的新闻，包括标题、作者、全文、发布时间等。同时根据分析得到的链接规则，分析出该页内包含的其他站内科技新闻的链接，将这些链接做为待爬取的链接，按照这种迭代方式可以爬取到各大新闻网站的发布过的新闻记录，具体的存储字段如表2所示：

表2

ID	题目	全文	发布时间

本实施例中爬取的学术论文和科技新闻数据即为本发明所依赖的多源数据，它们存储在本地的MongoDB数据库中供后续使用。

S200根据所述多源数据筛选技术词汇和应用词汇；

具体地，按照机器结合人工的方式识别出技术和应用词汇，技术词汇和应用词汇的来源有两种，分别是每篇学术论文对应的关键词和采用TF-IDF算法对多源数据的文档进行分析提取得到的关键词。

以从学术论文中提取关键词为例，利用TF-IDF分析的具体过程如下：

1)利用jieba分词工具包对文档的摘要和全文进行分词，并去除掉无意义的介词、叹词等无关词语；

2)统计每个词语出现的文档数，将一单词w_i出现的文档数记为N_i，总文档数记为N，则w_i的IDF值为对任一篇文档t_j来说，w_i在t_j中出现的次数记为TF(w_i，t_j)，则w_i相对于文档t_j的TF-IDF值为TF-IDF(w_i，t_j)＝TF(w_i，t_j)*IDF(w_i)，对每篇文档中的单词计算其TF-IDF值，按照其大小排列，每篇文档选取最高的k个TF-IDF值可以得到每篇文档的k个关键词。

将每篇文档的关键词汇总，作为本发明实施例中技术和应用词汇的候选集合。在按照上述方式得到所有的候选关键词后，本实施例采用人工的方式对其进行处理，筛选出合适的技术词汇和应用词汇。

S300针对每一所述技术词汇和应用词汇，按照时间统计其在所述多源数据中出现的比例得到一时序序列；

具体地，得到相应的技术和应用词汇后，即可按照时间统计相应的词汇在数据资源中出现的比例作为时序序列，本实施例中采用年份来统计。根据统计的时序序列，技术词汇在多源数据，尤其是学术论文数据之中出现比例的时序序列，其可以反映出技术之间的相互联系和依赖关系；应用词汇在多源数据，尤其是学术论文数据之中出现比例的时序序列，其可以结合技术词汇出现的情况反映出应用于技术之间的相互依赖关系；应用词汇在多源数据，尤其是科技新闻数据之中出现比例的时序序列，其可以反映出相关应用的发展情况。

S400挖掘词汇之间的依赖关系，根据所述依赖关系构建有向图。

具体地，利用序列匹配算法挖掘相应技术词汇与应用之间的依赖关系；

技术和技术之间，技术与应用之间存在着一定的依赖性和相关性：对于某项技术来说，只有其前驱技术已被研究完善，该技术才能被有效地发展；而对某个应用来说，只有在其依赖的技术被研究成熟的基础上，该应用才会真正的发展。这种技术与技术、技术与应用之间的相似性和依赖性反映在步骤300中得到时序序列上具有一定的相关性和滞后性。

图2为相关词汇出现比例的时序序列的示例图，可以看到，词汇A和词汇B出现的比例曲线具有很强的相似性，且词汇B早于词汇A，这说明A所对应的技术很可能依赖于词汇B所对应的技术，根据这种序列相关性可以挖掘出技术与技术、技术与应用之间的依赖关系。

本实施例中利用互相关函数来计算任意两个词汇的序列之间的相似度，其是两个序列之间一个关于时间的函数，也被称为滑动点积。利用互相关函数可以找到两个序列之间的最佳匹配位置和响应，将之作为二者相似性的衡量标准。

设第一词汇和第二词汇的序列分别为P＝[p₁，p₂，p₃，...，p_m]和Q＝[q₁，q₂，q₃，...，q_m]，P(i)和Q(i)分别表示相应词汇在相应序列上第i个位置(时间点)的在数据资源中出现的比例值，即当1≤i≤m时，P(i)＝q_i，Q(i)＝q_i，i并不局限为1，2，3……m，可以为任一整数，若i超出序列的统计的时间段范围即i＜1或i＞m时，相应的值P(i)和Q(i)取0，序列P与Q之间的互相关函数R(t)如下式：

其表示将P平移t个时间单位后与Q的相关性。

通过上述依赖关系对所有词汇构建一个异构的有向图，图上节点分为应用词汇与技术词汇两类。

具体地，利用上面给出的互相关函数R(t)，对于任意一个技术词汇，采用如下方式计算其与其他技术词汇和应用词汇之间的最佳匹配位置和响应。

根据第一词汇和第二词汇的序列P与Q之间的互相关函数R(t)，可以得到序列P与Q的最佳匹配位置t_p和最佳响应R_PQ：

t_p＝arg max_tR(t)，R_PQ＝max_tR(t)。

即最佳响应R_PQ为R(t)取最大值，最佳匹配位置t_p为最佳响应R_PQ时的t值。

选取与每一技术词汇的时序序列之间具有最大的M个最佳匹配位置和响应的时序序列对应的词汇作为与该技术词汇有相似性和依赖性的技术词汇或者应用词汇，M为正整数，M可以大于等于5，本实施例中M＝10，对于每一技术词汇和选取的技术词汇或者应用词汇，由最佳匹配位置t_p的正负判断相应词汇之间的依赖关系，若t_p＞0，则Q依赖P，在构建的有向图上有一条P指向Q的边；若t_p＞0，则P依赖Q，在构建的有向图上有一条Q指向P的边。

根据上述步骤构建出一个异构的有向图，图上节点有技术节点和应用节点两类，一个技术节点可以指向一个或多个技术节点或者应用节点。图3为本发明实施例的有向图的一个示例图，图3可以视为一个类似的拓扑关系图，其中，服务机器人是一个应用节点，它依赖于机械控制、语音识别、人机对话等三方面的技术，而其中的人机对话技术又依赖于语义理解这一技术。按照上述方法可以有效地构建出这种表明技术与技术之间、技术与应用之间的关系的有向图。

S500根据所述时序序列和有向图据预测热点技术。

整体上，根据应用词汇的时序序列，发现热点或正处于上升趋势的应用，同时根据应用-技术异构网络的有向图，能够发现与该应用相关的技术，这些技术很可能成为热点研究方向。

一个能成为热点研究方向的技术满足两个条件：一是其所依赖的前驱技术已经被完善研究；二是该技术或者该技术所导向的其他技术能够被广泛的应用。这些都可以综合前述得到的相应词汇的有向图图和时序序列得的。

具体地，本步骤可以包括以下步骤：

S501利用IS HOT算法在筛选出的应用词汇中选择已经或者即将成为热点的应用记它们构成的集合为K＝{k₁，k₂，k₃，......}。

IS HOT算法可根据任一技术词汇或应用词汇的时序序列，判断该技术是否正在或者即将被广泛研究或者该应用是否已经或者即将成为热点。

对于任一词汇的时序序列P＝[p₁，p₂，p₃，...，p_m]，设定判断阈值α和β，

若p_m＞α或者则输出结构为True，判定该词汇对应的技术正在或者即将被广泛研究，或者该词汇对应的应用已经或即将成为热点，否则输出结果为False。

对于已经成熟的应用或技术来说，有p_m＞α，对于即将成熟的应用或技术来说有参数α和β通过对数据的具体统计和分析得到。

S502利用热点技术预判算法预测即将成为热点的技术。

热点技术预判算法具体如下，

利用IS HOT算法在筛选出的技术词汇中选择已经或者即将被广泛研究的技术词汇J；

对于每一技术词汇J，根据前述的有向图选定其对应的后节点J_b，后节点J_b即为与技术词汇J连接的，且接头指向J的节点。

利用IS HOT算法判断该技术词汇J的每一后节点J_b进行运算，判断该技术词汇J所有的节点J_b是否全部输出为TRUE，若是，则将该技术词汇J作为预测热点的备选。

对于备选的技术词汇J，据前述的有向图选定其对应的前节点J_f，前节点J_f即为与技术词汇J连接的，且接头背向J的节点，判断其对应的前节点是否全部位于集合K，若是在判断技术词汇J为预测热点。

需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多源数据的热点技术预测方法，其中，包括：

获取多源数据；

根据所述多源数据筛选技术词汇和应用词汇；

针对每一所述技术词汇和应用词汇，按照时间统计其在所述多源数据中出现的比例得到一时序序列；

挖掘技术词汇和技术词汇之间以及技术词汇和应用词汇之间的依赖关系，根据所述依赖关系构建有向图；以及

根据所述时序序列和有向图据预测热点技术。

2.根据权利要求1所述的热点技术预测方法，其中，根据序列匹配算法挖掘所述依赖关系，第一词汇的序列P和第二词汇的序列Q之间的互相关函数R(t)为：

其中，P＝[p₁，p₂，p₃，...，p_m]和Q＝[q₁，q₂，q₃，...，q_m]，P(i)和R(i)分别表示相应词汇在相应序列上第i个位置在数据资源中出现的比例值，i为任一整数，m为正整数，当1≤i≤m时，P(i)＝q_i，Q(i)＝q_i，当i＜1或i＞m时，相应的值P(i)和Q(i)均为0，R(t)表示将序列P平移t个时间单位后与序列Q的相关性，根据第一词汇的序列P和第二词汇的序列Q之间的互相关函数R(t)计算两序列之间的最佳匹配位置t_p和最佳响应R_PQ：

t_p＝arg max_tR(t)，R_PQ＝max_tR(t)。

3.根据权利要求2所述的热点技术预测方法，其中，挖掘技术词汇和技术词汇之间以及技术词汇和应用词汇之间的依赖关系，根据所述依赖关系构建有向图包括：

针对每一技术词汇，选取与其时序序列之间具有最大的M个最佳匹配位置和最佳响应的时序序列对应的词汇作为与该技术词汇有相似性和依赖性的技术词汇或者应用词汇；

根据该技术词汇与选取的技术词汇或者应用词汇之间的最佳匹配位置构建该技术词汇与选取的技术词汇或者应用词汇之间的箭头连线，若该技术词汇与选取的技术词汇或者应用词汇之间的最佳匹配位置为正，则箭头指向选取的技术词汇或者应用词汇，若该技术词汇与选取的技术词汇或者应用词汇之间的最佳匹配位置为负，则箭头指向该技术词汇，构建所述有向图。

4.根据权利要求3所述的热点技术预测方法，其中，根据所述时序序列和有向图据预测热点技术包括：

利用IS HOT算法在筛选出的应用词汇中选择正在或者即将成为热点的应用，并记它们构成的集合为K＝{k₁，k₂，k₃，......}；以及

利用热点技术预判算法预测即将成为热点的技术。

5.根据权利要求4所述的热点技术预测方法，其中，所述IS HOT算法能根据任一技术词汇或应用词汇的时序序列，判断该技术是否正在或者即将被广泛研究或者该应用是否已经或者即将成为热点，所述IS HOT算法包括：

6.根据权利要求4所述的热点技术预测方法，其中，所述热点技术预判算法包括：

利用IS HOT算法判断该技术词汇J在所述有向图中对应的每一后节点J_b进行运算，判断该技术词汇J所有的节点J_b是否全部输出为TRUE，若是，则将该技术词汇J作为预测热点的备选；

对于备选的技术词汇J，据前述的有向图选定其对应的前节点J_f，判断其对应的前节点是否全部位于集合K，若是在判断技术词汇J为预测热点。

7.根据权利要求1所述的热点技术预测方法，其中，根据所述多源数据筛选技术词汇和应用词汇包括：

采用TF-IDF算法对多源数据的文档进行分析提取得到侯选关键词。

8.根据权利要求7所述的热点技术预测方法，其中，TF-IDF算法包括：

利用jieba分词工具包对文档的摘要和全文进行分词，并去除掉无意义的无关词语；

统计每个词语出现的文档数，将一单词w_i出现的文档数记为N_i，总文档数记为N，则w_i的IDF值为对任一篇文档t_j来说，w_i在t_j中出现的次数记为TF(w_i，t_j)，则w_i相对于文档t_j的TF-IDF值为TF-IDF(w_i，t_j)＝TF(w_i，t_j)*IDF(w_i)，对每篇文档中的单词计算其TF-IDF值，按照其大小排列，每篇文档选取最高的k个TF-IDF值可以得到每篇文档的k个关键词，

所述候选关键词包括获得的每篇文档的关键词。

9.根据权利要求7所述的热点技术预测方法，根据所述多源数据筛选技术词汇和应用词汇还包括：

对所述候选关键词进行筛选获得技术词汇和应用词汇。

10.根据权利要求1所述的热点技术预测方法，其中获取多源数据包括利用网络爬虫爬取学术论文和科技新闻数据。