CN113220855B

CN113220855B - 基于it技术问答网站的计算机技术领域发展趋势分析方法

Info

Publication number: CN113220855B
Application number: CN202110585021.4A
Authority: CN
Inventors: 万志远; 王懿丰; 杨小虎
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-07-22
Anticipated expiration: 2041-05-27
Also published as: CN113220855A

Abstract

本发明公开了一种基于IT技术问答网站的计算机技术领域发展趋势分析方法，包括：识别技术领域关键字；以关键字为初始输入，识别IT技术问答网站上与该技术领域相关的标签，基于标签提取并过滤该技术领域的相关帖子；按照领域内的不同技术平台划分数据集；从该技术领域的多项代表性技术平台中，提取该技术领域的参考架构；在每一个子数据集上采用LDA主题模型对数据集进行聚类，其中以梯度式搜索方法确定最佳主题数量；将主题与参考架构进行映射，确定主题名称；设置评估指标，分析该技术领域内不同主题、不同层次的知识的发展趋势。本发明以IT技术问答网站中某技术领域知识的帖子为数据集，分析该技术领域知识的发展趋势。

Description

基于IT技术问答网站的计算机技术领域发展趋势分析方法

技术领域

本发明涉及计算机大数据分析技术领域，具体涉及一种基于IT技术问答网站的计算机技术领域发展趋势分析方法。

背景技术

IT技术问答网站是计算机领域从业者常用的技术知识交流平台，网站中通常包含了数以百万计的帖子，涵盖编程、移动、安全、算法等与软件开发和维护相关的主题。其参与者中有相当一部分人在不同的领域有着深厚的专业知识。开发人员会询问关于各种领域的技术问题，主题多样。因此，IT技术问答网站成为了计算机各个技术领域的知识库，其丰富的数据集也成为研究者们重要的研究对象，Stack Overflow问答网站便是其中之一。

参考架构描述了某个技术领域的重要组件以及各个组件的关系，它为软件系统建立了一个共同的机制，以提高系统及各组件之间的互操作性，为特定领域的软件系统提供了通用构件、体系结构样式和领域词汇表等，有助于统一体系结构的描述。已有的经典参考架构包括计算机网络的参考体系模型等。

主题模型是一种从给定文本语料库中确定其主题的数据分析模型，它将文档视为主题的概率分布，将主题视为单词的概率分布。潜在狄利克雷分布(latent Dirichletallocation，简称LDA)主题模型是著名的主题模型之一，它以文档词汇矩阵a(a_ij表示第j个词汇在第i个文档中出现的次数)为输入，得出文档主题矩阵b(b_ij表示第i个文档属于第j个主题的概率)与主题词汇矩阵c(c_ij表示第j个词汇属于第i个主题主题的概率)，将每个帖子属于的最高概率的主题作为该帖子的主题，再将分配同一主题的帖子分为一组。LDA主题模型已被大量应用于分析技术领域的信息数据，并为软件工程提供经验。

发明内容

本发明提出一种基于IT技术问答网站的计算机技术领域发展趋势分析方法，以IT技术问答网站中某技术领域知识的帖子为数据集，提取该技术领域的参考架构，采用潜在狄利克雷分布(latent Dirichlet allocation，简称LDA)主题模型进行聚类，获取该技术领域内各个主题、各个层次的知识讨论情况，通过设置各项评估指标，分析该技术领域知识的发展趋势。

一种基于IT技术问答网站的计算机技术领域发展趋势分析方法，该方法包括以下步骤：

步骤1：数据采集与划分，具体包括：

识别技术领域关键字，以关键字为输入识别技术领域标签，提取该技术领域的标签，基于标签提取并过滤IT技术问答网站中该技术领域的相关帖子，获取数据集，随后按照目标领域的不同技术平台划分数据集，形成多个子数据集。

步骤2：提取技术领域的参考架构。

步骤3：确定主题与数据处理，具体包括：

对步骤1得到的数据集进行预处理，以一种优化的梯度式搜索方法确定LDA主题模型的最佳主题数量，随后分别在每个子数据集上采用LDA主题模型对子数据集按主题进行聚类，并自动化命名主题；

步骤4：将步骤3获得的主题与步骤2获得的该技术领域的参考架构进行匹配；

步骤5：设置评估指标进行度量，分析技术领域的知识发展趋势。

本发明中，以IT技术问答网站中某技术领域知识的帖子为数据集，分析该技术领域知识的发展趋势。所述方法包括：针对某技术领域，识别该技术领域关键字；以关键字为初始输入，识别IT技术问答网站上与该技术领域相关的标签，基于标签提取并过滤该技术领域的相关帖子；按照领域内的不同技术平台划分数据集；从该技术领域的多项代表性技术平台中，提取该技术领域的参考架构；在每一个子数据集上采用LDA主题模型对数据集进行聚类，其中以梯度式搜索方法确定最佳主题数量；将主题与参考架构进行映射，确定主题名称；设置评估指标，分析该技术领域内不同主题、不同层次的知识的发展趋势。

进一步地，步骤1中，识别技术领域关键字，以关键字为输入识别技术领域标签，提取该技术领域的标签，具体包括：

识别目标技术领域的关键字，以关键字为输入，提取IT技术问答网站中该技术领域内所有帖子的候选标签，对于每个候选标签t，计算该技术领域内包含候选标签t的问题帖数量a、所有领域内包含候选标签t的问题帖数量b、该技术领域内的问题帖总数c，令E_tag＝a/b,表示候选标签t与该技术领域知识的相关程度，令S_tag＝a/c，表示包含候选标签t的帖子数量在该技术领域帖子中的占比，通过设置E_tag、S_tag不同的阈值，筛选提取该技术领域的标签。

E_tag的值较小意味着该候选标签常常出现在其他领域中，S_tag的值较小则意味着该标签在该领域内不常出现，因此设置不同的阈值T₁、T₂，当某个标签计算的E_tag值小于T₁或S_tag值小于T₂时，可以将该标签视作不相关标签并将其过滤。

进一步地，步骤1中，随后按照目标领域的不同技术平台划分数据集，形成多个子数据集，具体包括：

参考目标领域内技术平台的发展情况，确定目标领域内不同的技术平台；

随后，从已提取的技术领域标签中识别出与某个技术平台共同出现的标签，作为该平台的关联标签；

接着，去除每个平台的关联标签中与其他平台关联的标签，得到各个技术平台的独有关联标签，以此划分数据集，形成多个子数据集。

进一步地，步骤2中，提取技术领域的参考架构，具体包括：

通过领域知识和现有文档，并参考该领域的多项代表性技术平台，确定目标领域的组件并分析各个组件间的关系，归纳得出该领域的参考架构。

进一步地，步骤3中，对数据集进行预处理，具体包括：

删除帖子正文中的代码片段、HTML标签、数字标点等无效信息，将其余词汇转换成原形，得出文档词汇矩阵。

进一步地，步骤3中，以一种优化的梯度式搜索方法确定LDA主题模型的最佳主题数量，具体包括：

从文档词汇矩阵中统计每个帖子的高频词汇(其中最高频词汇只有一个，但不同帖子的最高频词汇不一定相同)，统计完成后将各个帖子的高频词汇和最高频词汇进行汇总，将最高频词汇的总个数作为主题数量的最小值k_min(k_min≥2)，结合高频词汇个数，确定主题数量的最大值k_max(一般来说，k_max≤50，因为50足以满足主题数量的最大值)，以此确定的主题数量范围较精准，可以提高后续梯度式搜索的效率；k_max是最高频词汇的总个数和高频词汇总个数之和。

随后，以主题数量搜索范围[k_min,k_max]、递减式梯度数组g为输入，以当前梯度设置等差的主题数量数组k，遍历k中的每个主题数量并衡量该主题数量的效果，遍历完成后获得当前主题数量数组中最优的主题数量k_top，再以k_top为中心，下一个梯度为半径，设置新的主题数量数组并重复以上步骤；

若当前主题数量数组中有多个主题数量的效果接近于k_top，则一并选取这些主题数量(作为k_top'、k_top″等)，依次以这些主题数量(k_top'、k_top″等)为中心，下一个梯度为半径，设置新的主题数量数组并重复以上步骤，当梯度数组遍历完后搜索结束，得出最优的主题数量k_opt。k_top'、k_top″表示效果次最高的主题数。

其中，衡量主题数量效果的具体指标为：

①一致性系数(coherence)：表示主题模型输出结果与语义理解的一致性，一致性系数越高，LDA输出结果的语义可解释性、可理解性就越好，主题效果就更好。主题数量为n时的一致性系数记为C_n，通过分割、概率估算、确认测量、聚合4个阶段计算，其范围为[0,1.0]。

②稳定性指标(stability)：表示主题模型多次运行结果的可靠性，稳定性指标越高，LDA主题模型受概率分布的影响就越小，对同一文本多次运行的结果具有更高的一致性，效果更稳定。主题数量为n时的稳定性指标记为R_n，通过多次运行后最相近主题的Jaccard相似度分数计算。

可以设置一致性系数与稳定性指标的阈值δ_C、δ_R，当主题数量数组中的某个主题数k_i的效果指标与当前最优的主题数k_top的效果指标接近，即|C_ki-C_ktop|≤δ_C、|R_ki-R_ktop|≤δ_R时，则将k_i选取为k_top'，继续在下一步以k_top'为中心进行搜索。现有的方法往往在遍历主题数量数组时仅选取效果最高的主题数k_top，在极值点较多的情况下容易造成局部最优解的问题，相比而言，此算法可以更全面地搜索到效果较好的极值点，解决局部最优问题。

进一步地，步骤3中，分别在每个子数据集上采用LDA主题模型对子数据集按主题进行聚类，具体是指：

将最优的主题数量k_opt作为LDA主题模型的主题数，在每个子数据集上使用LDA主题模型，输出每个帖子属于每个主题的概率矩阵，将其中最高概率的主题作为该帖子的主题，并将同一主题的帖子归为一组。通过对数据集的划分，LDA主题模型使用的语料库更精准，模型也更加平衡，降低了语料库过大带来的盲目性风险。

进一步地，步骤3中，自动化命名主题，具体是指：先对一部分关键词进行标注，确定它们所对应的主题名，随后使用分类器确定所有关键词对应的可能主题名，基于每个主题构成关键词对主题的贡献度，自动计算归纳出该主题的主题名。此外，为减少误差，可通过随机抽样验证各主题的问题帖，修正归纳的主题名，确保主题名切实地表达主题。

进一步地，步骤4中，将主题与该技术领域的参考架构进行匹配，具体包括：

将技术领域内各个部分的概念、主题与参考架构中的层次相匹配，构建各个概念、层次间的关联。将主题与该技术领域的参考架构进行匹配，可采用现有技术。

进一步地，步骤5中，设置评估指标进行度量，分析技术领域的知识发展趋势，具体包括：

根据帖子的数量、占比、浏览量、答案量、提问时间、首次回答时间等数据，设置并计算各个主题、各个层次知识的受欢迎度、难度、影响力等指标，分析该技术领域内的知识发展趋势。

与现有技术相比，本发明具有如下优点：

(1)数据集丰富、有效性强：IT技术问答网站的问题帖数据极其丰富、涵盖面广，并且通过执行本发明中的数据采集方法，可以较全面地提取出目标领域的技术标签，再通过设置阈值过滤不相关标签，以此获得的数据集较为全面且有效，与技术领域的关联性强。

(2)主题识别准确度高：本发明采用了一种平衡的LDA主题模型，即通过技术平台的独有关联标签划分数据集，并在每个子数据集上使用LDA主题模型，避免数量占绝对优势的特定技术平台语料库数据集主题技术主题占据主导，普遍适用于具有多个技术平台的技术领域。此外，本发明采用一种优化的梯度式搜索方法确定最佳的主题数量，解决了现有方法局部最优的问题，以此作为LDA主题模型的重要参数。

(3)有利于技术领域内量化对比分析：本发明通过设计技术领域的参考架构，并将主题概念与各个组件和层次匹配、建立关联，以及设置评估指标，可以有效地分析技术领域内各个主题、各个层次的知识讨论情况及发展趋势，为软件工程提供经验。

附图说明

图1示出本发明步骤1中的识别技术领域关键字、提取标签及数据采集过程；

图2示出本发明步骤3中的梯度式搜索确定LDA主题模型最佳主题数量的算法示例图；

图3示出本发明中优化的最佳主题数量搜索算法中一致性系数与主题数量的分布。

具体实施方式

为便于本领域普通技术人员理解和实施本发明，下面结合附图及实施示例对本发明作进一步的详细描述。应当理解，所述的实施示例仅用于说明和解释本发明，并不应该限制本发明的范围。

本实施示例以Stack Overflow问答网站为实例，以该网站的帖子为数据集。本发明方法包括以下步骤：

步骤1：数据采集与划分。其具体实现包含以下子步骤：

步骤1.1：识别技术领域关键字，以关键字为输入识别技术领域标签。通过关键字提取Stack Overflow问答网站中该技术领域内所有帖子的候选标签。对于每个候选标签t，计算该技术领域内包含标签t的问题帖数量a、所有领域内包含标签t的问题帖数量b、该技术领域内的问题帖总数c，令E_tag＝a/b,表示标签t与该技术领域知识的相关程度，令S_tag＝a/c，表示包含标签t的帖子数量在该技术领域帖子中的占比。E_tag的值较小意味着该候选标签常常出现在其他领域中，S_tag的值较小则意味着该标签在该领域内不常出现，因此设置不同的阈值T₁、T₂，当某个标签计算的E_tag值小于T₁或S_tag值小于T₂时，可以将该标签视作不相关标签并将其过滤。

步骤1.2：基于标签提取Stack Overflow问答网站中该技术领域的相关帖子，获取数据集。

图1所示的是步骤1数据采集的过程。

步骤1.3：按照目标领域的不同技术平台划分数据集，形成多个子数据集。首先，参考目标领域内技术平台的发展情况，确定领域内不同的技术平台，例如，“区块链”技术领域涵盖了“比特币”、“以太坊”、“超级账本”、“corda”4个平台；随后，从已提取的技术领域标签中识别出与某个技术平台共同出现的标签，作为该平台的关联标签，例如，与“以太坊”共同出现的标签有“加密货币”、“智能合约”等，可以作为该平台的关联标签；接着，去除每个平台的关联标签中与其他平台关联的标签，得到各个技术平台的独有关联标签，例如，“加密货币”同样也是“比特币”平台的关联标签，因此将其从“比特币”和“以太坊”平台的关联标签中去除。最终根据平台的独有关联标签划分数据集，形成多个子数据集。

步骤2：提取技术领域的参考架构。根据领域知识和现有文档，参考该领域的多项代表性技术平台，确定目标领域的组件并分析各个组件间的关系，归纳得出该领域的参考架构。

步骤3：确定主题与数据处理，其具体实现包含以下子步骤：

步骤3.1：对数据集进行预处理。删除帖子正文中的代码片段(即<code>标签)、HTML标签与数字标点等无效信息，使用Snowball词干分析器将其余词汇转换成原形，以减少特征维度，得到文档词汇矩阵。

步骤3.2：以一种优化的梯度式搜索方法确定LDA主题模型的最佳主题数量。优化的梯度式搜索算法如图2所示。首先确定主题数的搜索范围，从文档词汇矩阵中统计每个帖子的高频词汇(其中最高频词汇只有一个，但不同帖子的最高频词汇不一定相同)，统计完成后将各个帖子的高频词汇和最高频词汇进行汇总，将最高频词汇的总个数作为主题数量的最小值k_min(k_min≥2)，结合其他高频词汇个数，确定主题数量的最大值k_max(一般来说，k_max≤50，因为50足以满足主题数量的最大值)，例如，假设汇总的最高频率词汇为“use”、“model”，则至少有2个主题：应用相关与模型相关，而“use”又可具体分为“代码运行”、“学习算法”、“实现细节”等主题，所以最大主题数量需要考察其他高频词汇。渐进梯度数组g是从大到小排序的整数数组，每个值不应超过搜索范围的1/4，且最后一个梯度为1。以主题搜索范围[k_min,k_max]和渐进梯度数组g作为算法输入，并设置一致性系数与稳定性指标的阈值δ_C、δ_R，以当前梯度从搜索范围中选择等差的主题数量数组k，遍历k中的每个主题数量，计算一致性系数和稳定性来衡量该主题数量的效果，遍历完成后获得当前主题数量数组中最优的主题数量k_top，再以k_top为中心，下一个递减的梯度为半径，设置新的主题数量数组并重复以上步骤。特别地，若当前主题数量数组中有多个主题数量的效果接近于k_top，即|C_ki-C_ktop|≤δ_C、|R_ki-R_ktop|≤δ_R，则一并选取作为k_top'、k_top″等，依次以k_top'、k_top″等为中心，下一个梯度为半径，设置新的主题数量数组并重复以上步骤。当梯度数组遍历完后搜索结束，得出最优的主题数量k_opt。

步骤3.3：主题数量是LDA主题模型的重要参数，将已搜索得出的最佳主题数量k_opt作为主题数，分别在每个子数据集上采用LDA主题模型对子数据集按主题进行聚类。以文档词汇矩阵为输入，通过LDA主题模型输出每个帖子属于每个主题的概率矩阵，将其中最高概率的主题作为该帖子的主题，并将同一主题的帖子归为一组。

步骤3.4：自动化命名主题。先对一部分关键词进行标注，确定它们所对应的主题名，随后使用分类器确定所有关键词对应的可能主题名。基于每个主题构成关键词对主题的贡献度，自动计算归纳出该主题的主题名。例如，“use”对应的主题名有“代码运行”、“学习算法”，“error”对应的主题名为“代码运行”，“algorithm”对应的主题名有“学习算法”、“实现细节”，当某个主题的主要构成关键词为“use”、“error”时，则计算归纳出主题名“代码运行”，当某个主题的主要构成关键词为“algorithm”、“use”时，则计算归纳出主题名“学习算法”。此外，为减少误差，可通过随机抽样验证各主题的问题帖，修正归纳的主题名，确保主题名切实地表达主题。

步骤4：将主题与该技术领域的参考架构进行匹配。将每个主题、概念与参考架构中的层次和组件相匹配。

步骤5：设置评估指标进行度量，分析技术领域的知识发展趋势。表1列举了一些度量指标，其中V(主题的平均浏览量)、C(主题的平均评论人数)、F(主题的平均喜爱人数)、S(主题的平均分数)可以衡量每个主题的受欢迎度，Δt(主题的平均提问与回答间隔时间)、AVR(帖子的答案与浏览量之比)则可以衡量主题或帖子的难度，I(主题的影响力)则可以衡量某个主题在该技术领域内的影响力。以此可以对目标技术领域内参考架构中不同层次的知识讨论情况进行评估，分析其发展趋势。

表1

以Stack Overflow平台上“机器学习”技术领域的知识分析为例，图3示出本发明中优化的最佳主题数量搜索算法中一致性系数与主题数量的分布。可以看到，在主题数量为在10、20、30附近时，一致性系数都达到极值，因此本发明中优化的最佳主题数量搜索算法可以全面地遍历到极值点，再进行下一步更细化的渐进式搜索，避免产生局部最优问题。表2示出本发明的效果数据，将Stack Overflow平台上“机器学习”技术领域分为9个主题，分别计算了各项指标，以此分析技术发展趋势。

表2

主题名	V	C	F	S
					学习算法	1 509.89	1.92	4.38	2.64
数据集分类	1 281.56	1.61	2.38	1.46
					实现细节	1 230.19	1.42	2.74	1.92
代码运行	1 150.17	1.72	2.11	1.38
					神经网络	971.61	1.55	2.46	1.67
编程与库	968.26	1.71	1.38	0.93
					模型性能评估	912.53	1.46	2.56	1.42
模型输入问题	888.61	1.41	2.06	1.39
					模型训练	836.63	1.25	2.30	1.51
平均值	1088.27	1.56	2.49	1.59

Claims

1.一种基于IT技术问答网站的计算机技术领域发展趋势分析方法，其特征在于，包括以下步骤：

步骤1：识别技术领域关键字，以关键字为输入识别技术领域标签，提取该技术领域的标签，基于标签提取并过滤IT技术问答网站中该技术领域的相关帖子，获取数据集，随后按照目标领域的不同技术平台划分数据集，形成多个子数据集；

步骤2：提取技术领域的参考架构；

步骤3：对步骤1得到的数据集进行预处理，以一种优化的梯度式搜索方法确定LDA主题模型的最佳主题数量，随后分别在每个子数据集上采用LDA主题模型对子数据集按主题进行聚类，并自动化命名主题；

以一种优化的梯度式搜索方法确定LDA主题模型的最佳主题数量，具体包括：

从文档词汇矩阵中统计每个帖子的高频词汇，统计完成后将各个帖子的高频词汇和最高频词汇进行汇总，将最高频词汇的总个数作为主题数量的最小值k _min，结合高频词汇个数，确定主题数量的最大值k _max；

随后，以主题数量搜索范围 [k _min,k _max] 、递减式梯度数组g为输入，以当前梯度设置等差的主题数量数组k，遍历k中的每个主题数量并衡量该主题数量的效果，遍历完成后获得当前主题数量数组中最优的主题数量k _top，再以k _top为中心，下一个梯度为半径，设置新的主题数量数组并重复以上步骤；

若当前主题数量数组中有多个主题数量的效果接近于k _top，则一并选取这些主题数量，依次以这些主题数量为中心，下一个梯度为半径，设置新的主题数量数组并重复以上步骤，当梯度数组遍历完后搜索结束，得出最优的主题数量k _opt；

分别在每个子数据集上采用LDA主题模型对子数据集按主题进行聚类，具体是指：

将最优的主题数量k _opt作为LDA主题模型的主题数，在每个子数据集上使用LDA主题模型，输出每个帖子属于每个主题的概率矩阵，将其中最高概率的主题作为该帖子的主题，并将同一主题的帖子归为一组；

2.根据权利要求1所述的基于IT技术问答网站的计算机技术领域发展趋势分析方法，其特征在于，步骤1中，识别技术领域关键字，以关键字为输入识别技术领域标签，提取该技术领域的标签，具体包括：

识别目标技术领域的关键字，以关键字为输入，提取IT技术问答网站中该技术领域内所有帖子的候选标签，对于每个候选标签t，计算该技术领域内包含候选标签t的问题帖数量a、所有领域内包含候选标签t的问题帖数量b、该技术领域内的问题帖总数c，令E _tag=a/b,表示候选标签t与该技术领域知识的相关程度，令S _tag=a/c，表示包含候选标签t的帖子数量在该技术领域帖子中的占比，通过设置E _tag、S _tag不同的阈值，筛选提取该技术领域的标签。

3.根据权利要求1所述的基于IT技术问答网站的计算机技术领域发展趋势分析方法，其特征在于，步骤1中，随后按照目标领域的不同技术平台划分数据集，形成多个子数据集，具体包括：

4.根据权利要求1所述的基于IT技术问答网站的计算机技术领域发展趋势分析方法，其特征在于，步骤2中，提取技术领域的参考架构，具体包括：

5.根据权利要求1所述的基于IT技术问答网站的计算机技术领域发展趋势分析方法，其特征在于，步骤3中，对数据集进行预处理，具体包括：

删除帖子正文中无效信息，将其余词汇转换成原形，得出文档词汇矩阵。

6.根据权利要求5所述的基于IT技术问答网站的计算机技术领域发展趋势分析方法，其特征在于，所述的无效信息包括：代码片段、HTML标签、数字标点。

7.根据权利要求1所述的基于IT技术问答网站的计算机技术领域发展趋势分析方法，步骤3中，自动化命名主题，具体是指：先对一部分关键词进行标注，确定它们所对应的主题名，随后使用分类器确定所有关键词对应的可能主题名，基于每个主题构成关键词对主题的贡献度，自动计算归纳出该主题的主题名。

8.根据权利要求1所述的基于IT技术问答网站的计算机技术领域发展趋势分析方法，步骤5中，设置评估指标进行度量，分析技术领域的知识发展趋势，具体包括：

根据帖子的数量、占比、浏览量、答案量、提问时间、首次回答时间数据，设置并计算各个主题、各个层次知识的受欢迎度、难度、影响力指标，分析该技术领域内的知识发展趋势。