CN117112810A

CN117112810A - 一种基于lda迭代检索文献数据集的全检索方法

Info

Publication number: CN117112810A
Application number: CN202310852504.5A
Authority: CN
Inventors: 方煜; 谢继鹏; 蒋铭羽; 赵振东
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-11-24

Abstract

本发明公开了一种基于LDA迭代检索文献数据集的全检索方法，包括：以某关键词组在文献数据库中进行检索，获取文献数据集及其文本信息。对文献的文本信息进行文本清洗和文本预处理。确定LDA模型的最佳主题数量。由最佳主题数量构建LDA模型对文本信息进行主题挖掘和主题分析。利用前期的分析和主题挖掘结果，提取具有代表性和相关性的主题词，这些词可以用于描述分析的技术领域。根据提取的主题词，重新组合检索式，确保检索式能够准确地反映所需的技术领域研究方向。使用布尔逻辑运算符(AND、OR、NOT)来组合主题词，以进一步精确检索范围。将重新组合的检索式应用于数据库，执行检索操作，获取与所需技术领域相关的数据集，能快速准确检索文献数据集。

Description

一种基于LDA迭代检索文献数据集的全检索方法

技术领域

本发明涉及一种基于LDA迭代检索文献数据集的全检索方法，属于文本信息处理技术领域。

背景技术

目前，文献信息具有技术高度融合、动态复杂的特征，使得从文献数据库中检索某一技术领域的文献数据集会将困难。单纯依赖关键词检索或IPC技术分类等检索难以完整收集某一领域的文献数据集，如何能够使用隐含狄利克雷分布(Latent Dirichletallocation，LDA)文本数据挖掘的方法对文献数据集进行主题挖掘，通过隐含主题下的主题关键词信息进行重新组合检索式进行检索显得极为重要，如何能够通过迭代检索方法将检索的文献数据集涵盖面更广且检索内容更加准确具有重要的意义。

发明内容

本发明目的在于针对检索人员在原有知识条件下需要不断检索、阅读文献，再调整、增加检索词，不断反复检索的问题，提出了一种基于LDA迭代检索文献数据集的全检索方法，该方法基于少量检索关键词使用LDA主题模型挖掘文献信息，提炼文献信息隐含主题下的关键词得到被检索关键词相关的主题数量与主题词，将得到的主题词重新组合成新的检索式进行检索，经过多次LDA主题模型挖掘与主题词组合，最终实现快速检索出全面而准确的文献数据集。

本发明解决其技术问题所采用的技术方案是：一种基于LDA迭代检索文献数据集的全检索方法，该方法包括如下步骤：

步骤1：以某关键词组在文献数据库中进行检索，获取文献数据集及其文本信息。

步骤2：对文献的文本信息进行文本清洗和文本预处理。

步骤3：确定LDA模型的最佳主题数量。

步骤4：由最佳主题数量构建LDA模型对文本信息进行主题挖掘和主题分析。

步骤5：利用前期的分析和主题挖掘结果，提取具有代表性和相关性的主题词，这些词可以用于描述分析的技术领域。

步骤6：根据提取的主题词，重新组合检索式，确保检索式能够准确地反映所需的技术领域的研究方向。使用布尔逻辑运算符(如AND、OR、NOT)来组合主题词，以进一步精确检索范围。

步骤7：将重新组合的检索式应用于数据库，执行检索操作，获取与所需技术领域相关的数据集。

步骤8：对得到的检索结果进行进一步的分析和处理。对数据集进行筛选、排序或其他处理，以满足特定需求。

步骤9：利用LDA主题挖掘方法，对主题词和检索式进行调整和优化。可以通过调整主题词的权重、增加或删除主题词等方式来改进检索结果。

步骤10：迭代收敛条件如式(2.1)：

C_k＝|P_k-P_k-1|/P_k-1 式2.1

其中，C_k表示第次迭代的收敛程度，P_k表示第k次迭代得到的文献数据集的规模，即文献数量，P_k-1表示第k-1次迭代得到的文献数据集的规模。

若满足式2.1的条件，则停止搜索；若不满足式2.1条件，则跳转到步骤3，使用优化后的主题词和检索式进行检索。迭代检索的过程是不断调整和优化主题词、检索式，直到获得满足需求的专利数据集。

步骤11：以某关键词组在文献数据库中进行检索，获取文献数据集及其文本信息。

进一步地，本发明上述步骤2包括：

步骤2-1：去除文献数据集及其文本信息中的噪声信息，即数据清洗，噪声信息包括文本中的无效标点符号、重复内容和重复文献等信息。

步骤2-2：创建保留词表和停词表；根据分析的文档创建保留词表，主要是针对文档中可能出现的特定专有名词等，另外还需要创建停词表，停词表主要针对文档出现的冗余词组，例如专利中可能出现的词组有：本发明、公开等。

步骤2-3：对第i个文档中的文本内容进行分词，并按保留词表和停词表进行选择性保留和删除。

步骤2-4：对m个文档分别按分词完成的文档按文档-词组进行组合，具体如图2所示。

针对复杂网络的数据准备要确保数据集中存在能够构建复杂网络的条件，例如，专利信息中的引用关系，IPC分类号等。

进一步地，本发明上述步骤3包括：

步骤3-1：通过程序加载处理完成的文档和词组文件，将其中的词组进行编号并按(词组：编号)形式构成词典，接着统计词组在文档m中的出现个数，按(编号，出现次数)表示文档m，即语料库。

步骤3-2：加载词典和语料库得到文档数量M和词组数量N_m。

步骤3-4：计算不同主题数量下的困惑度(Perplexity)，困惑度计算公式如式2.2：

其中，D表示语料库中的测试集，M表示文档数量，N_m表示在文档m中拥有的单词数量，p(w_m)表示词组w_m在文档m中的。

步骤3-4：计算不同主题数量下的主题一致性分数，采用基于词组共现的UMass方法来评估主题的一致性分数，UMass主题一致性分数的计算公式如式2.3：

其中，T表示抽取的主题，P(w_i,w_j)表示词组w_i和w_j的共现频次或权重,P(w_j)表示词组w_j在文档中的频次或权重，然后按该方法对所有主题的一致性分数取平均，得到整体的一致性分数UMass。

步骤3-5：计算困惑度-主题一致性分数指标(Perplexity-UMass)，计算公式如式2.4：

其中，D为语料库的测试集，Perplexity(D)为语料库集的困惑度，UMass为语料库测试集的主题一致性分数。

步骤3-6：以困惑度-主题一致性分数指标最大值作为最优主题数量K。

进一步地，本发明上述步骤4包括：

步骤4-1：加载语料库和词典，得到文档数量M和词组数量N_m按最优主题数量K构建LDA模型。

步骤4-2：设定文档中主题分布参数θ和主题中词组分布参数φ。

步骤4-3：设定文档的主题计数器n_m,k和主题的词计数器n_k,t，其中n_m,k表示文档m中被分配到主题编号k的词的数量，n_k,t表示主题编号k中词t的数量。

步骤4-4：重新扫描语料库，对于每一个词，利用Gibbs采样公式更新它的主题编号k，并更新语料中该词的编号。即从文档中移除词W_mnm，即减少n_m,k和n_k,t相应的计数。计算采样公式中的分子和分母，并更新文档-主题分布参数θ和主题-词分布参数φ：

其中，式2.5中表示在文档m中的主题分布，其中n_m,k表示文档m中被分配给主题k的词语数量，n表示文档中的总词语数量，k表示主题数量，α_k是超参数，用于控制主题的分布。式2.6中/>表示在主题k中的词语分布，其中n_k,t表示主题k中词语t的数量，n表示文档中的总词语数量，V表示词语的总数，β_t是超参数，用于控制词语的分布。这个式子计算了主题中每个词语的概率分布，表示了主题中不同词语的重要性。使用更新后的参数θ和φ重新分配词W_mnm到一个新的主题，采样一个新的主题z_m,n，并增加n_m,k和n_k,t相应的计数。

步骤4-5：重复步骤2多次，重复次数即为迭代次数，直到达到收敛条件，收敛条件即文档-主题分布参数和主题-词分布参数/>变化小于0.001。

步骤4-6：得到估计的参数后，将LDA模型进行可视化处理，这里可视化方法采用主题-主题词分布的方法，更直观地观察LDA主题模型对文档的划分结果，并挖掘出所需要的检索词。

有益效果：

1、本发明基于少量检索关键词使用LDA主题模型挖掘文献信息，能够很好地提炼文献信息隐含主题下的关键词，并且能够得到被检索关键词相关的主题数量与主题词。

2、本发明能够得到的主题词重新组合成新的检索式进行检索，经过多次LDA主题模型挖掘与主题词组合，最终实现了快速检索出全面而准确的文献数据集。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明的方法流程图。

图2为本发明的文档-词组形式示意图。

图3为本发明停词表与保留词表部分节选示意图。

图4为本发明的分词前文本示意图。

图5为本发明的分词后文本示意图。

图6为本发明的主题困惑度、主题一致性计算结果示意图。

附图说明：图6(a)、图6(b)、图6(c)为主题困惑度、主题一致性计算结果示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例一

如图1所示，本发明提供了一种基于LDA迭代检索文献数据集的全检索方法，该方法包括如下步骤：

步骤2：对文献的文本信息进行文本清洗和文本预处理。

步骤3：确定LDA模型的最佳主题数量。

步骤10：迭代收敛条件如式(2.1)：

C_k＝|P_k-P_k-1|/P_k-1 式2.1

进一步地，本发明上述步骤2包括：

进一步地，本发明上述步骤3包括：

步骤3-2：加载词典和语料库得到文档数量M和词组数量N_m。

进一步地，本发明上述步骤4包括：

实施例二

下面以江苏省智能网联测试专利为例的技术路径演化分析为例进行分析。

本发明以江苏省智能网联测试专利为例，通过专利数据库检索平台，使用关键词组合方式进行专利检索。具体包括如下：

采用检索式MAINF:((智能网联OR自动驾驶OR无人驾驶)AND(测试))AN_PROVINCE:(江苏)进行初步检索，通过筛选排除得到3063条专利结果。对专利进行导出，截取专利信息有效片段如摘要、标题、独立权力要求等，接着对数据进行清洗与预处理。

数据清洗与预处理是构建LDA主题模型的第一步，而且LDA作为挖掘文本的模型对于数据格式的要求非常高。在这个环节中，需要对从智慧芽导出的文档在Python程序中进行数据清洗与预处理，其主要内容如下：

根据词频统计，创建停词表与保留词表，如图3所示，为后续分词操作做准备；接着，读入未处理的文档，按专利信息有效区域进行划分再处理；然后，将划分后的文本进行清洗，在这一步中，需要删去标点符号与特殊字符，再根据停词表与保留词表对文本进行分词，如图4和图5所示。最后，将文本保存为可读取CSV文件保存至数据库。至此，数据的清洗与预处理操作完成。

接下来是搭建LDA主题模型，本文所构建的LDA模型是基于Python语言的Gensim库，基于Gensim库LDA的基本模型进行改进与参数修改，加载语料库与词典，接着，需要计算最优主题数目。

从结果得到我们可以得到在这一轮中适用于江苏省智能网联测试专利LDA模型的最佳主题数目为6。

加载语料库与词典，接着，设定最优主题数目6，设置文档中主题分布参数θ为0.3和主题中词组分布参数φ为0.3，迭代次数为20次，得到这一轮专利数据集潜在的主题如表3.4，分别是：

主题1：这个主题涉及车辆运动姿态的测试和控制技术，其中关键词包括制动、电路、电机、机械、机构、转向等。

主题2：这个主题涵盖了控制和计算相关的技术，包括控制、计算、控制器、状态、模型、函数等关键词。

主题3：这个主题涉及信号检测和传感器技术，包括信号、传感器、检测、距离、位置、雷达、摄像头等关键词。

主题4：这个主题涉及模块和系统测试技术，包括模块、系统、测试、通讯、设备、无线等关键词。

主题5：这个主题涉及车辆行驶和状态监测技术，包括车辆、行驶、状态、车道、道路、位置、车速等关键词。

主题6：这个主题涉及图像处理和目标检测技术，包括图像、像素、目标、检测、灰度、网络等关键词。

表3.4LDA模型下主题分布

接着根据这些数据从中重新分析与处理，组合新的检索式进行检索，并判断是否满足式迭代收敛原则。经过多次迭代操作，最终确定检索式中关键词涵盖自动驾驶、智能网联、测试装备、试验方法、并发测试、V2X测试、评价方法等。为确保准确性，剔除了无关关键词(如轨道车、无人机领域)。由于本文重点研究江苏省区域，因此在检索式中加入了搜索字段AN_PROVINCE:(江苏)对检索区域进行限制；而检索时间限定在2012年1月1日至2022年12月31日，共检索出4593条与江苏省智能网联汽车测试与评价领域专利。

如在本发明所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于LDA迭代检索文献数据集的全检索方法，其特征在于，所述方法包括如下步骤：

步骤1：以某关键词组在文献数据库中进行检索，获取文献数据集及其文本信息；

步骤2：对文献的文本信息进行文本清洗和文本预处理；

步骤3：确定LDA模型的最佳主题数量；

步骤4：由最佳主题数量构建LDA模型对文本信息进行主题挖掘和主题分析；

步骤5：利用前期的分析和主题挖掘结果，提取具有代表性和相关性的主题词，这些词描述分析的技术领域；

步骤6：根据提取的主题词，重新组合检索式，确保检索式能够准确地反映所需的技术领域的研究方向，使用布尔逻辑运算符(即AND、OR、NOT)来组合主题词，以进一步精确检索范围；

步骤7：将重新组合的检索式应用于数据库，执行检索操作，获取与所需技术领域相关的数据集；

步骤8：对得到的检索结果进行进一步的分析和处理，对数据集进行筛选、排序或其他处理，以满足特定需求；

步骤9：利用LDA主题挖掘方法，对主题词和检索式进行调整和优化，通过调整主题词的权重、增加或删除主题词的方式来改进检索结果；

步骤10：迭代收敛条件如式2.1：

C_k＝|P_k-P_k-1|/P_k-1 式2.1

其中，C_k表示第次迭代的收敛程度，P_k表示第k次迭代得到的文献数据集的规模，即文献数量，P_k-1表示第k-1次迭代得到的文献数据集的规模；

若满足式2.1的条件，则停止搜索；若不满足式2.1条件，则跳转到步骤3，使用优化后的主题词和检索式进行检索，迭代检索的过程是不断调整和优化主题词、检索式，直到获得满足需求的专利数据集；

2.根据权利要求1所述的一种基于LDA迭代检索文献数据集的全检索方法，其特征在于，所述步骤2包括：

步骤2-1：去除文献数据集及其文本信息中的噪声信息，即数据清洗，噪声信息包括文本中的无效标点符号、重复内容和重复文献信息；

步骤2-2：创建保留词表和停词表；根据分析的文档创建保留词表，针对文档中可能出现的特定专有名词，另外还需要创建停词表，停词表主要针对文档出现的冗余词组；

步骤2-3：对第i个文档中的文本内容进行分词，并按保留词表和停词表进行选择性保留和删除；

步骤2-4：对m个文档分别按分词完成的文档按文档-词组进行组合；

针对复杂网络的数据准备要确保数据集中存在能够构建复杂网络的条件，即专利信息中的引用关系，IPC分类号。

3.根据权利要求1所述的一种基于LDA迭代检索文献数据集的全检索方法，其特征在于，所述步骤3包括：

步骤3-1：通过程序加载处理完成的文档和词组文件，将其中的词组进行编号并按(词组：编号)形式构成词典，接着统计词组在文档m中的出现个数，按(编号，出现次数)表示文档m，即语料库；

步骤3-2：加载词典和语料库得到文档数量M和词组数量N_m；

其中，D表示语料库中的测试集，M表示文档数量，N_m表示在文档m中拥有的单词数量，p(w_m)表示词组w_m在文档m中的；

其中，T表示抽取的主题，P(w_i,w_j)表示词组w_i和w_j的共现频次或权重,P(w_j)表示词组w_j在文档中的频次或权重，然后对所有主题的一致性分数取平均，得到整体的一致性分数UMass；

其中，D为语料库的测试集，Perplexity(D)为语料库集的困惑度，UMass为语料库测试集的主题一致性分数；

4.根据权利要求1所述的一种基于LDA迭代检索文献数据集的全检索方法，其特征在于，所述步骤4包括：

步骤4-1：加载语料库和词典，得到文档数量M和词组数量N_m按最优主题数量K构建LDA模型；

步骤4-2：设定文档中主题分布参数θ和主题中词组分布参数φ；

步骤4-3：设定文档的主题计数器n_m,k和主题的词计数器n_k,t，其中n_m,k表示文档m中被分配到主题编号k的词的数量，n_k,t表示主题编号k中词t的数量；

步骤4-4：重新扫描语料库，对于每一个词，利用Gibbs采样公式更新它的主题编号k，并更新语料中该词的编号，即从文档中移除词W_mnm，即减少n_m,k和n_k,t相应的计数，计算采样公式中的分子和分母，并更新文档-主题分布参数θ和主题-词分布参数φ：

其中，式2.5中表示在文档m中的主题分布，其中n_m,k表示文档m中被分配给主题k的词语数量，n表示文档中的总词语数量，k表示主题数量，α_k是超参数，用于控制主题的分布，式2.6中/>表示在主题k中的词语分布，其中n_k,t表示主题k中词语t的数量，n表示文档中的总词语数量，V表示词语的总数，β_t是超参数，用于控制词语的分布，这个式子计算了主题中每个词语的概率分布，表示了主题中不同词语的重要性，使用更新后的参数θ和φ重新分配词W_mnm到一个新的主题，采样一个新的主题z_m,n，并增加n_m,k和n_k,t相应的计数，

步骤4-5：重复步骤2多次，重复次数即为迭代次数，直到达到收敛条件，收敛条件即文档-主题分布参数和主题-词分布参数/>变化小于0.001；

步骤4-6：得到估计的参数后，将LDA模型进行可视化处理，采用主题-主题词分布的方法，更直观地观察LDA主题模型对文档的划分结果，并挖掘出所需要的检索词。