CN110569270B

CN110569270B - 一种基于贝叶斯的lda话题标签标定方法、系统及介质

Info

Publication number: CN110569270B
Application number: CN201910753484.XA
Authority: CN
Inventors: 李莎莎; 余诗文; 唐晋韬; 王挺; 高辉; 李建玲; 庞焜元
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2022-07-05
Anticipated expiration: 2039-08-15
Also published as: CN110569270A

Abstract

本发明涉及科技文献挖掘领域，本发明公开了一种基于贝叶斯的LDA话题标签标定方法、系统及介质，本发明标签标定方法包括元数据抽取、分词与过滤、LDA建模以及标签匹配的步骤，本发明通过对LDA话题建模输出的科技文献的话题分布进行自动标签标定，来帮助人类理解科技文献主要研究内容。本发明还进一步对话题进行分析，包括话题的热点分析和话题的研究力量分析，还可以通过科技文献的话题标签对科技文献进行分类，也可以基于科技文献集的话题和话题的标签生成该科技文献集的摘要，同时也可以通过科技文献话题和话题标签预测科研趋势。

Description

一种基于贝叶斯的LDA话题标签标定方法、系统及介质

技术领域

本发明涉及科技文献挖掘领域，具体涉及一种基于贝叶斯的LDA(LatentDirichlet Allocation，隐狄利克雷分配模型)话题标签标定方法、系统及介质，用于对大量科技文献进行话题建模并对所得话题进行自动标定(命名)。

背景技术

随着数字化信息的膨胀，从中检索对我们有用的信息，挖掘有效的知识成为了一大难题。目前，学术界都在为大量膨胀的文献数量为难，人们开始使用LDA对大量文献进行话题建模，试图直接得知大量文献的主题分布。然而LDA话题模型得到的话题描述是一个在词典上的概率分布，如一个人工智能领域的。人如果想要理解这个话题，则必须要对话题的词分布进行理解，这一点计算机容易做到，人却很难。所以，进行话题标签标定成为了主要的解决手段。

最早的解决方案是使用话题词分布中概率最大的一个词作为话题标签，称为Top-1方法。随后衍生出了取概率最大的多个词作为话题标签的方法。此类方法统称为Top-N方法。Top-N方法的问题在于，话题词分布概率最大的词并不一定能够代表整个话题的含义，恰恰相反，在大多数情况下，Top-N的话题标签无法代表整个话题。比如，一个含义为“机器学习”的话题的话题词分布下，“神经”这个词的概率最大，于是Top-1会将该话题标定为“神经”。为了解决Top-N方法的缺陷，Qiaozhu Mei等人的论文Automatic Labeling ofMultinomial Topic Models(多项主题模型的自动标注)正式定义了对多项式分布的话题标注的问题，并提出了标签候选抽取和候选打分排名的两个步骤。候选抽取指的是从待分析文献或额外的语料库中抽取一组标签的候选集合。打分排名是根据特定话题的特点，为它给所有候选集合中的标签打分，最后选择打分后排名靠前的一个或几个候选词作为该话题的标签。对于候选抽取和打分排名两个步骤，目前有很多不同的解决方案。First-Order是目前比较流行的通过PMI(Pointwise mutual information，点互信息)利用话题-词分布进行话题标签标定的方法。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于贝叶斯的LDA话题标签标定方法、系统及介质，本发明通过对LDA话题建模输出的科技文献的话题分布进行自动标签标定，来帮助人类理解科技文献主要研究内容。除此之外，科技文献话题的标签可以进一步对话题进行分析，包括话题的热点分析和话题的研究力量分析，还可以通过科技文献的话题标签对科技文献进行分类，也可以基于科技文献集的话题和话题的标签生成该科技文献集的摘要，同时也可以通过科技文献话题和话题标签预测科研趋势。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于贝叶斯的LDA话题标签标定方法，实施步骤包括：

1)对科技文献文档进行元数据抽取，并存储至元数据数据库；

2)对纯文本格式的科技文献文档进行分词、降噪和过滤处理得到词袋；

3)建立隐含狄利克雷分布模型LDA，指定主题数量k并基于词袋进行训练，使其建立输入文档-输出内容之间的映射关系，所述输出内容包括输入文档的文档-话题分布和话题的话题-词分布，且话题分布由元组(话题id，话题分布概率)组成的数组表示，词分布由元组(词id，词分布概率)组成的数组来表示；

4)根据立隐含狄利克雷分布模型LDA得到的话题分布概率、词分布概率，以及元数据数据库元数据进行话题的标签标定。

可选地，步骤1)中对科技文献文档进行元数据抽取的步骤包括：通过正则表达式模式匹配获取关键字段的位置，通过关键字段的位置判断该关键字段对应的元数据位置，结合元数据特征来获取元数据。

可选地，步骤2)中的降噪和过滤处理包括非法词过滤、停用词过滤、低频词过滤、高频词过滤中的至少一种降噪和过滤处理方式。

可选地，步骤3)中指定主题数量k时，指定主题数量k的值为k＝N/n，其中N是论文集的论文数量，n为经验参数。

可选地，步骤4)的详细步骤包括：首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果，然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签并全部提供给用户。

可选地，步骤4)的详细步骤包括：首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果，然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签，并从得到的多种标签中选择出期望最好的一种标签提供给用户。

可选地，所述利用基于近义词的一次传播改进方法分别进行提高优化的详细步骤包括：S1)根据已有的标签打分函数F计算新的标签打分函数

在话题τ中，对于一个当前候选标签σ，遍历τ的整个候选标签集，将遍历得到得每一个候选标签

的已有分值进行加权求和，权重是当前候选标签σ与遍历得到的候选标签

的相似度，使得话题的候选标签重新排序，将候选标签的中心语义标签的排名提前；S2)标签排名与最终选取:选取在新的标签打分函数

中排名最高的标签作为话题的最终标签。

此外，本发明还提供一种基于贝叶斯的LDA话题标签标定系统，包括：

元数据抽取程序单元，用于对科技文献文档进行元数据抽取，并存储至元数据数据库；

文献预处理程序单元，用于对纯文本格式的科技文献文档进行分词、降噪和过滤处理得到词袋；

LDA训练程序单元，用于建立隐含狄利克雷分布模型LDA，指定主题数量k并基于词袋进行训练，使其建立输入文档-输出内容之间的映射关系，所述输出内容包括输入文档的文档-话题分布和话题的话题-词分布，且话题分布由元组(话题id，分布概率)组成的数组表示，词分布由元组(词id，分布概率)组成的数组来表示；

话题标签标定程序单元，用于根据立隐含狄利克雷分布模型LDA得到的话题分布和话题的词分布概率，以及元数据数据库元数据进行话题的标签标定。

此外，本发明还提供一种基于贝叶斯的LDA话题标签标定系统，包括计算机设备，该计算机设备被编程或配置以执行所述基于贝叶斯的LDA话题标签标定方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行所述基于贝叶斯的LDA话题标签标定方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行所述基于贝叶斯的LDA话题标签标定方法的计算机程序。

和现有技术相比，本发明具有下述优点：本发明通过对LDA话题建模输出的科技文献(论文等)的话题分布进行自动标签标定，来帮助人类理解科技文献主要研究内容。科技文献话题的标签可以进一步对话题进行分析，包括话题的热点分析和话题的研究力量分析，还可以通过科技文献的话题标签对科技文献进行分类，也可以基于科技文献集的话题和话题的标签生成该科技文献集的摘要，同时也可以通过科技文献话题和话题标签预测科研趋势。

附图说明

图1是本发明实施例方法的整体原理图。

图2是本发明实施例中步骤1)的元数据抽取结果示意图。

图3是本发明实施例中步骤2)的降噪过滤流程示意图。

图4是本发明实施例中步骤3)的LDA概率模型解释图。

图5是本发明实施例中步骤3)的LDA模型结果图。

图6是本发明实施例中步骤4)经过贝叶斯推理后的论文标题概率分布图。

图7是本发明实施例中步骤4)使用Top-1方法的词云图。

图8是本发明实施例中步骤4)关键字的DocD方法示意图。

图9是本发明实施例中步骤4)近义词“一次传播”优化方法示意图。

图10是本发明实施例中话题热点分析的展示图。

图11是是本发明实施例中研究力量分析的展示图。

图12是是本发明实施例中的趋势分析的展示图。

具体实施方式

下文将以论文文献作为科技文献的实例，对本发明基于贝叶斯的LDA话题标签标定方法、系统及介质进行进一步的详细说明。毫无疑问，本发明基于贝叶斯的LDA话题标签标定方法、系统及介质也可以适用于其他类型的科技文献，包括专利文献等。

实施例一：

如图1所示，本实施例中基于贝叶斯的LDA话题标签标定方法的实施步骤包括：

本实施例步骤1)中从学位论文的pdf格式数据集中匹配如“分类号”、“学号”、“U DC”、“硕士生姓名”、“学科专业”、“工程领域”、“研究方向”、“指导教师”等关键字段来获取论文元数据，且将抽取到的元数据以及对应的关键字段存储于结构化数据库中，便于后续的数据查询使用。

本实施例中，步骤1)中对科技文献文档进行元数据抽取的步骤包括：通过正则表达式模式匹配获取关键字段的位置，通过关键字段的位置判断该关键字段对应的元数据位置，结合元数据特征来获取元数据。用于获取元数据的关键字段正则表达式如表1所示：

表1：关键字段对应正则表达式。

本实施例通过关键字段和对应元数据的位置关系，结合元数据的特征获取元数据，例如关键字段“分类号”对应的元数据即图书馆分类号以大写字母开头以数字结尾，其模式可以用正则表达式[A-Z]+[0-9]+\.{0，1}[0-9]*来表示。

本实施例选择MySql存储元数据。创建论文元数据的库和表，数据库表头如表2所示。对“id”、“director”、“classNumber”、“major”、“area”、“year”、“diploma”等关键字段建立索引。如图2所示是数据库抽取完成后的结果。

表2：元数据的数据库表头。

本实施例中，论文文献均为PDF格式，因此为了获得纯文本格式的论文文献，本实施例步骤2)之前需要使用python的PDFMiner文本解析器将pdf的数据转换成纯文本格式，由于解析pdf文件耗费大量内存和时间，故采用PDFMiner的lazy parsing策略，只在需要论文数据的时候去解析该论文。

本实施例中，步骤2)中对纯文本格式的科技文献文档进行分词选择jieba分词工具对语料库中的论文进行分词得到训练文档主题模型的词袋。本实施例主要针对科技文献文档挖掘，在科技文献文档中，一些领域词如“端到端”，“中央处理器”会被通用分词器进行不当分词。因此，本实施例通过引入领域词典，提高通用分词器在科技文献文档中的分词性能。本实施例引入了CNKI翻译助手网站的词典作为领域词典。

在论文格式转换过程中，会因为特殊字符、图片以及公式等导致转换文本中出现乱码，因此本实施例采用非法词过滤机制对文本进行降噪处理。除了采用非法词过滤机制，本实施例还引入了停用词机制提高词袋质量。对于分词结果中不含语义或者语义成分过于复杂的词，本实施例采用了基于词在文档中的频率(DF)进行过滤处理。步骤2)中的降噪和过滤处理包括非法词过滤、停用词过滤、低频词过滤、高频词过滤中的至少一种降噪和过滤处理方式。

非法词过滤：pdf转换过程中会出现乱码，并且科技文献文档中中英文混杂以及大量的数字标引会导致分词结果中出现无意义的词，这些词称为非法词。针对这种情况，本实施例定义以下规则识别非法词：1)全数字的词；2)并非全是中文的词，且长度大于12或小于2的词。

停用词过滤：停用词指在文本处理过程中可以被忽略的词，有些词无实际意义，比如连词，如果将其放入词袋，不仅增加训练的时间，而且影响训练效果。停用词也包括对于计算机来说语义过于复杂的词，例如“与其说……不如说……”这种语法结构词。本实施例采用停用词表的方式对其进行过滤，即将所有停用词放入词汇表中，当分词结果属于停用词时，自动忽略该词。

低频词过滤：在本实施例中，利用词在文档中的频率(DF)对分词结果的低频词进行过滤。词A在文档中的频率DF(A)的定义为该词在文档集中的所有出现的文章的数目。例如，语料库中共300篇论文，词A在其中的120篇论文中出现，即DF(A)＝120。在本实施例中假设：1)对于词A，如果DF(A)<2，即A只在一篇论文中出现过，那么词A是在文本转换时因为特殊字符或图片而产生的噪音；2)对于词A，如果DF(A)<2，即A只在一篇论文中出现过，A是该论文出现的专有词汇。对于假设1)，用低频词过滤从而达到降噪的效果，对于假设2)，本实施例考虑到LDA的模型特征，忽略该专有词汇。

高频词过滤：部分分词结果如“表”、“算法”、“系统”、“实验”、“章”均是高频词，几乎所有的话题都会同等程度的涉及这些词汇，这些高频词对于话题建模无帮助，并且会不同程度地影响话题建模的结果。在本实施例中，对高频词的定义为DF(A)＝论文集的论文数目*q，经过实验最终确定q＝0.6，即当词A在文档集中60％的论文中出现，词A即为高频词。本实施例中LDA主题模型的训练数据忽略高频词汇。

如图3所示，本实施例中首先检查单词是否在停用词表中，如果在，则直接过滤，如果不在则检查是否全为中文，如果全为中文，则不过滤，如果不是则检查是否全为数字，如果全为数字，则过滤掉，如果不是则检查长度，如果长度小于2或长度大于12都被会当作非法词过滤掉。最后本实施例再进行低频词过滤和高频词过滤，过滤掉只在一篇文档中出现的词和在60％以上文档都出现过的词。

本实施例中的LDA话题概率图模型如图4所示，主题用β1:K来表示，每一个βk都是一个在词汇表上的概率分布。第d个文档的主题分布用θd来表示，θd,k是指k号主题在d号文档的比重。在第d个文档里的每个单词的主题归属用Zd来表示，Zd,n指在第d个文档里第n个单词的主题归属。我们观察到的第d个文档的单词用Wd来表示，Wd，n是这篇文档的第n个单词，这些单词都是一个固定词汇集里的元素。

隐含狄利克雷分布模型LDA是无监督训练的主题模型，隐含狄利克雷分布模型LDA在训练时不需要手工标注的训练集，仅需要预料可和指定的主题数量等训练参数，最终输出文档集的话题分布和话题的词分布。

LDA模型参数选择：本实施例中，步骤3)中指定主题数量k时，指定主题数量k的值为k＝N/n，其中N是论文集的论文数量，n为经验参数。本实施例中n＝18，是经验参数。此外，本实施例指定LDA模型参数alpha＝'auto',eta＝'auto'。

LDA模型训练：本实施例中采用gensim库中的gensim.ldamodel进行LDA模型的构建。gensim库是一个自然语言处理库，gensim.ldamodel是LDA模型在python的一个实现。该模型既可以根据输入的语料库估计LDA模型的参数，又可以对不在预料库中的文档计算其话题分布和词分布，还能进行增量训练。本实施例中采用摘要代替全文作为LDA模型的输入，故训练所花时间大幅减少，也不需要进行分布式计算。训练完成之后,最终得到一个gensim.models.ldamodel.LdaModel类的对象(即LDA模型)，通过对该该类的方法get_document_topics和get_topic_terms调用，最终会得到一个文档的话题分布和话题的词分布，其中话题分布由元组(话题id，概率)组成的数组表示，词分布由元组(词id，概率)组成的数组来表示，如图5所示。

本实施例中，步骤4)利用步骤3)中得到的两种概率分布——话题-词分布与文档-话题分布，以及步骤1)中得到的论文元数据进行话题的标签标定。所有方法均可以分为两个步骤——制作标签候选集与打分排名。本实施例中，形式化定义如下：

设文档数量为N_d,话题数量为N_t。

设语料库为Ψ，

其中

是从0开始的整数集合，S是全体字符串构成的集合。例如Ψ.2＝{″智能化运算网络......″}表示2号文档的内容为{′智能化运算网络......″}。设分词函数为E，

其中，S是全体字符串构成的集合，S^*表示S的幂集，例如

设chunk函数(用于实现名词词组化)为chunk,

例如chunk.(Ψ.2)＝{″智能运算网络″，......}。

设论文元数据为O，O.title与O.keyword分别表示论文的标题与关键字。

例如，O.title.1表示1号文档的标题。

为描述方便，设符号

γ描述对语料库中的所有文档分词后的词袋集合取并。

设字典为V，

S是全体字符串构成的集合，例如，

为了方便描述，下文中语料库中字符串的词w，w∈S都由它的ω来表示，其中ω＝V.w。

设话题-词分布为T，

设一个词为ω，一个话题为τ，

则词ω在话题τ中的概率为T.τ.ω，

例如T.3.(V.″智能″)＝0.78表示三号话题中“智能”出现的概率为78％。

设文档-话题分布为D，

设一篇文档为

则在文档

中话题τ的概率为

设候选标签集为Γ，

Γ.τ表示话题τ的标签候选集。

设话题-标签打分函数为F，

则候选标签σ，σ∈S在话题τ中的匹配度打分为F.τ.σ，

例如，F.3.(″人工智能″)＝91表示在三号话题中，标签“人工智能”得分为91。

设标签标定函数为L，

例如L.3＝″人工智能″表示3号话题最后由标签标定算法确定的话题标签为“人工智能”。

本实施例中，步骤4)的详细步骤包括：首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果，然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签并全部提供给用户。本实施例中，指定的多种候选集筛选及打分方法包括下述方式①～⑤五种方法，其中方式①为Top-1方法，方式②为First-Order方法，方式③为标题的基于话题文档分布的标签标定法，方式④为针对标题、关键字采用基于话题文档分布的标签标定法，方式⑤为采用基于话题文档分布的标签标定法增强的First-Order方法。本实施例在top-1以及PMI的基础上，提出了利用元数据的基于贝叶斯的话题-文档分布的标签标定方法，同时提出了通过近义词对标签质量进行优化的手段，见方式③、方式④、方式⑤。需要说明的是，前述指定的多种候选集筛选及打分方法并不局限于上述方式①～⑤五种方法。

方式①为Top-1方法，Top-1方法为现有方法，采用公式描述如式(4-1-1)～式(4-1-3)所示：

Γ.1＝Γ.2＝…＝Γ.N_t＝Υ (4-1-1)

式(4-1-1)中，Γ为候选标签集，Γ.τ表示话题τ的标签候选集，话题数量为N_t，Υ描述对语料库中的所有文档分词后的词袋集合取并。

F.τ.σ＝T.τ.(V.σ)forσ∈Γ.τ (4-1-2)

式(4-1-2)中，F.τ.σ表示话题τ的标签候选集Γ.τ中的候选标签σ的得分，V.σ表示字典V中的候选标签σ的ID号(独一无二的整数标识，用整数代替之前的字符串)，T.τ.(V.σ)表示词V.σ在话题τ中的概率，σ表示候选标签。

L.τ＝argmax_(σ)(F.τ.σ) (4-1-3)

式(4-1-3)中，L.τ表示τ号话题最后由标签标定算法确定的话题标签，argmax表示使右式值最大的变化参数的取值，F.τ.σ表示话题τ的标签候选集Γ.τ中的候选标签σ的得分。

参见式(4-1-1)～式(4-1-3)，式(4-1-1)描述了标签候选集的选取方式，对语料库中的所有文档分词后的词袋集合取并，将语料库中的所有词作为所有话题的标签候选集，任意两个话题的标签候选集是相同的。式(4-1-2)描述了标签打分函数的定义，标签打分函数等同于话题-词分布T。例如词w在话题τ中的标签匹配度等于词V.w在话题τ中的概率。式(4-1-3)描述了标签排名与最终选取方案，即选取在标签打分函数F中排名最高的标签作为话题的最终标签。

方式②为First-Order方法，TFirst-Order方法为现有方法，其采用公式描述如式(4-2-1)～式(4-2-10)所示：

式(4-2-1)中，Γ.τ表示话题τ的候选标签集，

表示语料库中

号文档内容名词词组化的结果，

表示

号文档话题分布中话题

的概率，

表示

号文档的文档话题分布中概率最大的话题是τ。

式(4-2-2)中，K是临时定义的一个函数，表示字符串w是否属于

号文档的分词后的字符串集合。E.(Ψ.d)表示语料库Ψ中的

号文档的分词结果，是一个字符串集合。

式(4-2-3)中，

是临时定义的一个函数，表示字符串w是否属于

号文档名词词组化后的字符串集合。

表示语料库中

号文档内容名词词组化的结果，是一个字符串集合。

式(4-2-4)中，

是临时定义的一个函数，表示词w(字符串)和名词词组σ(字符串)是否出现在同一个文档

中。

式(4-2-5)中，

是临时定义的一个函数，表示出现词w的文档的数量。

式(4-2-6)中，

是临时定义的一个函数，表示出现名词词组σ的文档的数量。

式(4-2-7)中，

是临时定义的一个函数，表示同时出现词w和名词词组σ的文档的数量。

式(4-2-8)中，pmi表示Pointwise mutual information(点互信息)的计算函数，log指数学的对数函数。

F.τ.σ＝∑_w∈Υ(pmi(w，σ)×T.τ.(V.w))forσ∈Γ.τ (4-2-9)

式(4-2-9)中，F.τ.σ是指候选标签σ在话题τ中的得分。T.τ.(V.w)表示词V.w在话题τ中的概率。Υ描述对语料库中的所有文档分词后的词袋集合取并。Γ.τ表示τ的标签候选集。

L.τ＝argmax_(σ)(F.τ.σ) (4-2-10)

式(4-2-10)中，L.τ表示τ号话题最后由标签标定算法确定的话题标签，argmax表示使右式值最大的变化参数的取值，F.τ.σ表示话题τ的标签候选集Γ.τ中的候选标签σ的得分。

(4-2-1)描述了First-Order方法选取候选标签集的过程，对于一个话题τ，遍历所有的文档

如果文档

的文档-话题分布在该话题上取最大概率，则将文档

加入一个集合中。随后将集合中的每一篇文档chunk化(名词词组化)，一篇文档可以得到一个名词集合。最后将所有的名词集合取并集得到话题τ的候选集合。式(4-2-2)描述了一个判断词w是否在文档

的词袋集合出现的函数，如果出现则返回1，如果没有出现则返回0。描述了一个判断标签σ是否在文档

的chunk名词集合出现的函数，如果出现则返回1，如果没有出现则返回0。式(4-2-4)描述了一个逻辑“且”的函数，如果词w和标签σ同时在文档

中出现则返回1，否则返回0。式(4-2-5)描述了一个统计函数，统计出现词w的文档数量。式(4-2-6)描述了一个统计函数，统计出现标签σ的文档数量。式(4-2-7)描述了一个统计函数，统计同时出现词w和标签σ的文档数量。式(4-2-8)描述了PMI值的计算公式，返回词w和标签σ的PMI值。式(4-2-9)描述了标签打分函数，在一个话题τ里，候选标签σ的匹配度得分的计算过程是遍历话题-词分布中的所有词w，计算词w与候选标签σ的PMI值，然后将所有PMI值加权求和，权重为词w在话题τ中出现的概率。式(4-2-10)描述了标签排名与最终选取方案，即选取在标签打分函数F中排名最高的标签作为话题的最终标签。

方式③为标题的基于话题文档分布的标签标定法，采用公式描述如式(4-3-1)～式(4-3-8)所示：

式(4-3-1)中H是临时定义的一个符号，表示一个标签候选集，

表示文档编号，N_d表示文档总数量，O表示论文的元信息，O.title表示论文的题目元信息，O.title.d表示文档

的题目，chunk表示名词词组化，∪取并集。

Γ.1＝Γ.2＝…＝Γ.N_t＝H (4-3-2)

式(4-3-2)中，H是上式定义的标签候选集，Γ为候选标签集，Γ.1表示话题1的标签候选集，Γ.2表示话题2的标签候选集，Γ.N_t表示话题N_t的标签候选集，话题数量为N_t。

式(4-3-3)中，

表示文档

出现的概率，N_d表示文档总数量。

式(4-3-4)中，

表示以话题τ为前提出现文档

的概率，

表示以文档

为前提出现话题τ的概率(已经由概率模型计算出)，式(4-3-4)即贝叶斯公式。

式(4-3-5)中，分子分母同时约掉了

其余各符号与式(4-3-4)相同。

式(4-3-6)中，

是临时定义的一个函数，表示字符串σ是否属于

号文档的标题名词词组化后的字符串集合，

表示文档

的题目，chunk表示名词词组化。

式(4-3-7)中，F.τ.σ是指候选标签σ在话题τ中的得分。

表示将出现了候选标签σ的所有文档的话题-文档概率相加，

表示字符串σ是否属于

号文档的标题名词词组化后的字符串集合，

表示以话题τ为前提出现文档

的概率。

L.τ＝argmax_(σ)(F.τ.σ) (4-3-8)

式(4-3-8)中，L.τ表示τ号话题最后由标签标定算法确定的话题标签，argmax表示使右式值最大的变化参数的取值，F.τ.σ表示话题τ的标签候选集Γ.τ中的候选标签σ的得分。

式(4-3-1)、(4-3-2)描述了标题的DocD方法选取候选标签集的过程，即将所有文档的标题chunk化后取并集，任意两个话题τ的候选标签集都相同。式(4-3-3)描述了本实施例对文档出现概率的先验假设——均匀分布，即所有文档出现的概率相同。式(4-3-4)描述了贝叶斯定理，利用文档-话题分布与文档的先验分布，可以算出话题-文档分布。式(4-3-5)由式(4-3-3)与式(4-3-4)推出。式(4-3-6)描述了一个判断标签σ是否在文档

的标题chunk名词集合出现的函数，如果出现返回1，否则返回0。式(4-3-7)描述了标签打分函数，在一个话题τ里，候选标签σ的匹配度得分的计算过程是遍历话题-文档分布中的所有文档

如果标签σ出现在文档

的标题chunk名词集合中，则将文档

在话题τ中的话题-文档分布值累加到标签σ的匹配度得分中。式(4-3-8)描述了标签排名与最终选取方案，即选取在标签打分函数F中排名最高的标签作为话题的最终标签。

方式④为针对标题、关键字采用基于话题文档分布的标签标定法，采用公式描述如式(4-4-1)～式(4-4-8)所示：

式(4-4-1)中H是临时定义的一个符号，表示一个标签候选集，

表示文档编号，N-d表示文档总数量，O表示论文的元信息，O.title表示论文的题目元信息，O.title.d表示文档

的题目，

表示

号文档的关键词，chunk表示名词词组化，∪取并集。

Γ.1＝Γ.2＝…＝Γ.N_t＝H (4-4-2)

式(4-4-2)中，H是上式定义的标签候选集，Γ为候选标签集，Γ.1表示话题1的标签候选集，Γ.2表示话题2的标签候选集，Γ.N_t表示话题N_t的标签候选集，话题数量为N_t。

式(4-4-3)中，

表示文档

出现的概率，N_d表示文档总数量。

式(4-4-4)中，

表示以话题τ为前提出现文档

的概率，

表示以文档

为前提出现话题τ的概率(已经由概率模型计算出)，式(4-4-4)即贝叶斯公式。

式(4-4-5)中，分子分母同时约掉了

其余各符号定义参见式(4-4-4)。

式(4-4-6)中，

是临时定义的一个函数，表示字符串σ是否属于

号文档的标题名词词组化后的字符串集合或者

号文档的关键词集合中。

式(4-4-7)中，F.τ.σ是指候选标签σ在话题t中的得分。

表示将出现了候选标签σ的所有文档的话题-文档概率相加，

表示字符串σ是否属于

号文档的标题名词词组化后的字符串集合，

表示以话题τ为前提出现文档

的概率。

L.τ＝argmax_(σ)(F.τ.σ) (4-4-8)

式(4-4-8)中，L.τ表示τ号话题最后由标签标定算法确定的话题标签，argmax表示使右式值最大的变化参数的取值，F.τ.σ表示话题Γ的标签候选集Γ.τ中的候选标签σ的得分。

除式(4-4-1)与式(4-4-6)以外，其余均与方式③中的内容一致。式(4-4-1)在原有的标题chunk名词集合上增加了关键词集合作为候选标签，式(4-4-6)在原有判断是否在标题chunk名词集合中外增加了一个或者在关键词集合中的判断条件。

方式⑤为采用基于话题文档分布的标签标定法增强的First-Order方法，采用公式描述如式(4-5-1)～式(4-5-11)所示：

式(4-5-1)中，Γ.τ表示话题τ的候选标签集，

表示语料库中

号文档内容名词词组化的结果，

表示

号文档话题分布中话题

的概率，

表示

号文档的文档话题分布中概率最大的话题是τ。

式(4-5-2)中，

是临时定义的一个函数，表示字符串w是否属于

号文档的分词后的字符串集合。

表示语料库Ψ中的

号文档的分词结果，是一个字符串集合。

式(4-5-3)中，

是临时定义的一个函数，表示字符串w是否属于

号文档名词词组化后的字符串集合。

表示语料库中

号文档内容名词词组化的结果，是一个字符串集合。

式(4-5-4)中，

是临时定义的一个函数，表示词w(字符串)和名词词组σ(字符串)是否出现在同一个文档d中。

式(4-5-5)中，

表示话题-文档概率(以话题τ为前提，出现文档

的概率)，推理过程同式(4-4-4)、(4-4-5)。

式(4-5-6)中，

是临时定义的一个函数，表示出现词w的文档在话题τ下的话题-文档概率之和。

式(4-5-7)中，

是临时定义的一个函数，表示出现名词词组σ的文档在话题τ下的话题-文档概率之和。

式(4-5-8)中，

是临时定义的一个函数，表示同时出现词w和名词词组σ的文档在话题τ下的话题-文档概率之和。。

式(4-5-9)中，pmi表示Pointwise mutual information(点互信息)的计算函数，log指数学的对数函数。与式4-2-8相比，此式考虑了话题的影响。

F.τ.σ＝∑_w∈Υ(pmi(τ，w，σ)×T.τ.(V.w))forσ∈Γ.τ (4-5-10)

式(4-5-10)中，F.τ.σ是指候选标签σ在话题τ中的得分，T.τ.(V.w)表示词V.w在话题τ中的概率，γ描述对语料库中的所有文档分词后的词袋集合取并，Γ.τ表示τ的标签候选集。

L.τ＝argmax_(σ)(F·τ·σ) (4-5-11)

式(4-5-11)中，L.τ表示τ号话题最后由标签标定算法确定的话题标签，argmax表示使右式值最大的变化参数的取值，F.τ.σ表示话题τ的标签候选集Γ.τ中的候选标签σ的得分。

式(4-5-5)前的式子与方式②相同，式(4-5-5)描述的是话题-文档分布。式(4-5-6)、(4-5-7)、(4-5-8)、(4-5-9)、(4-5-10)分别在方式②节的基础上引入了话题-文档分布的权重计算。这使得对话题τ影响更大的文档

对PMI值的影响也更大。式(4-5-11)与方式②相同。

本实施例中，利用基于近义词的一次传播改进方法分别进行提高优化的详细步骤包括：S1)根据已有的标签打分函数F计算新的标签打分函数

中排名最高的标签作为话题的最终标签。利用基于近义词的一次传播改进方法用于改进上述等方法的性能，标签打分函数F已经由上述等方法计算获得。词与词的相似度定义为

例如，

表示“深度学习”与“神经网络”有0.81的相似度。当

时，表示w₁＝w₂。本方法公式描述如下：

(4-6-1)描述根据已有的标签打分函数F计算新的标签打分函数

的过程：在话题τ中，对于一个候选标签σ，遍历τ的整个候选标签集，将遍历得到得每一个候选标签

的已有分值进行加权求和，权重是σ与

的相似度。这使得话题的候选标签重新排序，将候选标签的中心语义标签的排名提前。式(4-6-2)描述了标签排名与最终选取方案，即选取在新的标签打分函数

中排名最高的标签作为话题的最终标签。

本实施例中，用户需要精确分析话题内涵时，本实施例将方式①～⑤的5种方法利用基于近义词的一次传播改进方法进行提高优化后的5种标签均提供给用户，从而弥补各种方法的不足。本实施例中的人工测试由两名志愿者分别进行，最终两人的评测结果相似度达到78.2％，保证了足够的客观性。

本实施例中，测试一共有117个话题，每个话题有5个本实施例生成的标签，分别对应方式①～⑤经过利用基于近义词的一次传播改进方法进行提高优化后的结果。志愿者对每个话题选择0-5个标签作为能够代表该话题内容的优质标签。如果某种方法的标签被选中一次，则该方法的分数加

最后取两名志愿者打分的平均值。测试结果如下表3所示：

表3：测试结果。

方法	方式①	方式①	方式③	方式④	方式⑤
						得分	0.0760	0.2997	0.5343	0.6231	0.3923

本实施例将使用Top-1(其结果如图7所示，图中词的大小代表词作为该话题标签的得分，比如此图所示话题的Top-1标签为“网络”)、First-Order、标题DocD(其过程如图8所示，利用话题-文档分布为从文档标题中获得的名次块进行打分排序)、标题+关键词DocD、DocD增强的First-Order共5种方法，再利用基于近义词的一次传播改进方法(如图9，将原本的候选标签重新排序，确定了语义中心——“机器人”。于是“机器人”取代了原有的“深度学习”成为优化后的话题标签)优化后的5种标签均提供给用户，从而弥补各种方法的不足。当用户需要概略地分析话题外延时，如话题热点分析、研究力量分析、话题趋势分析(如图10、图11、图12所示)等。本实施例提供经过近义词“一次传播”优化后的标题+关键词DocD方法所得的标签。

综上所述，本实施例要解决的技术问题是提供一种利用论文元数据的贝叶斯概率统计方法，对LDA建模所得话题进行自动标签标定，使得人类可以直观迅速地了解大量论文主要谈论的主题，为热点话题分析、趋势预测、论文分类、研究力量分析等一系列需求提供话题标签基础。LDA建模过程中信息的损失很大，最终得到论文的话题分布和话题的词分布，人类无法通过这些话题理解文档谈论的主题。论文本身的信息包括题目、关键词、摘要对于文章的主题等对于话题的标注都是非常有价值的元数据。本实施例的技术方案是：通过文档-的摘要分词过滤后形成的词袋训练LDA主题模型，LDA模型最终输出的是文档--主题分布和主题-词分布，LDA模型输出的文档-主题分布太过抽象，人类难以理解。本实施例提出了通过LDA模型计算得到的文档-话题分布使用贝叶斯定理计算话题-文档分布，利用文档的元数据产生候选标签集，并使用话题-文档分布为候选标签打分排名以选取最优标签。在本实施例中，标签的候选集合主要从文档的元数据中抽取，本实施例分别选取了文档的题目与文档的关键词。采用本实施例基于贝叶斯的LDA话题标签标定方法可达到如下有益效果：

(1)话题分析。本实施例通过LDA话题模型得到的论文话题分布计算论文集的话题分布，结合本实施例通过话题的文档分布与论文的元数据计算得到该话题的标签，实现话题的热点分析，也可以通过论文集的话题分布对论文的研究力量进行统计分析。话题热点分析——将LDA所得所有论文的文档-话题分布进行按概率加权得到当前论文集的话题分布，通过本实施例获得的话题的标签，可使人类理解话题分布，并通过论文集的话题分布计算当前论文集的热点话题。话题研究力量分析——将LDA所得所有论文的文档-话题分布进行按概率加权得到当前论文集的话题分布，利用论文的元数据可以统计每个话题的研究力量，如指导老师、研究专业等等，结合本实施例获得的话题的标签，分析话题的研究团队与个人分布情况。

(2)论文分类。通过本实施例实现的对每个话题自动标签标定方法，结合LDA输出的论文对应的话题分布，将论文集中论文分类到文档-话题分布中最大概率对应的话题中，一个话题对应一类，类别名即本方法所得标签。

(3)摘要生成。通过本实施例实现的话题标签标定方法，结合论文集的文档话题分布，可以对论文集生成摘要，也可对论文集的各个分类生成摘要。

(4)趋势分析。通过LDA获取的论文的话题分布计算话题的文档分布概率作为该话题在该论文中的权重，按照论文的时间即年份对该话题进行统计，分析话题趋势。

此外，本实施例还提供一种基于贝叶斯的LDA话题标签标定系统，包括:

此外，本实施例还提供一种基于贝叶斯的LDA话题标签标定系统，包括计算机设备，该计算机设备被编程或配置以执行本实施例前述基于贝叶斯的LDA话题标签标定方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行本实施例前述基于贝叶斯的LDA话题标签标定方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行本实施例前述基于贝叶斯的LDA话题标签标定方法的计算机程序。

实施例二：

本实施例与实施例一基本相同，其主要区别为：用户的应用需求不同，以及步骤4)的详细步骤不同。

实施例一的应用需求为用户需要精确分析话题内涵，而本实施例的应用需求用户需要概略地分析话题外延时，如话题热点分析、研究力量分析、话题趋势分析等。

本实施例中，步骤4)的详细步骤包括：首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果，然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签，并从得到的多种标签中选择出期望最好的一种标签提供给用户。作为一种具体的实施方式示例，本实施例仍然采用实施例一记载的方式①～⑤五种方法得到的结果，利用基于近义词的一次传播改进方法进行提高优化后得到的五种标签中期望最好的一个标签提供给用户，其中方式①为Top-1方法，方式②为First-Order方法，方式③为标题的基于话题文档分布的标签标定法，方式④为针对标题、关键字采用基于话题文档分布的标签标定法，方式⑤为采用基于话题文档分布的标签标定法增强的First-Order方法。本实施例提供5种标签中期望最好的一个标签，本实施例经过人工测试发现，经过近义词“一次传播”后的标题+关键词DocD方法(基于话题文档分布的标签标定法)命中率最高。因此，本实施例会将近义词“一次传播”后的标题+关键词DocD方法(基于话题文档分布的标签标定法)所得标签提供给需要概略分析话题外延的需求。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于贝叶斯的LDA话题标签标定方法，其特征在于实施步骤包括：

4)根据立隐含狄利克雷分布模型LDA得到的话题分布概率、词分布概率，以及元数据数据库元数据进行话题的标签标定；

步骤4)的详细步骤包括：首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果，然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签并全部提供给用户；或者步骤4)的详细步骤包括：首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果，然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签，并从得到的多种标签中选择出期望最好的一种标签提供给用户。

2.根据权利要求1所述的基于贝叶斯的LDA话题标签标定方法，其特征在于，步骤1)中对科技文献文档进行元数据抽取的步骤包括：通过正则表达式模式匹配获取关键字段的位置，通过关键字段的位置判断该关键字段对应的元数据位置，结合元数据特征来获取元数据。

3.根据权利要求1所述的基于贝叶斯的LDA话题标签标定方法，其特征在于，步骤2)中的降噪和过滤处理包括非法词过滤、停用词过滤、低频词过滤、高频词过滤中的至少一种降噪和过滤处理方式。

4.根据权利要求1所述的基于贝叶斯的LDA话题标签标定方法，其特征在于，步骤3)中指定主题数量k时，指定主题数量k的值为k＝N/n，其中N是论文集的论文数量，n为经验参数。

5.根据权利要求1所述的基于贝叶斯的LDA话题标签标定方法，其特征在于，所述利用基于近义词的一次传播改进方法分别进行提高优化的详细步骤包括：S1)根据已有的标签打分函数F计算新的标签打分函数

中排名最高的标签作为话题的最终标签。

6.一种基于贝叶斯的LDA话题标签标定系统，其特征在于，包括:

话题标签标定程序单元，用于根据立隐含狄利克雷分布模型LDA得到的话题分布和话题的词分布概率，以及元数据数据库元数据进行话题的标签标定；

所述话题标签标定程序单元的详细步骤包括：首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果，然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签并全部提供给用户；或者所述话题标签标定程序单元的详细步骤包括：首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果，然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签，并从得到的多种标签中选择出期望最好的一种标签提供给用户。

7.一种基于贝叶斯的LDA话题标签标定系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～5中任一所述基于贝叶斯的LDA话题标签标定方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行权利要求1～5中任一所述基于贝叶斯的LDA话题标签标定方法的计算机程序。

8.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～5中任一所述基于贝叶斯的LDA话题标签标定方法的计算机程序。