CN110569270B - 一种基于贝叶斯的lda话题标签标定方法、系统及介质 - Google Patents

一种基于贝叶斯的lda话题标签标定方法、系统及介质 Download PDF

Info

Publication number
CN110569270B
CN110569270B CN201910753484.XA CN201910753484A CN110569270B CN 110569270 B CN110569270 B CN 110569270B CN 201910753484 A CN201910753484 A CN 201910753484A CN 110569270 B CN110569270 B CN 110569270B
Authority
CN
China
Prior art keywords
topic
word
label
distribution
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910753484.XA
Other languages
English (en)
Other versions
CN110569270A (zh
Inventor
李莎莎
余诗文
唐晋韬
王挺
高辉
李建玲
庞焜元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201910753484.XA priority Critical patent/CN110569270B/zh
Publication of CN110569270A publication Critical patent/CN110569270A/zh
Application granted granted Critical
Publication of CN110569270B publication Critical patent/CN110569270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及科技文献挖掘领域,本发明公开了一种基于贝叶斯的LDA话题标签标定方法、系统及介质,本发明标签标定方法包括元数据抽取、分词与过滤、LDA建模以及标签匹配的步骤,本发明通过对LDA话题建模输出的科技文献的话题分布进行自动标签标定,来帮助人类理解科技文献主要研究内容。本发明还进一步对话题进行分析,包括话题的热点分析和话题的研究力量分析,还可以通过科技文献的话题标签对科技文献进行分类,也可以基于科技文献集的话题和话题的标签生成该科技文献集的摘要,同时也可以通过科技文献话题和话题标签预测科研趋势。

Description

一种基于贝叶斯的LDA话题标签标定方法、系统及介质
技术领域
本发明涉及科技文献挖掘领域,具体涉及一种基于贝叶斯的LDA(LatentDirichlet Allocation,隐狄利克雷分配模型)话题标签标定方法、系统及介质,用于对大量科技文献进行话题建模并对所得话题进行自动标定(命名)。
背景技术
随着数字化信息的膨胀,从中检索对我们有用的信息,挖掘有效的知识成为了一大难题。目前,学术界都在为大量膨胀的文献数量为难,人们开始使用LDA对大量文献进行话题建模,试图直接得知大量文献的主题分布。然而LDA话题模型得到的话题描述是一个在词典上的概率分布,如一个人工智能领域的。人如果想要理解这个话题,则必须要对话题的词分布进行理解,这一点计算机容易做到,人却很难。所以,进行话题标签标定成为了主要的解决手段。
最早的解决方案是使用话题词分布中概率最大的一个词作为话题标签,称为Top-1方法。随后衍生出了取概率最大的多个词作为话题标签的方法。此类方法统称为Top-N方法。Top-N方法的问题在于,话题词分布概率最大的词并不一定能够代表整个话题的含义,恰恰相反,在大多数情况下,Top-N的话题标签无法代表整个话题。比如,一个含义为“机器学习”的话题的话题词分布下,“神经”这个词的概率最大,于是Top-1会将该话题标定为“神经”。为了解决Top-N方法的缺陷,Qiaozhu Mei等人的论文Automatic Labeling ofMultinomial Topic Models(多项主题模型的自动标注)正式定义了对多项式分布的话题标注的问题,并提出了标签候选抽取和候选打分排名的两个步骤。候选抽取指的是从待分析文献或额外的语料库中抽取一组标签的候选集合。打分排名是根据特定话题的特点,为它给所有候选集合中的标签打分,最后选择打分后排名靠前的一个或几个候选词作为该话题的标签。对于候选抽取和打分排名两个步骤,目前有很多不同的解决方案。First-Order是目前比较流行的通过PMI(Pointwise mutual information,点互信息)利用话题-词分布进行话题标签标定的方法。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于贝叶斯的LDA话题标签标定方法、系统及介质,本发明通过对LDA话题建模输出的科技文献的话题分布进行自动标签标定,来帮助人类理解科技文献主要研究内容。除此之外,科技文献话题的标签可以进一步对话题进行分析,包括话题的热点分析和话题的研究力量分析,还可以通过科技文献的话题标签对科技文献进行分类,也可以基于科技文献集的话题和话题的标签生成该科技文献集的摘要,同时也可以通过科技文献话题和话题标签预测科研趋势。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于贝叶斯的LDA话题标签标定方法,实施步骤包括:
1)对科技文献文档进行元数据抽取,并存储至元数据数据库;
2)对纯文本格式的科技文献文档进行分词、降噪和过滤处理得到词袋;
3)建立隐含狄利克雷分布模型LDA,指定主题数量k并基于词袋进行训练,使其建立输入文档-输出内容之间的映射关系,所述输出内容包括输入文档的文档-话题分布和话题的话题-词分布,且话题分布由元组(话题id,话题分布概率)组成的数组表示,词分布由元组(词id,词分布概率)组成的数组来表示;
4)根据立隐含狄利克雷分布模型LDA得到的话题分布概率、词分布概率,以及元数据数据库元数据进行话题的标签标定。
可选地,步骤1)中对科技文献文档进行元数据抽取的步骤包括:通过正则表达式模式匹配获取关键字段的位置,通过关键字段的位置判断该关键字段对应的元数据位置,结合元数据特征来获取元数据。
可选地,步骤2)中的降噪和过滤处理包括非法词过滤、停用词过滤、低频词过滤、高频词过滤中的至少一种降噪和过滤处理方式。
可选地,步骤3)中指定主题数量k时,指定主题数量k的值为k=N/n,其中N是论文集的论文数量,n为经验参数。
可选地,步骤4)的详细步骤包括:首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果,然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签并全部提供给用户。
可选地,步骤4)的详细步骤包括:首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果,然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签,并从得到的多种标签中选择出期望最好的一种标签提供给用户。
可选地,所述利用基于近义词的一次传播改进方法分别进行提高优化的详细步骤包括:S1)根据已有的标签打分函数F计算新的标签打分函数
Figure BDA0002167992750000021
在话题τ中,对于一个当前候选标签σ,遍历τ的整个候选标签集,将遍历得到得每一个候选标签
Figure BDA0002167992750000022
的已有分值进行加权求和,权重是当前候选标签σ与遍历得到的候选标签
Figure BDA0002167992750000023
的相似度,使得话题的候选标签重新排序,将候选标签的中心语义标签的排名提前;S2)标签排名与最终选取:选取在新的标签打分函数
Figure BDA0002167992750000024
中排名最高的标签作为话题的最终标签。
此外,本发明还提供一种基于贝叶斯的LDA话题标签标定系统,包括:
元数据抽取程序单元,用于对科技文献文档进行元数据抽取,并存储至元数据数据库;
文献预处理程序单元,用于对纯文本格式的科技文献文档进行分词、降噪和过滤处理得到词袋;
LDA训练程序单元,用于建立隐含狄利克雷分布模型LDA,指定主题数量k并基于词袋进行训练,使其建立输入文档-输出内容之间的映射关系,所述输出内容包括输入文档的文档-话题分布和话题的话题-词分布,且话题分布由元组(话题id,分布概率)组成的数组表示,词分布由元组(词id,分布概率)组成的数组来表示;
话题标签标定程序单元,用于根据立隐含狄利克雷分布模型LDA得到的话题分布和话题的词分布概率,以及元数据数据库元数据进行话题的标签标定。
此外,本发明还提供一种基于贝叶斯的LDA话题标签标定系统,包括计算机设备,该计算机设备被编程或配置以执行所述基于贝叶斯的LDA话题标签标定方法的步骤,或该计算机设备的存储介质上存储有被编程或配置以执行所述基于贝叶斯的LDA话题标签标定方法的计算机程序。
此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行所述基于贝叶斯的LDA话题标签标定方法的计算机程序。
和现有技术相比,本发明具有下述优点:本发明通过对LDA话题建模输出的科技文献(论文等)的话题分布进行自动标签标定,来帮助人类理解科技文献主要研究内容。科技文献话题的标签可以进一步对话题进行分析,包括话题的热点分析和话题的研究力量分析,还可以通过科技文献的话题标签对科技文献进行分类,也可以基于科技文献集的话题和话题的标签生成该科技文献集的摘要,同时也可以通过科技文献话题和话题标签预测科研趋势。
附图说明
图1是本发明实施例方法的整体原理图。
图2是本发明实施例中步骤1)的元数据抽取结果示意图。
图3是本发明实施例中步骤2)的降噪过滤流程示意图。
图4是本发明实施例中步骤3)的LDA概率模型解释图。
图5是本发明实施例中步骤3)的LDA模型结果图。
图6是本发明实施例中步骤4)经过贝叶斯推理后的论文标题概率分布图。
图7是本发明实施例中步骤4)使用Top-1方法的词云图。
图8是本发明实施例中步骤4)关键字的DocD方法示意图。
图9是本发明实施例中步骤4)近义词“一次传播”优化方法示意图。
图10是本发明实施例中话题热点分析的展示图。
图11是是本发明实施例中研究力量分析的展示图。
图12是是本发明实施例中的趋势分析的展示图。
具体实施方式
下文将以论文文献作为科技文献的实例,对本发明基于贝叶斯的LDA话题标签标定方法、系统及介质进行进一步的详细说明。毫无疑问,本发明基于贝叶斯的LDA话题标签标定方法、系统及介质也可以适用于其他类型的科技文献,包括专利文献等。
实施例一:
如图1所示,本实施例中基于贝叶斯的LDA话题标签标定方法的实施步骤包括:
1)对科技文献文档进行元数据抽取,并存储至元数据数据库;
2)对纯文本格式的科技文献文档进行分词、降噪和过滤处理得到词袋;
3)建立隐含狄利克雷分布模型LDA,指定主题数量k并基于词袋进行训练,使其建立输入文档-输出内容之间的映射关系,所述输出内容包括输入文档的文档-话题分布和话题的话题-词分布,且话题分布由元组(话题id,话题分布概率)组成的数组表示,词分布由元组(词id,词分布概率)组成的数组来表示;
4)根据立隐含狄利克雷分布模型LDA得到的话题分布概率、词分布概率,以及元数据数据库元数据进行话题的标签标定。
本实施例步骤1)中从学位论文的pdf格式数据集中匹配如“分类号”、“学号”、“U DC”、“硕士生姓名”、“学科专业”、“工程领域”、“研究方向”、“指导教师”等关键字段来获取论文元数据,且将抽取到的元数据以及对应的关键字段存储于结构化数据库中,便于后续的数据查询使用。
本实施例中,步骤1)中对科技文献文档进行元数据抽取的步骤包括:通过正则表达式模式匹配获取关键字段的位置,通过关键字段的位置判断该关键字段对应的元数据位置,结合元数据特征来获取元数据。用于获取元数据的关键字段正则表达式如表1所示:
表1:关键字段对应正则表达式。
Figure BDA0002167992750000041
Figure BDA0002167992750000051
本实施例通过关键字段和对应元数据的位置关系,结合元数据的特征获取元数据,例如关键字段“分类号”对应的元数据即图书馆分类号以大写字母开头以数字结尾,其模式可以用正则表达式[A-Z]+[0-9]+\.{0,1}[0-9]*来表示。
本实施例选择MySql存储元数据。创建论文元数据的库和表,数据库表头如表2所示。对“id”、“director”、“classNumber”、“major”、“area”、“year”、“diploma”等关键字段建立索引。如图2所示是数据库抽取完成后的结果。
表2:元数据的数据库表头。
Figure BDA0002167992750000052
本实施例中,论文文献均为PDF格式,因此为了获得纯文本格式的论文文献,本实施例步骤2)之前需要使用python的PDFMiner文本解析器将pdf的数据转换成纯文本格式,由于解析pdf文件耗费大量内存和时间,故采用PDFMiner的lazy parsing策略,只在需要论文数据的时候去解析该论文。
本实施例中,步骤2)中对纯文本格式的科技文献文档进行分词选择jieba分词工具对语料库中的论文进行分词得到训练文档主题模型的词袋。本实施例主要针对科技文献文档挖掘,在科技文献文档中,一些领域词如“端到端”,“中央处理器”会被通用分词器进行不当分词。因此,本实施例通过引入领域词典,提高通用分词器在科技文献文档中的分词性能。本实施例引入了CNKI翻译助手网站的词典作为领域词典。
在论文格式转换过程中,会因为特殊字符、图片以及公式等导致转换文本中出现乱码,因此本实施例采用非法词过滤机制对文本进行降噪处理。除了采用非法词过滤机制,本实施例还引入了停用词机制提高词袋质量。对于分词结果中不含语义或者语义成分过于复杂的词,本实施例采用了基于词在文档中的频率(DF)进行过滤处理。步骤2)中的降噪和过滤处理包括非法词过滤、停用词过滤、低频词过滤、高频词过滤中的至少一种降噪和过滤处理方式。
非法词过滤:pdf转换过程中会出现乱码,并且科技文献文档中中英文混杂以及大量的数字标引会导致分词结果中出现无意义的词,这些词称为非法词。针对这种情况,本实施例定义以下规则识别非法词:1)全数字的词;2)并非全是中文的词,且长度大于12或小于2的词。
停用词过滤:停用词指在文本处理过程中可以被忽略的词,有些词无实际意义,比如连词,如果将其放入词袋,不仅增加训练的时间,而且影响训练效果。停用词也包括对于计算机来说语义过于复杂的词,例如“与其说……不如说……”这种语法结构词。本实施例采用停用词表的方式对其进行过滤,即将所有停用词放入词汇表中,当分词结果属于停用词时,自动忽略该词。
低频词过滤:在本实施例中,利用词在文档中的频率(DF)对分词结果的低频词进行过滤。词A在文档中的频率DF(A)的定义为该词在文档集中的所有出现的文章的数目。例如,语料库中共300篇论文,词A在其中的120篇论文中出现,即DF(A)=120。在本实施例中假设:1)对于词A,如果DF(A)<2,即A只在一篇论文中出现过,那么词A是在文本转换时因为特殊字符或图片而产生的噪音;2)对于词A,如果DF(A)<2,即A只在一篇论文中出现过,A是该论文出现的专有词汇。对于假设1),用低频词过滤从而达到降噪的效果,对于假设2),本实施例考虑到LDA的模型特征,忽略该专有词汇。
高频词过滤:部分分词结果如“表”、“算法”、“系统”、“实验”、“章”均是高频词,几乎所有的话题都会同等程度的涉及这些词汇,这些高频词对于话题建模无帮助,并且会不同程度地影响话题建模的结果。在本实施例中,对高频词的定义为DF(A)=论文集的论文数目*q,经过实验最终确定q=0.6,即当词A在文档集中60%的论文中出现,词A即为高频词。本实施例中LDA主题模型的训练数据忽略高频词汇。
如图3所示,本实施例中首先检查单词是否在停用词表中,如果在,则直接过滤,如果不在则检查是否全为中文,如果全为中文,则不过滤,如果不是则检查是否全为数字,如果全为数字,则过滤掉,如果不是则检查长度,如果长度小于2或长度大于12都被会当作非法词过滤掉。最后本实施例再进行低频词过滤和高频词过滤,过滤掉只在一篇文档中出现的词和在60%以上文档都出现过的词。
本实施例中的LDA话题概率图模型如图4所示,主题用β1:K来表示,每一个βk都是一个在词汇表上的概率分布。第d个文档的主题分布用θd来表示,θd,k是指k号主题在d号文档的比重。在第d个文档里的每个单词的主题归属用Zd来表示,Zd,n指在第d个文档里第n个单词的主题归属。我们观察到的第d个文档的单词用Wd来表示,Wd,n是这篇文档的第n个单词,这些单词都是一个固定词汇集里的元素。
隐含狄利克雷分布模型LDA是无监督训练的主题模型,隐含狄利克雷分布模型LDA在训练时不需要手工标注的训练集,仅需要预料可和指定的主题数量等训练参数,最终输出文档集的话题分布和话题的词分布。
LDA模型参数选择:本实施例中,步骤3)中指定主题数量k时,指定主题数量k的值为k=N/n,其中N是论文集的论文数量,n为经验参数。本实施例中n=18,是经验参数。此外,本实施例指定LDA模型参数alpha='auto',eta='auto'。
LDA模型训练:本实施例中采用gensim库中的gensim.ldamodel进行LDA模型的构建。gensim库是一个自然语言处理库,gensim.ldamodel是LDA模型在python的一个实现。该模型既可以根据输入的语料库估计LDA模型的参数,又可以对不在预料库中的文档计算其话题分布和词分布,还能进行增量训练。本实施例中采用摘要代替全文作为LDA模型的输入,故训练所花时间大幅减少,也不需要进行分布式计算。训练完成之后,最终得到一个gensim.models.ldamodel.LdaModel类的对象(即LDA模型),通过对该该类的方法get_document_topics和get_topic_terms调用,最终会得到一个文档的话题分布和话题的词分布,其中话题分布由元组(话题id,概率)组成的数组表示,词分布由元组(词id,概率)组成的数组来表示,如图5所示。
本实施例中,步骤4)利用步骤3)中得到的两种概率分布——话题-词分布与文档-话题分布,以及步骤1)中得到的论文元数据进行话题的标签标定。所有方法均可以分为两个步骤——制作标签候选集与打分排名。本实施例中,形式化定义如下:
设文档数量为N_d,话题数量为N_t。
设语料库为Ψ,
Figure BDA0002167992750000071
其中
Figure BDA0002167992750000072
是从0开始的整数集合,S是全体字符串构成的集合。例如Ψ.2={″智能化运算网络......″}表示2号文档的内容为{′智能化运算网络......″}。设分词函数为E,
Figure BDA0002167992750000073
其中,S是全体字符串构成的集合,S*表示S的幂集,例如
Figure BDA0002167992750000074
Figure BDA0002167992750000075
设chunk函数(用于实现名词词组化)为chunk,
Figure BDA0002167992750000076
Figure BDA0002167992750000077
例如chunk.(Ψ.2)={″智能运算网络″,......}。
设论文元数据为O,O.title与O.keyword分别表示论文的标题与关键字。
Figure BDA0002167992750000078
Figure BDA0002167992750000079
例如,O.title.1表示1号文档的标题。
为描述方便,设符号
Figure BDA00021679927500000715
γ描述对语料库中的所有文档分词后的词袋集合取并。
设字典为V,
Figure BDA00021679927500000710
S是全体字符串构成的集合,例如,
Figure BDA00021679927500000711
为了方便描述,下文中语料库中字符串的词w,w∈S都由它的ω来表示,其中ω=V.w。
设话题-词分布为T,
Figure BDA00021679927500000712
设一个词为ω,一个话题为τ,
Figure BDA00021679927500000713
则词ω在话题τ中的概率为T.τ.ω,
Figure BDA00021679927500000714
例如T.3.(V.″智能″)=0.78表示三号话题中“智能”出现的概率为78%。
设文档-话题分布为D,
Figure BDA0002167992750000081
设一篇文档为
Figure BDA0002167992750000087
Figure BDA0002167992750000082
则在文档
Figure BDA0002167992750000088
中话题τ的概率为
Figure BDA0002167992750000089
设候选标签集为Γ,
Figure BDA0002167992750000083
Γ.τ表示话题τ的标签候选集。
设话题-标签打分函数为F,
Figure BDA0002167992750000084
则候选标签σ,σ∈S在话题τ中的匹配度打分为F.τ.σ,
Figure BDA0002167992750000085
例如,F.3.(″人工智能″)=91表示在三号话题中,标签“人工智能”得分为91。
设标签标定函数为L,
Figure BDA0002167992750000086
例如L.3=″人工智能″表示3号话题最后由标签标定算法确定的话题标签为“人工智能”。
本实施例中,步骤4)的详细步骤包括:首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果,然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签并全部提供给用户。本实施例中,指定的多种候选集筛选及打分方法包括下述方式①~⑤五种方法,其中方式①为Top-1方法,方式②为First-Order方法,方式③为标题的基于话题文档分布的标签标定法,方式④为针对标题、关键字采用基于话题文档分布的标签标定法,方式⑤为采用基于话题文档分布的标签标定法增强的First-Order方法。本实施例在top-1以及PMI的基础上,提出了利用元数据的基于贝叶斯的话题-文档分布的标签标定方法,同时提出了通过近义词对标签质量进行优化的手段,见方式③、方式④、方式⑤。需要说明的是,前述指定的多种候选集筛选及打分方法并不局限于上述方式①~⑤五种方法。
方式①为Top-1方法,Top-1方法为现有方法,采用公式描述如式(4-1-1)~式(4-1-3)所示:
Γ.1=Γ.2=…=Γ.N_t=Υ (4-1-1)
式(4-1-1)中,Γ为候选标签集,Γ.τ表示话题τ的标签候选集,话题数量为N_t,Υ描述对语料库中的所有文档分词后的词袋集合取并。
F.τ.σ=T.τ.(V.σ)forσ∈Γ.τ (4-1-2)
式(4-1-2)中,F.τ.σ表示话题τ的标签候选集Γ.τ中的候选标签σ的得分,V.σ表示字典V中的候选标签σ的ID号(独一无二的整数标识,用整数代替之前的字符串),T.τ.(V.σ)表示词V.σ在话题τ中的概率,σ表示候选标签。
L.τ=argmax(σ)(F.τ.σ) (4-1-3)
式(4-1-3)中,L.τ表示τ号话题最后由标签标定算法确定的话题标签,argmax表示使右式值最大的变化参数的取值,F.τ.σ表示话题τ的标签候选集Γ.τ中的候选标签σ的得分。
参见式(4-1-1)~式(4-1-3),式(4-1-1)描述了标签候选集的选取方式,对语料库中的所有文档分词后的词袋集合取并,将语料库中的所有词作为所有话题的标签候选集,任意两个话题的标签候选集是相同的。式(4-1-2)描述了标签打分函数的定义,标签打分函数等同于话题-词分布T。例如词w在话题τ中的标签匹配度等于词V.w在话题τ中的概率。式(4-1-3)描述了标签排名与最终选取方案,即选取在标签打分函数F中排名最高的标签作为话题的最终标签。
方式②为First-Order方法,TFirst-Order方法为现有方法,其采用公式描述如式(4-2-1)~式(4-2-10)所示:
Figure BDA0002167992750000091
式(4-2-1)中,Γ.τ表示话题τ的候选标签集,
Figure BDA00021679927500000917
表示语料库中
Figure BDA00021679927500000918
号文档内容名词词组化的结果,
Figure BDA0002167992750000092
表示
Figure BDA00021679927500000919
号文档话题分布中话题
Figure BDA0002167992750000093
的概率,
Figure BDA0002167992750000094
表示
Figure BDA00021679927500000920
号文档的文档话题分布中概率最大的话题是τ。
Figure BDA0002167992750000095
式(4-2-2)中,K是临时定义的一个函数,表示字符串w是否属于
Figure BDA00021679927500000921
号文档的分词后的字符串集合。E.(Ψ.d)表示语料库Ψ中的
Figure BDA00021679927500000922
号文档的分词结果,是一个字符串集合。
Figure BDA0002167992750000096
式(4-2-3)中,
Figure BDA0002167992750000097
是临时定义的一个函数,表示字符串w是否属于
Figure BDA00021679927500000923
号文档名词词组化后的字符串集合。
Figure BDA00021679927500000924
表示语料库中
Figure BDA00021679927500000925
号文档内容名词词组化的结果,是一个字符串集合。
Figure BDA0002167992750000098
式(4-2-4)中,
Figure BDA0002167992750000099
是临时定义的一个函数,表示词w(字符串)和名词词组σ(字符串)是否出现在同一个文档
Figure BDA00021679927500000926
中。
Figure BDA00021679927500000910
式(4-2-5)中,
Figure BDA00021679927500000911
是临时定义的一个函数,表示出现词w的文档的数量。
Figure BDA00021679927500000912
式(4-2-6)中,
Figure BDA00021679927500000913
是临时定义的一个函数,表示出现名词词组σ的文档的数量。
Figure BDA00021679927500000914
式(4-2-7)中,
Figure BDA00021679927500000915
是临时定义的一个函数,表示同时出现词w和名词词组σ的文档的数量。
Figure BDA00021679927500000916
式(4-2-8)中,pmi表示Pointwise mutual information(点互信息)的计算函数,log指数学的对数函数。
F.τ.σ=∑w∈Υ(pmi(w,σ)×T.τ.(V.w))forσ∈Γ.τ (4-2-9)
式(4-2-9)中,F.τ.σ是指候选标签σ在话题τ中的得分。T.τ.(V.w)表示词V.w在话题τ中的概率。Υ描述对语料库中的所有文档分词后的词袋集合取并。Γ.τ表示τ的标签候选集。
L.τ=argmax(σ)(F.τ.σ) (4-2-10)
式(4-2-10)中,L.τ表示τ号话题最后由标签标定算法确定的话题标签,argmax表示使右式值最大的变化参数的取值,F.τ.σ表示话题τ的标签候选集Γ.τ中的候选标签σ的得分。
(4-2-1)描述了First-Order方法选取候选标签集的过程,对于一个话题τ,遍历所有的文档
Figure BDA0002167992750000103
如果文档
Figure BDA0002167992750000104
的文档-话题分布在该话题上取最大概率,则将文档
Figure BDA0002167992750000105
加入一个集合中。随后将集合中的每一篇文档chunk化(名词词组化),一篇文档可以得到一个名词集合。最后将所有的名词集合取并集得到话题τ的候选集合。式(4-2-2)描述了一个判断词w是否在文档
Figure BDA0002167992750000106
的词袋集合出现的函数,如果出现则返回1,如果没有出现则返回0。描述了一个判断标签σ是否在文档
Figure BDA0002167992750000107
的chunk名词集合出现的函数,如果出现则返回1,如果没有出现则返回0。式(4-2-4)描述了一个逻辑“且”的函数,如果词w和标签σ同时在文档
Figure BDA0002167992750000108
中出现则返回1,否则返回0。式(4-2-5)描述了一个统计函数,统计出现词w的文档数量。式(4-2-6)描述了一个统计函数,统计出现标签σ的文档数量。式(4-2-7)描述了一个统计函数,统计同时出现词w和标签σ的文档数量。式(4-2-8)描述了PMI值的计算公式,返回词w和标签σ的PMI值。式(4-2-9)描述了标签打分函数,在一个话题τ里,候选标签σ的匹配度得分的计算过程是遍历话题-词分布中的所有词w,计算词w与候选标签σ的PMI值,然后将所有PMI值加权求和,权重为词w在话题τ中出现的概率。式(4-2-10)描述了标签排名与最终选取方案,即选取在标签打分函数F中排名最高的标签作为话题的最终标签。
方式③为标题的基于话题文档分布的标签标定法,采用公式描述如式(4-3-1)~式(4-3-8)所示:
Figure BDA0002167992750000109
式(4-3-1)中H是临时定义的一个符号,表示一个标签候选集,
Figure BDA00021679927500001010
表示文档编号,N_d表示文档总数量,O表示论文的元信息,O.title表示论文的题目元信息,O.title.d表示文档
Figure BDA00021679927500001011
的题目,chunk表示名词词组化,∪取并集。
Γ.1=Γ.2=…=Γ.N_t=H (4-3-2)
式(4-3-2)中,H是上式定义的标签候选集,Γ为候选标签集,Γ.1表示话题1的标签候选集,Γ.2表示话题2的标签候选集,Γ.N_t表示话题N_t的标签候选集,话题数量为N_t。
Figure BDA0002167992750000101
式(4-3-3)中,
Figure BDA00021679927500001012
表示文档
Figure BDA00021679927500001013
出现的概率,N_d表示文档总数量。
Figure BDA0002167992750000102
式(4-3-4)中,
Figure BDA00021679927500001014
表示以话题τ为前提出现文档
Figure BDA00021679927500001015
的概率,
Figure BDA00021679927500001016
表示以文档
Figure BDA00021679927500001017
为前提出现话题τ的概率(已经由概率模型计算出),式(4-3-4)即贝叶斯公式。
Figure BDA0002167992750000111
式(4-3-5)中,分子分母同时约掉了
Figure BDA0002167992750000113
其余各符号与式(4-3-4)相同。
Figure BDA0002167992750000112
式(4-3-6)中,
Figure BDA0002167992750000114
是临时定义的一个函数,表示字符串σ是否属于
Figure BDA0002167992750000115
号文档的标题名词词组化后的字符串集合,
Figure BDA0002167992750000116
表示文档
Figure BDA0002167992750000117
的题目,chunk表示名词词组化。
Figure BDA0002167992750000118
式(4-3-7)中,F.τ.σ是指候选标签σ在话题τ中的得分。
Figure BDA0002167992750000119
表示将出现了候选标签σ的所有文档的话题-文档概率相加,
Figure BDA00021679927500001110
表示字符串σ是否属于
Figure BDA00021679927500001111
号文档的标题名词词组化后的字符串集合,
Figure BDA00021679927500001112
表示以话题τ为前提出现文档
Figure BDA00021679927500001113
的概率。
L.τ=argmax(σ)(F.τ.σ) (4-3-8)
式(4-3-8)中,L.τ表示τ号话题最后由标签标定算法确定的话题标签,argmax表示使右式值最大的变化参数的取值,F.τ.σ表示话题τ的标签候选集Γ.τ中的候选标签σ的得分。
式(4-3-1)、(4-3-2)描述了标题的DocD方法选取候选标签集的过程,即将所有文档的标题chunk化后取并集,任意两个话题τ的候选标签集都相同。式(4-3-3)描述了本实施例对文档出现概率的先验假设——均匀分布,即所有文档出现的概率相同。式(4-3-4)描述了贝叶斯定理,利用文档-话题分布与文档的先验分布,可以算出话题-文档分布。式(4-3-5)由式(4-3-3)与式(4-3-4)推出。式(4-3-6)描述了一个判断标签σ是否在文档
Figure BDA00021679927500001114
的标题chunk名词集合出现的函数,如果出现返回1,否则返回0。式(4-3-7)描述了标签打分函数,在一个话题τ里,候选标签σ的匹配度得分的计算过程是遍历话题-文档分布中的所有文档
Figure BDA00021679927500001115
如果标签σ出现在文档
Figure BDA00021679927500001116
的标题chunk名词集合中,则将文档
Figure BDA00021679927500001117
在话题τ中的话题-文档分布值累加到标签σ的匹配度得分中。式(4-3-8)描述了标签排名与最终选取方案,即选取在标签打分函数F中排名最高的标签作为话题的最终标签。
方式④为针对标题、关键字采用基于话题文档分布的标签标定法,采用公式描述如式(4-4-1)~式(4-4-8)所示:
Figure BDA00021679927500001118
式(4-4-1)中H是临时定义的一个符号,表示一个标签候选集,
Figure BDA00021679927500001119
表示文档编号,N-d表示文档总数量,O表示论文的元信息,O.title表示论文的题目元信息,O.title.d表示文档
Figure BDA00021679927500001120
的题目,
Figure BDA00021679927500001121
表示
Figure BDA00021679927500001122
号文档的关键词,chunk表示名词词组化,∪取并集。
Γ.1=Γ.2=…=Γ.N_t=H (4-4-2)
式(4-4-2)中,H是上式定义的标签候选集,Γ为候选标签集,Γ.1表示话题1的标签候选集,Γ.2表示话题2的标签候选集,Γ.N_t表示话题N_t的标签候选集,话题数量为N_t。
Figure BDA0002167992750000121
式(4-4-3)中,
Figure BDA00021679927500001210
表示文档
Figure BDA00021679927500001211
出现的概率,N_d表示文档总数量。
Figure BDA0002167992750000122
式(4-4-4)中,
Figure BDA00021679927500001212
表示以话题τ为前提出现文档
Figure BDA00021679927500001213
的概率,
Figure BDA00021679927500001214
表示以文档
Figure BDA00021679927500001215
为前提出现话题τ的概率(已经由概率模型计算出),式(4-4-4)即贝叶斯公式。
Figure BDA0002167992750000123
式(4-4-5)中,分子分母同时约掉了
Figure BDA00021679927500001216
其余各符号定义参见式(4-4-4)。
Figure BDA0002167992750000124
式(4-4-6)中,
Figure BDA00021679927500001218
是临时定义的一个函数,表示字符串σ是否属于
Figure BDA00021679927500001217
号文档的标题名词词组化后的字符串集合或者
Figure BDA00021679927500001219
号文档的关键词集合中。
Figure BDA00021679927500001220
式(4-4-7)中,F.τ.σ是指候选标签σ在话题t中的得分。
Figure BDA00021679927500001221
表示将出现了候选标签σ的所有文档的话题-文档概率相加,
Figure BDA00021679927500001222
表示字符串σ是否属于
Figure BDA00021679927500001223
号文档的标题名词词组化后的字符串集合,
Figure BDA00021679927500001224
表示以话题τ为前提出现文档
Figure BDA00021679927500001225
的概率。
L.τ=argmax(σ)(F.τ.σ) (4-4-8)
式(4-4-8)中,L.τ表示τ号话题最后由标签标定算法确定的话题标签,argmax表示使右式值最大的变化参数的取值,F.τ.σ表示话题Γ的标签候选集Γ.τ中的候选标签σ的得分。
除式(4-4-1)与式(4-4-6)以外,其余均与方式③中的内容一致。式(4-4-1)在原有的标题chunk名词集合上增加了关键词集合作为候选标签,式(4-4-6)在原有判断是否在标题chunk名词集合中外增加了一个或者在关键词集合中的判断条件。
方式⑤为采用基于话题文档分布的标签标定法增强的First-Order方法,采用公式描述如式(4-5-1)~式(4-5-11)所示:
Figure BDA0002167992750000125
式(4-5-1)中,Γ.τ表示话题τ的候选标签集,
Figure BDA00021679927500001226
表示语料库中
Figure BDA00021679927500001227
号文档内容名词词组化的结果,
Figure BDA0002167992750000126
表示
Figure BDA00021679927500001228
号文档话题分布中话题
Figure BDA0002167992750000127
的概率,
Figure BDA0002167992750000128
表示
Figure BDA00021679927500001229
号文档的文档话题分布中概率最大的话题是τ。
Figure BDA0002167992750000129
式(4-5-2)中,
Figure BDA00021679927500001230
是临时定义的一个函数,表示字符串w是否属于
Figure BDA00021679927500001231
号文档的分词后的字符串集合。
Figure BDA00021679927500001314
表示语料库Ψ中的
Figure BDA00021679927500001313
号文档的分词结果,是一个字符串集合。
Figure BDA0002167992750000131
式(4-5-3)中,
Figure BDA0002167992750000132
是临时定义的一个函数,表示字符串w是否属于
Figure BDA00021679927500001315
号文档名词词组化后的字符串集合。
Figure BDA00021679927500001316
表示语料库中
Figure BDA00021679927500001317
号文档内容名词词组化的结果,是一个字符串集合。
Figure BDA0002167992750000133
式(4-5-4)中,
Figure BDA0002167992750000134
是临时定义的一个函数,表示词w(字符串)和名词词组σ(字符串)是否出现在同一个文档d中。
Figure BDA0002167992750000135
式(4-5-5)中,
Figure BDA00021679927500001318
表示话题-文档概率(以话题τ为前提,出现文档
Figure BDA00021679927500001319
的概率),推理过程同式(4-4-4)、(4-4-5)。
Figure BDA0002167992750000136
式(4-5-6)中,
Figure BDA0002167992750000137
是临时定义的一个函数,表示出现词w的文档在话题τ下的话题-文档概率之和。
Figure BDA0002167992750000138
式(4-5-7)中,
Figure BDA0002167992750000139
是临时定义的一个函数,表示出现名词词组σ的文档在话题τ下的话题-文档概率之和。
Figure BDA00021679927500001310
式(4-5-8)中,
Figure BDA00021679927500001311
是临时定义的一个函数,表示同时出现词w和名词词组σ的文档在话题τ下的话题-文档概率之和。。
Figure BDA00021679927500001312
式(4-5-9)中,pmi表示Pointwise mutual information(点互信息)的计算函数,log指数学的对数函数。与式4-2-8相比,此式考虑了话题的影响。
F.τ.σ=∑w∈Υ(pmi(τ,w,σ)×T.τ.(V.w))forσ∈Γ.τ (4-5-10)
式(4-5-10)中,F.τ.σ是指候选标签σ在话题τ中的得分,T.τ.(V.w)表示词V.w在话题τ中的概率,γ描述对语料库中的所有文档分词后的词袋集合取并,Γ.τ表示τ的标签候选集。
L.τ=argmax(σ)(F·τ·σ) (4-5-11)
式(4-5-11)中,L.τ表示τ号话题最后由标签标定算法确定的话题标签,argmax表示使右式值最大的变化参数的取值,F.τ.σ表示话题τ的标签候选集Γ.τ中的候选标签σ的得分。
式(4-5-5)前的式子与方式②相同,式(4-5-5)描述的是话题-文档分布。式(4-5-6)、(4-5-7)、(4-5-8)、(4-5-9)、(4-5-10)分别在方式②节的基础上引入了话题-文档分布的权重计算。这使得对话题τ影响更大的文档
Figure BDA00021679927500001416
对PMI值的影响也更大。式(4-5-11)与方式②相同。
本实施例中,利用基于近义词的一次传播改进方法分别进行提高优化的详细步骤包括:S1)根据已有的标签打分函数F计算新的标签打分函数
Figure BDA0002167992750000141
在话题τ中,对于一个当前候选标签σ,遍历τ的整个候选标签集,将遍历得到得每一个候选标签
Figure BDA0002167992750000142
的已有分值进行加权求和,权重是当前候选标签σ与遍历得到的候选标签
Figure BDA0002167992750000143
的相似度,使得话题的候选标签重新排序,将候选标签的中心语义标签的排名提前;S2)标签排名与最终选取:选取在新的标签打分函数
Figure BDA0002167992750000144
中排名最高的标签作为话题的最终标签。利用基于近义词的一次传播改进方法用于改进上述等方法的性能,标签打分函数F已经由上述等方法计算获得。词与词的相似度定义为
Figure BDA0002167992750000145
Figure BDA0002167992750000146
例如,
Figure BDA0002167992750000147
表示“深度学习”与“神经网络”有0.81的相似度。当
Figure BDA0002167992750000148
时,表示w1=w2。本方法公式描述如下:
Figure BDA0002167992750000149
Figure BDA00021679927500001410
(4-6-1)描述根据已有的标签打分函数F计算新的标签打分函数
Figure BDA00021679927500001411
的过程:在话题τ中,对于一个候选标签σ,遍历τ的整个候选标签集,将遍历得到得每一个候选标签
Figure BDA00021679927500001412
的已有分值进行加权求和,权重是σ与
Figure BDA00021679927500001413
的相似度。这使得话题的候选标签重新排序,将候选标签的中心语义标签的排名提前。式(4-6-2)描述了标签排名与最终选取方案,即选取在新的标签打分函数
Figure BDA00021679927500001414
中排名最高的标签作为话题的最终标签。
本实施例中,用户需要精确分析话题内涵时,本实施例将方式①~⑤的5种方法利用基于近义词的一次传播改进方法进行提高优化后的5种标签均提供给用户,从而弥补各种方法的不足。本实施例中的人工测试由两名志愿者分别进行,最终两人的评测结果相似度达到78.2%,保证了足够的客观性。
本实施例中,测试一共有117个话题,每个话题有5个本实施例生成的标签,分别对应方式①~⑤经过利用基于近义词的一次传播改进方法进行提高优化后的结果。志愿者对每个话题选择0-5个标签作为能够代表该话题内容的优质标签。如果某种方法的标签被选中一次,则该方法的分数加
Figure BDA00021679927500001415
最后取两名志愿者打分的平均值。测试结果如下表3所示:
表3:测试结果。
方法 方式① 方式① 方式③ 方式④ 方式⑤
得分 0.0760 0.2997 0.5343 0.6231 0.3923
本实施例将使用Top-1(其结果如图7所示,图中词的大小代表词作为该话题标签的得分,比如此图所示话题的Top-1标签为“网络”)、First-Order、标题DocD(其过程如图8所示,利用话题-文档分布为从文档标题中获得的名次块进行打分排序)、标题+关键词DocD、DocD增强的First-Order共5种方法,再利用基于近义词的一次传播改进方法(如图9,将原本的候选标签重新排序,确定了语义中心——“机器人”。于是“机器人”取代了原有的“深度学习”成为优化后的话题标签)优化后的5种标签均提供给用户,从而弥补各种方法的不足。当用户需要概略地分析话题外延时,如话题热点分析、研究力量分析、话题趋势分析(如图10、图11、图12所示)等。本实施例提供经过近义词“一次传播”优化后的标题+关键词DocD方法所得的标签。
综上所述,本实施例要解决的技术问题是提供一种利用论文元数据的贝叶斯概率统计方法,对LDA建模所得话题进行自动标签标定,使得人类可以直观迅速地了解大量论文主要谈论的主题,为热点话题分析、趋势预测、论文分类、研究力量分析等一系列需求提供话题标签基础。LDA建模过程中信息的损失很大,最终得到论文的话题分布和话题的词分布,人类无法通过这些话题理解文档谈论的主题。论文本身的信息包括题目、关键词、摘要对于文章的主题等对于话题的标注都是非常有价值的元数据。本实施例的技术方案是:通过文档-的摘要分词过滤后形成的词袋训练LDA主题模型,LDA模型最终输出的是文档--主题分布和主题-词分布,LDA模型输出的文档-主题分布太过抽象,人类难以理解。本实施例提出了通过LDA模型计算得到的文档-话题分布使用贝叶斯定理计算话题-文档分布,利用文档的元数据产生候选标签集,并使用话题-文档分布为候选标签打分排名以选取最优标签。在本实施例中,标签的候选集合主要从文档的元数据中抽取,本实施例分别选取了文档的题目与文档的关键词。采用本实施例基于贝叶斯的LDA话题标签标定方法可达到如下有益效果:
(1)话题分析。本实施例通过LDA话题模型得到的论文话题分布计算论文集的话题分布,结合本实施例通过话题的文档分布与论文的元数据计算得到该话题的标签,实现话题的热点分析,也可以通过论文集的话题分布对论文的研究力量进行统计分析。话题热点分析——将LDA所得所有论文的文档-话题分布进行按概率加权得到当前论文集的话题分布,通过本实施例获得的话题的标签,可使人类理解话题分布,并通过论文集的话题分布计算当前论文集的热点话题。话题研究力量分析——将LDA所得所有论文的文档-话题分布进行按概率加权得到当前论文集的话题分布,利用论文的元数据可以统计每个话题的研究力量,如指导老师、研究专业等等,结合本实施例获得的话题的标签,分析话题的研究团队与个人分布情况。
(2)论文分类。通过本实施例实现的对每个话题自动标签标定方法,结合LDA输出的论文对应的话题分布,将论文集中论文分类到文档-话题分布中最大概率对应的话题中,一个话题对应一类,类别名即本方法所得标签。
(3)摘要生成。通过本实施例实现的话题标签标定方法,结合论文集的文档话题分布,可以对论文集生成摘要,也可对论文集的各个分类生成摘要。
(4)趋势分析。通过LDA获取的论文的话题分布计算话题的文档分布概率作为该话题在该论文中的权重,按照论文的时间即年份对该话题进行统计,分析话题趋势。
此外,本实施例还提供一种基于贝叶斯的LDA话题标签标定系统,包括:
元数据抽取程序单元,用于对科技文献文档进行元数据抽取,并存储至元数据数据库;
文献预处理程序单元,用于对纯文本格式的科技文献文档进行分词、降噪和过滤处理得到词袋;
LDA训练程序单元,用于建立隐含狄利克雷分布模型LDA,指定主题数量k并基于词袋进行训练,使其建立输入文档-输出内容之间的映射关系,所述输出内容包括输入文档的文档-话题分布和话题的话题-词分布,且话题分布由元组(话题id,分布概率)组成的数组表示,词分布由元组(词id,分布概率)组成的数组来表示;
话题标签标定程序单元,用于根据立隐含狄利克雷分布模型LDA得到的话题分布和话题的词分布概率,以及元数据数据库元数据进行话题的标签标定。
此外,本实施例还提供一种基于贝叶斯的LDA话题标签标定系统,包括计算机设备,该计算机设备被编程或配置以执行本实施例前述基于贝叶斯的LDA话题标签标定方法的步骤,或该计算机设备的存储介质上存储有被编程或配置以执行本实施例前述基于贝叶斯的LDA话题标签标定方法的计算机程序。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行本实施例前述基于贝叶斯的LDA话题标签标定方法的计算机程序。
实施例二:
本实施例与实施例一基本相同,其主要区别为:用户的应用需求不同,以及步骤4)的详细步骤不同。
实施例一的应用需求为用户需要精确分析话题内涵,而本实施例的应用需求用户需要概略地分析话题外延时,如话题热点分析、研究力量分析、话题趋势分析等。
本实施例中,步骤4)的详细步骤包括:首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果,然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签,并从得到的多种标签中选择出期望最好的一种标签提供给用户。作为一种具体的实施方式示例,本实施例仍然采用实施例一记载的方式①~⑤五种方法得到的结果,利用基于近义词的一次传播改进方法进行提高优化后得到的五种标签中期望最好的一个标签提供给用户,其中方式①为Top-1方法,方式②为First-Order方法,方式③为标题的基于话题文档分布的标签标定法,方式④为针对标题、关键字采用基于话题文档分布的标签标定法,方式⑤为采用基于话题文档分布的标签标定法增强的First-Order方法。本实施例提供5种标签中期望最好的一个标签,本实施例经过人工测试发现,经过近义词“一次传播”后的标题+关键词DocD方法(基于话题文档分布的标签标定法)命中率最高。因此,本实施例会将近义词“一次传播”后的标题+关键词DocD方法(基于话题文档分布的标签标定法)所得标签提供给需要概略分析话题外延的需求。
此外,本实施例还提供一种基于贝叶斯的LDA话题标签标定系统,包括:
元数据抽取程序单元,用于对科技文献文档进行元数据抽取,并存储至元数据数据库;
文献预处理程序单元,用于对纯文本格式的科技文献文档进行分词、降噪和过滤处理得到词袋;
LDA训练程序单元,用于建立隐含狄利克雷分布模型LDA,指定主题数量k并基于词袋进行训练,使其建立输入文档-输出内容之间的映射关系,所述输出内容包括输入文档的文档-话题分布和话题的话题-词分布,且话题分布由元组(话题id,分布概率)组成的数组表示,词分布由元组(词id,分布概率)组成的数组来表示;
话题标签标定程序单元,用于根据立隐含狄利克雷分布模型LDA得到的话题分布和话题的词分布概率,以及元数据数据库元数据进行话题的标签标定。
此外,本实施例还提供一种基于贝叶斯的LDA话题标签标定系统,包括计算机设备,该计算机设备被编程或配置以执行本实施例前述基于贝叶斯的LDA话题标签标定方法的步骤,或该计算机设备的存储介质上存储有被编程或配置以执行本实施例前述基于贝叶斯的LDA话题标签标定方法的计算机程序。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行本实施例前述基于贝叶斯的LDA话题标签标定方法的计算机程序。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于贝叶斯的LDA话题标签标定方法,其特征在于实施步骤包括:
1)对科技文献文档进行元数据抽取,并存储至元数据数据库;
2)对纯文本格式的科技文献文档进行分词、降噪和过滤处理得到词袋;
3)建立隐含狄利克雷分布模型LDA,指定主题数量k并基于词袋进行训练,使其建立输入文档-输出内容之间的映射关系,所述输出内容包括输入文档的文档-话题分布和话题的话题-词分布,且话题分布由元组(话题id,话题分布概率)组成的数组表示,词分布由元组(词id,词分布概率)组成的数组来表示;
4)根据立隐含狄利克雷分布模型LDA得到的话题分布概率、词分布概率,以及元数据数据库元数据进行话题的标签标定;
步骤4)的详细步骤包括:首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果,然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签并全部提供给用户;或者步骤4)的详细步骤包括:首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果,然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签,并从得到的多种标签中选择出期望最好的一种标签提供给用户。
2.根据权利要求1所述的基于贝叶斯的LDA话题标签标定方法,其特征在于,步骤1)中对科技文献文档进行元数据抽取的步骤包括:通过正则表达式模式匹配获取关键字段的位置,通过关键字段的位置判断该关键字段对应的元数据位置,结合元数据特征来获取元数据。
3.根据权利要求1所述的基于贝叶斯的LDA话题标签标定方法,其特征在于,步骤2)中的降噪和过滤处理包括非法词过滤、停用词过滤、低频词过滤、高频词过滤中的至少一种降噪和过滤处理方式。
4.根据权利要求1所述的基于贝叶斯的LDA话题标签标定方法,其特征在于,步骤3)中指定主题数量k时,指定主题数量k的值为k=N/n,其中N是论文集的论文数量,n为经验参数。
5.根据权利要求1所述的基于贝叶斯的LDA话题标签标定方法,其特征在于,所述利用基于近义词的一次传播改进方法分别进行提高优化的详细步骤包括:S1)根据已有的标签打分函数F计算新的标签打分函数
Figure FDA0003492649960000011
在话题τ中,对于一个当前候选标签σ,遍历τ的整个候选标签集,将遍历得到得每一个候选标签
Figure FDA0003492649960000012
的已有分值进行加权求和,权重是当前候选标签σ与遍历得到的候选标签
Figure FDA0003492649960000013
的相似度,使得话题的候选标签重新排序,将候选标签的中心语义标签的排名提前;S2)标签排名与最终选取:选取在新的标签打分函数
Figure FDA0003492649960000014
中排名最高的标签作为话题的最终标签。
6.一种基于贝叶斯的LDA话题标签标定系统,其特征在于,包括:
元数据抽取程序单元,用于对科技文献文档进行元数据抽取,并存储至元数据数据库;
文献预处理程序单元,用于对纯文本格式的科技文献文档进行分词、降噪和过滤处理得到词袋;
LDA训练程序单元,用于建立隐含狄利克雷分布模型LDA,指定主题数量k并基于词袋进行训练,使其建立输入文档-输出内容之间的映射关系,所述输出内容包括输入文档的文档-话题分布和话题的话题-词分布,且话题分布由元组(话题id,分布概率)组成的数组表示,词分布由元组(词id,分布概率)组成的数组来表示;
话题标签标定程序单元,用于根据立隐含狄利克雷分布模型LDA得到的话题分布和话题的词分布概率,以及元数据数据库元数据进行话题的标签标定;
所述话题标签标定程序单元的详细步骤包括:首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果,然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签并全部提供给用户;或者所述话题标签标定程序单元的详细步骤包括:首先对科技文献文档采用指定的多种候选集筛选及打分方法得到对应的结果,然后利用基于近义词的一次传播改进方法分别进行提高优化后得到多种标签,并从得到的多种标签中选择出期望最好的一种标签提供给用户。
7.一种基于贝叶斯的LDA话题标签标定系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行权利要求1~5中任一所述基于贝叶斯的LDA话题标签标定方法的步骤,或该计算机设备的存储介质上存储有被编程或配置以执行权利要求1~5中任一所述基于贝叶斯的LDA话题标签标定方法的计算机程序。
8.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以执行权利要求1~5中任一所述基于贝叶斯的LDA话题标签标定方法的计算机程序。
CN201910753484.XA 2019-08-15 2019-08-15 一种基于贝叶斯的lda话题标签标定方法、系统及介质 Active CN110569270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910753484.XA CN110569270B (zh) 2019-08-15 2019-08-15 一种基于贝叶斯的lda话题标签标定方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910753484.XA CN110569270B (zh) 2019-08-15 2019-08-15 一种基于贝叶斯的lda话题标签标定方法、系统及介质

Publications (2)

Publication Number Publication Date
CN110569270A CN110569270A (zh) 2019-12-13
CN110569270B true CN110569270B (zh) 2022-07-05

Family

ID=68775587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910753484.XA Active CN110569270B (zh) 2019-08-15 2019-08-15 一种基于贝叶斯的lda话题标签标定方法、系统及介质

Country Status (1)

Country Link
CN (1) CN110569270B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159393B (zh) * 2019-12-30 2023-10-10 电子科技大学 一种基于lda和d2v进行摘要抽取的文本生成方法
CN117891959B (zh) * 2024-03-15 2024-05-10 中国标准化研究院 一种基于贝叶斯网络的文献元数据储存方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN107943824A (zh) * 2017-10-17 2018-04-20 广东广业开元科技有限公司 一种基于lda的大数据新闻分类方法、系统及装置
CN109344252A (zh) * 2018-09-12 2019-02-15 东北大学 基于优质主题扩展的微博文本分类方法及系统
CN109408641A (zh) * 2018-11-22 2019-03-01 山东工商学院 一种基于有监督主题模型的文本分类方法及系统
CN109726286A (zh) * 2018-12-24 2019-05-07 杭州东信北邮信息技术有限公司 一种基于lda主题模型的图书自动分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9009134B2 (en) * 2010-03-16 2015-04-14 Microsoft Technology Licensing, Llc Named entity recognition in query

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN107943824A (zh) * 2017-10-17 2018-04-20 广东广业开元科技有限公司 一种基于lda的大数据新闻分类方法、系统及装置
CN109344252A (zh) * 2018-09-12 2019-02-15 东北大学 基于优质主题扩展的微博文本分类方法及系统
CN109408641A (zh) * 2018-11-22 2019-03-01 山东工商学院 一种基于有监督主题模型的文本分类方法及系统
CN109726286A (zh) * 2018-12-24 2019-05-07 杭州东信北邮信息技术有限公司 一种基于lda主题模型的图书自动分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于LDA多模型中文短文本主题分类体系构建与分类;郭剑飞;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20150215;I138-1555 *

Also Published As

Publication number Publication date
CN110569270A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
US20180300315A1 (en) Systems and methods for document processing using machine learning
CN106372061B (zh) 基于语义的短文本相似度计算方法
CN112231447B (zh) 一种中文文档事件抽取的方法和系统
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
Kim et al. Interpreting semantic relations in noun compounds via verb semantics
CN108319583B (zh) 从中文语料库提取知识的方法与系统
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN108009135A (zh) 生成文档摘要的方法和装置
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
Atkinson et al. Web metadata extraction and semantic indexing for learning objects extraction
CN110569270B (zh) 一种基于贝叶斯的lda话题标签标定方法、系统及介质
CN113343690A (zh) 一种文本可读性自动评估方法及装置
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
CN113987175A (zh) 一种基于医学主题词表增强表征的文本多标签分类方法
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
CN115757775B (zh) 基于文本蕴含的无触发词文本事件检测方法及系统
CN108804422B (zh) 一种科技论文文本建模方法
Hendez et al. Keywords extraction for automatic indexing of e-learning resources
US20220245179A1 (en) Semantic phrasal similarity
CN115270713A (zh) 一种人机协同语料库构建方法及系统
Kavila et al. Extractive text summarization using modified weighing and sentence symmetric feature methods
Kim et al. Detecting family resemblance: Automated genre classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant