CN109189926B - 一种科技论文语料库的构建方法 - Google Patents

一种科技论文语料库的构建方法 Download PDF

Info

Publication number
CN109189926B
CN109189926B CN201810991082.9A CN201810991082A CN109189926B CN 109189926 B CN109189926 B CN 109189926B CN 201810991082 A CN201810991082 A CN 201810991082A CN 109189926 B CN109189926 B CN 109189926B
Authority
CN
China
Prior art keywords
corpus
scientific
classification
thesis
technological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810991082.9A
Other languages
English (en)
Other versions
CN109189926A (zh
Inventor
路永和
郑梦慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810991082.9A priority Critical patent/CN109189926B/zh
Publication of CN109189926A publication Critical patent/CN109189926A/zh
Application granted granted Critical
Publication of CN109189926B publication Critical patent/CN109189926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及语言数据处理领域,提出一种科技论文语料库的构建方法,包括以下步骤:通过人工下载和爬虫抓取科技论文文档,构建论文集;导入论文集,转换论文格式,清洗冗余和错误信息,提取结构信息;对论文文本进行分词、去除停用词和过滤无语义段落;对所选领域的论文语料数据进行聚类,将研究主题相似的论文放进相同的簇中,构建分类类目主题;对聚类后的语料数据进行自分类测试,验证分类体系的准确性,确定最终该分类系统的类目数目;验证语料库的稳定性、扩展性和内容质量。本发明从语义的角度提出了较为完整的语料库验证体系,验证语料库的准确性、稳定性、扩展性和文本内容质量。

Description

一种科技论文语料库的构建方法
技术领域
本发明涉及语言数据处理领域,更具体地,涉及一种科技论文语料库的构建方法。
背景技术
语料库是一种以一定的方式获取与清洗、以特定的规则分类与存储的大量文本数据的集合。在科技论文语料库的构建中,存在如何在保持原有组织体系的基础上扩充科技论文、如何构建语料库的分类特征、如何依据科技论文的结构特征构建合理的主题框架并抽取相应的内容特征、如何构建评判语料库的标准等问题。目前已有的科技论文语料库,多是以关键词、摘要、引用等为语料,缺乏对科技论文正文内容的提取利用,对语料库的评判没有统一的标准,且不能考虑内容间的语义关系。
发明内容
本发明为克服上述现有技术所述的不能考虑文本内容语义关系等至少一种缺陷,提供一种科技论文语料库的构建方法,能够从语义角度构建完整的语料库验证体系,能够验证语料库的稳定性、扩展性以及文本质量。
为解决上述技术问题,本发明的技术方案如下:
一种科技论文语料库的构建方法,包括以下步骤:
S1:通过人工下载和爬虫的方法抓取论文文档,构建科技论文集;
S2:导入所述科技论文集,对科技论文的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息;
S3:对科技论文文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本;
S4:通过LDA主题建模聚类方法对所述基础文本进行聚类,将研究主题相似的科技论文放进相同的簇中,构建分类类目主题;
S5:对聚类后的基础文本进行自分类测试,验证分类体系的准确性,确定最终该分类系统的类目数目;
S6:通过十折交叉验证法验证语料库的稳定性
S7:通过分类器和分类模型验证语料库的扩展性;
S8:通过分类器获得科技论文不同部分的语义贡献度,验证语料库的内容质量。
本技术方案通过对科技论文抓取与清洗、文本预处理、构建分类体系等完整的构建流程,并使用文本分析的方法,构建多个分类器和多个文本分类模型,从语义的角度提出了较为完整的语料库验证体系,验证语料库的准确性、稳定性、扩展性以及文本内容质量等。
优选地,步骤S4中,LDA主题建模聚类方法的计算公式为:
Figure BDA0001780787980000021
其中,N为单篇科技论文的总词数,n为单篇科技论文中单词的序号数;θ为文档主题的分布,其先验分布为含超参数α的狄利克雷分布;
Figure BDA0001780787980000022
为单个主题中词语的分布,其先验分布为含超参数β的狄利克雷分布;c为依据θ生成的主题,w为主题c中依据词语分布
Figure BDA0001780787980000023
生成的单词;cn为生成的第n个主题;
Figure BDA0001780787980000024
为词语分布
Figure BDA0001780787980000025
组成的主题c,p()为用于计算概率的贝叶斯公式。
从整个主题模型中可以看到,当n小于N时,LDA会重复单词w的生成步骤,直至n达到文档的总词数N时,才结束文档的建模。通过对文档的词语进行遍历,可以得到各个主题的主题词集合以及语料集中文档属于不同主题的概率分布,从而最终生成文档的主题概率模型。因此,在采用LDA作为文本聚类的手段时,常常利用对每一篇文档选择其概率最大的主题作为其类别的方法从而完成无给定标签的文本语料集的聚类过程。
优选地,LDA主题建模过程中,采用吉布斯采样估计主题c和单词w的后验分布。
优选地,步骤S5的具体步骤包括:
S5.1:将科技论文全文作为语料,采用不同的随机数种子将论文语料分割为测试集、训练集两部分;
S5.2:采用chi2的特征选择方法,根据给定的特征数量从训练集、测试集中选定文本标识的特征词用于表示文本;
S5.3:采用NB分类器和SVM分类器进行分类试验,验证LDA聚类结果的准确性;
S5.4:将NB分类器和SVM分类器在不同聚类数目下分类结果进行平均计算,根据平均准确率确定最终的分类数目。
优选地,步骤S7的具体步骤包括:
S7.1:将语料库语料划分为训练集和测试集两部分;
S7.2:采用多个分类器和多种变体型式的CNN分类模型分别对训练集进行训练,对测试集进行分类测试,观察分类效果,验证语料库的扩展性。
优选地,多个分类器包括KNN、NB、SVM和MLP分类器。
优选地,MLP分类器的计算方法为:
y=f(∑iwixi+b)
其中,xi为感知机模型的第i个输入,wi为模型中第i个输入所对应的权值,b为模型的偏置值,f为激活函数。
优选地,多种变体型式的CNN分类模型包括CNN分类模型、Embedding-CNN分类模型、CNN-LSTM分类模型、CNN-BiLSTM分类模型和CNN+MLP分类模型。
优选地,步骤S8的具体步骤如下:
S8.1:选取所有科技论文的全文内容为训练集,随机抽样选取部分科技论文,将抽取的科技论文的全文内容分割成两部分,其中论文的标题、摘要和关键词为TAK部分,论文的正文内容为MT部分,构建TAK和MT两组测试集;
S8.2:使用SVM和MLP分类器对TAK测试集和MT测试集进行分类,验证TAK测试集和MT测试集的分类准确率,获得科技论文不同部分的语义贡献度,根据得到的语义贡献度验证语料库的文本质量;
S8.3:统计两组测试集预测的主题不相符的情况并进行语义分析,验证语料库的主题质量。
与现有技术相比,本发明技术方案的有益效果是:能从关键词、摘要、引用以及正文内容中提取语料,能够考虑论文内容间的语义关系,能够从语义角度构建完整的语料库验证体系,有效保证语料库的准确性、稳定性、扩展性以及文本质量。
附图说明
图1为本实施例的科技论文语料库的构建流程图。
图2为本实施例的语料自分类实验NB分类器的准确率折线图。
图3为本实施例的语料自分类实验SVM分类器的准确率折线图。
图4为本实施例的语料自分类实验平均准确率示意图。
图5为本实施例的聚类数目为20时不同特征维数下语料自分类的平均准确率。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
本实施例从CSSCI中选择情报学的10个核心来源期刊,分别为:《情报科学》、《情报理论与实践》、《情报学报》、《情报杂志》、《情报资料工作》、《图书情报工作》、《图书情报知识》、《图书与情报》、《现代情报》、《现代图书情报技术》,所有期刊按照时间范围2011年-2016年,从中构建科技论文语料库。
如图1所示,为本实施例的科技论文语料库的构建流程图。科技论文语料库的构建具体步骤如下:
步骤一:通过人工下载和网络爬虫结合的形式获取目标论文,其中网络爬虫的方法是采用python下的selenium网络测试包作为爬虫库的基础,首先通过百度学术等第三方网站爬取科技论文pdf的下载页的外部链接,而后再统一进入这些外部链接,通过模拟点击页面元素的方式,下载论文pdf文件。
步骤二:采用pdf2text软件将科技论文从pdf转换为txt格式。论文经过转换后,得到的内容可能包含冗余信息、错别字以及乱码等情况,需要将这些冗余、错误信息清洗。对于清洗完后的数据,则根据文本内容的字号数据,筛选科技论文的不同结构部分,提取相应的结构信息。
步骤三:对论文的文本信息进行分词和去停用词操作。在分词步骤中,采用结巴分词工具,并结合提取出的关键词与搜狗输入法的社会学研究、自然语言处理等领域的词库作为词典进行分词,该词典包含30611个词汇。完成分词后,介入停用词表,过滤出一些不必要的词语、无语义段落以及转换过程中出现的乱码、全角字符等不规范数据。处理完成后的文本数据中,如果存在某一论文结构部分存留的内容较少,则予以过滤处理。
处理完成后,用于后续聚类、划分标签以及建库的论文语料共包含16376篇论文。
步骤四:使用LDA主题建模聚类方法对所选领域的科技论文的语料数据进行聚类,将研究主题相似的论文放进相同的簇中,构建分类类目主题。其中,LDA主题建模聚类方法的计算公式为:
Figure BDA0001780787980000051
其中,N为单篇科技论文的总词数,n为单篇科技论文中单词的序号数;θ为文档主题的分布,其先验分布为含超参数α的狄利克雷分布;
Figure BDA0001780787980000052
为单个主题中词语的分布,其先验分布为含超参数β的狄利克雷分布;c为依据θ生成的主题,w为主题c中依据词语分布
Figure BDA0001780787980000061
生成的单词;cn为生成的第n个主题;
Figure BDA0001780787980000062
为词语分布
Figure BDA0001780787980000064
组成的主题c,p()为用于计算概率的贝叶斯公式。
在LDA主题建模聚类计算过程中,选择类数范围为9~25,每一个类别数目进行一次聚类实验,总共进行17组聚类实验。在具体执行上,LDA主题聚类采用python的lda包进行聚类操作,聚类的迭代次数设置为5000,以保证每一组聚类实验的误差都能够收敛到极小值附近,同时含超参数α设置为0.1,含超参数β设置为0.01。对于每一个科技论文文本,都取其主题概率最大的那一个作为该论文文本所属的主题,从而实现对论文语料的聚类。
步骤五:对聚类后的语料数据进行自分类测试。在自分类测试中,语料数据将会被分为8组,每一组代表以不同数量的特征词进行文本表示的分类测试,特征数量选定为[10000,12500,15000,17500,20000,22500,25000,27500]。在每一组实验下,采用不同的随机数种子将论文语料分割为占比为0.6和0.4两部分,其中占比为0.6的部分作为测试集,占比为0.4的部分作为训练集,且训练集和测试集的语料在各个类别上的数目分布都符合未分割前论文语料在各个类别上的数目分布。在每一组实验下,特征选择步骤均采用chi2的特征选择方法,根据给定的特征数量选定作为文本表示的特征词以表示文本。
在分类器方面,考虑到性能及效率,采用NB和SVM分类器进行分类实验,验证LDA聚类结果的准确性。在分类过程中,采用朴素贝叶斯(NB,
Figure BDA0001780787980000065
Bayes)算法计算文本从属类别的概率。计算公式如下:
Figure BDA0001780787980000063
其中,x表示文档集中特定的一篇文档;c则代表文档类别集中特定的一个主题类别;而n则代表遴选的特征词的总量;xi则表示为特征集合中排序为第i的词项。
在参数设定上,NB分类器设置为多项式模型,系数α设为0.2,而SVM则设定惩罚系数为0.3,迭代次数为100。经过NB分类器和SVM分类器的分类实验后得到的结果如图2至4所示,为本实施例的语料自分类实验NB分类器的准确率、SVM分类器的准确率以及平均准确率。在平均准确率的走势图中,类别数目20在走势上呈现反弹的趋势,并取得了较高准确率,于是,选择20为最终分类系统的类目数目。
如表1所示,为本实施例最终构建的分类体系与主题特征词。
表1分类体系类目主题与主题特征词
Figure BDA0001780787980000071
Figure BDA0001780787980000081
Figure BDA0001780787980000091
Figure BDA0001780787980000101
Figure BDA0001780787980000111
步骤六:通过十折交叉验证法验证语料库的稳定性。语料库的稳定性验证采用十折交叉验证法,将整个数据集分成均匀分布的10份,以9:1的比分隔训练集与测试集,从而可进行10组分类实验。如果在十折交叉验证的结果中包含相差过大的值或是多个异常值,则说明语料内部的数据内容不够稳定,如果一些实验组准确率较低,另一些实验组准确率过高,存在较大差距,则说明该实验组的测试集或者训练集具有噪声数据,影响了语料的整体性或是语料训练的拟合程度,反之,如果十折交叉验证的结果值相似,并且准确率数值高,则说明语料库足够稳定。如图5所示,为本实施例的聚类数目为20时不同特征维数下语料自分类的平均准确率。当聚类数目为20时,不同特征维数下十折交叉验证的准确率都在[84%,86%]之间,证明了所构建的语料库是稳定的。
步骤七:通过分类器和分类模型验证语料库的扩展性。语料库的扩展性验证采用不同的分类器和多种变体形式的CNN分类模型对语料划分的训练集和测试集进行分类测试,观察分类效果,从而判断该语料在时序上是否具有内容的共性。分类器包括KNN、NB、SVM和MLP分类器,可以分别对VSM-TFIDF的文本表示模型进行训练。
其中KLP分类器的计算公式为:
y=f(∑iwixi+b)
式中,xi为感知机模型的第i个输入,wi为模型中第i个输入所对应的权值,b为模型的偏置值,f为激活函数。在上述的步骤中,观测到特征数量在10000到20000之间时分类效果较好,因此在时序性验证实验中设定特征数为其中值15000。
而多种变体型式的CNN分类模型包括CNN分类模型、Embedding-CNN分类模型、CNN-LSTM分类模型、CNN-BiLSTM分类模型和CNN+MLP分类模型,在利用CNN作为文本分类模型时,则采用序列编码的方式,将文本表示为多个单词的词向量组成的序列从而对文本进行建模。首先用word2vec方法得到所有词的词向量,再将文本表示为词向量的序列作为输入,其输入层为批量大小*maxL*1*D的张量,其中maxL指代最大的文本长度,而D指代词向量的维数,可以表示为一个单词的深度。如果文本本身的长度没有到达最大的文本长度,则将输入空缺的位置进行补0(zero-padding)操作。
在对语料进行分类测试时,设置一下五种分类模型:
(1)CNN分类模型:输入层为word2vec计算的词向量的序列,池化层III的展开结果的层为全连接层;
(2)Embedding-CNN分类模型:不做word2vec预训练,输入层中加入一层Embedding层,动态训练词向量,池化层III的展开结果的层为全连接层;
(3)CNN-LSTM分类模型:输入层为word2vec计算的词向量的序列。池化层III的展开结果的层为LSTM,其中,LSTM每一个位置的输入为池化层III的输出结果的相应位置上不同过滤器编码结果的拼接,每一个的输出单元数为20;
(4)CNN-BiLSTM分类模型:输入层为word2vec计算的词向量的序列,池化层III的展开结果的层为双向LSTM,其中双向LSTM的正向与反向输出单元数均为20;
(5)CNN+MLP分类模型:输出层变为两个分类器:CNN与MLP的输出层的加和,进而用softmax函数计算输出值,实现CNN与MLP的复合分类器。
以上五种CNN分类器的损失函数、优化函数与验证集设置与MLP相同,迭代次数设置为50,经过多次预实验表明CNN在以此结构与优化设置下具有较好效果。至此在多种分类器的分类测试下,扩展性验证的分类准确率如表2所示:
表2扩展性验证分类准确率
分类器 分类准确率(%)
KNN 80.93
SVM 86.45
NB 84.35
MLP 87.77
CNN 86.86
Embedding-CNN 80.44
CNN-LSTM 85.09
CNN-BiLSTM 85.71
CNN+MLP 88.25
总体来看,不论是传统的以VSM文本表示为基础的分类器,还是以分布式文本表示为基础的CNN分类器,在扩展性验证中都获得了80%以上的准确率,说明了旧时间的语料及其分类体系在新时间语料上是拥有应用能力的。因此可以认为,聚类数为20的图情科技论文全文语料通过了语料扩展性的验证。
步骤八:选取所有论文的全文内容为训练集,随机抽样选取部分论文,将抽取的论文的全文内容分割成两部分,其中论文的标题、摘要和关键词为TAK部分,论文的正文内容为MT部分,构建TAK和MT两组测试集并分别对该两组测试集进行验证。
首先,通过观测两部分的分类准确率探究科技论文的不同结构对科技论文语义的贡献程度,以获得文章的文本质量。试集抽取样本数量上采取由4000为起始,16000为终,跨度为2000的取值,即[4000,6000,8000,10000,12000,14000,16000]七种取值,并且在构建TFIDF向量空间模型的步骤过程中,省略特征选择的部分。考虑到之前的实验效果和统一编码长度,本步骤采用了SVM、MLP作为分类器。在SVM的参数设定上,采用惩罚因子C=0.4+实验组序号*0.3的设置。其中MLP分类器的输入同样为TFIDF赋权的向量空间模型数据,设置隐藏层节点数为h_size=360+实验组序号*40。损失函数设置为KL散度,优化函数则为adam,迭代次数则限定为5次,验证集取训练集的5%。如表3和表4所示,为SVM分类器和MLP分类器下不同样本数量测试集分类准确率。
表3 SVM分类器下不同样本数量测试集分类准确率
样本数量 TAK组(%) MT组(%)
4000 84.50 99.88
6000 85.97 99.83
8000 85.48 99.85
10000 85.99 99.85
12000 85.58 99.86
14000 85.84 99.86
16000 85.91 99.86
平均值 85.61 99.86
表4 MLP分类器下不同样本数量测试集分类准确率
Figure BDA0001780787980000141
Figure BDA0001780787980000151
其中,分类器对正文的拟合度极高,MT组中分类准确率均达到了99%以上,TAK组的分类准确率也均在85%以上。实验结果可以进一步证实图书情报核心期刊科技论文中,标题、摘要和关键词等题录内容能够简洁而有效地表示论文整体的内容信息。这说明了图书情报论文全文语料库在不同论文结构内容语义贡献方面是合理而科学的,具有内容质量。
除此以外,还需要统计两组测试集预测的主题不相符的情况并进行语义分析,验证语料库的主题质量。这里通过一种人工验证统计语料库的不同类别中存在不同程度的语义内容交融,如表5所示,为不同对应情况中“互换”情况类别对计数前十位。
表5不同对应情况中“互换”情况类别对计数前10位
Figure BDA0001780787980000152
Figure BDA0001780787980000161
从表5可得知,主题语义交融现象的可解释性强,以计数第一的类别9的图书馆数字资源与学科服务建设主题和类别19的图书馆馆藏与服务推广建设主题为例,从主题词上来看,两个主题都包含了“图书馆”、“服务”等词语,其主题词的交集大;而从包含论文的内容上来看,这两个类别都与图书馆建设相关,相互之间虽然有着研究方法、应用方式的差异,有着脱离不掉的研究对象、研究目的的共性。因此,基于预测结果的主题语义交融分析印证了构建的语料库具备主题内容的分布是合理的,具有主题质量。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.一种科技论文语料库的构建方法,其特征在于:包括以下步骤:
S1:通过人工下载和爬虫的方法抓取论文文档,构建科技论文集;
S2:导入所述科技论文集,对科技论文的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息;
S3:对科技论文文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本;
S4:通过LDA主题建模聚类方法对所述基础文本进行聚类,将研究主题相似的科技论文放进相同的簇中,构建分类类目主题;
S5:对聚类后的基础文本采用NB分类器和SVM分类器进行分类试验,验证LDA聚类结果的准确性,根据平均准确率确定最终的分类数目;
S6:通过十折交叉验证法验证语料库的稳定性;
S7:通过分类器和分类模型验证语料库的扩展性;
S8:通过分类器获得科技论文不同部分的语义贡献度,验证语料库的内容质量;其具体步骤如下:
S8.1:选取所有科技论文的全文内容为训练集,随机抽样选取部分科技论文,将抽取的科技论文的全文内容分割成两部分,其中论文的标题、摘要和关键词为TAK部分,论文的正文内容为MT部分,构建TAK和MT两组测试集;
S8.2:使用SVM和MLP分类器对TAK测试集和MT测试集进行分类,验证TAK测试集和MT测试集的分类准确率,获得科技论文不同部分的语义贡献度,根据得到的语义贡献度验证语料库的文本质量;
S8.3:统计两组测试集预测的主题不相符的情况并进行语义分析,验证语料库的主题质量。
2.根据权利要求1所述的一种科技论文语料库的构建方法,其特征在于:所述S4中,LDA主题建模聚类方法的计算公式为:
Figure FDA0003414534930000021
其中,N为单篇科技论文的总词数,n为单篇科技论文中单词的序号数;θ为文档主题的分布,其先验分布为含超参数α的狄利克雷分布;
Figure FDA0003414534930000022
为单个主题中词语的分布,其先验分布为含超参数β的狄利克雷分布;c为依据θ生成的主题,w为主题c中依据词语分布
Figure FDA0003414534930000023
生成的单词;cn为生成的第n个主题;
Figure FDA0003414534930000024
为词语分布
Figure FDA0003414534930000025
组成的主题c,p()为用于计算概率的贝叶斯公式。
3.根据权利要求2所述的一种科技论文语料库的构建方法,其特征在于:所述LDA主题建模聚类方法中,采用吉布斯采样估计主题c和单词w的后验分布。
4.根据权利要求1所述的一种科技论文语料库的构建方法,其特征在于:所述S5的具体步骤包括:
S5.1:将科技论文全文作为语料,采用不同的随机数种子将论文语料分割为测试集、训练集两部分;
S5.2:采用chi2的特征选择方法,根据给定的特征数量从训练集、测试集中选定文本标识的特征词用于表示文本;
S5.3:采用NB分类器和SVM分类器进行分类试验,验证LDA聚类结果的准确性;
S5.4:将NB分类器和SVM分类器在不同聚类数目下分类结果进行平均计算,根据平均准确率确定最终的分类数目。
5.根据权利要求1所述的一种科技论文语料库的构建方法,其特征在于:所述S7的具体步骤包括:
S7.1:将语料库语料划分为训练集和测试集两部分;
S7.2:采用多个分类器和多种变体型式的CNN分类模型分别对训练集进行训练,对测试集进行分类测试,观察分类效果,验证语料库的扩展性。
6.根据权利要求5所述的一种科技论文语料库的构建方法,其特征在于:所述多个分类器包括KNN、NB、SVM和MLP分类器。
7.根据权利要求6所述的一种科技论文语料库的构建方法,其特征在于:所述MLP分类器的计算方法为:
y=f(∑iwixi+b)
其中,xi为感知机模型的第i个输入,wi为模型中第i个输入所对应的权值,b为模型的偏置值,f为激活函数。
8.根据权利要求5所述的一种科技论文语料库的构建方法,其特征在于:所述多种变体型式的CNN分类模型包括CNN分类模型、Embedding-CNN分类模型、CNN-LSTM分类模型、CNN-BiLSTM分类模型和CNN+MLP分类模型。
CN201810991082.9A 2018-08-28 2018-08-28 一种科技论文语料库的构建方法 Active CN109189926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810991082.9A CN109189926B (zh) 2018-08-28 2018-08-28 一种科技论文语料库的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810991082.9A CN109189926B (zh) 2018-08-28 2018-08-28 一种科技论文语料库的构建方法

Publications (2)

Publication Number Publication Date
CN109189926A CN109189926A (zh) 2019-01-11
CN109189926B true CN109189926B (zh) 2022-04-12

Family

ID=64916701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810991082.9A Active CN109189926B (zh) 2018-08-28 2018-08-28 一种科技论文语料库的构建方法

Country Status (1)

Country Link
CN (1) CN109189926B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611374A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 语料扩充方法、装置、电子设备及存储介质
CN110321560B (zh) * 2019-06-25 2021-10-01 北京邮电大学 一种从文本信息中确定位置信息的方法、装置及电子设备
CN110442729A (zh) * 2019-07-02 2019-11-12 厦门美域中央信息科技有限公司 一种基于粗燥集的语料库系统构建方法
CN110516064A (zh) * 2019-07-11 2019-11-29 同济大学 一种基于深度学习的航空科研论文分类方法
CN110737777A (zh) * 2019-08-28 2020-01-31 南京航空航天大学 一种基于ghsom算法的知识地图构建方法
CN110765237B (zh) * 2019-10-10 2023-09-26 腾讯科技(深圳)有限公司 文档处理方法、装置、存储介质及电子设备
CN111597793B (zh) * 2020-04-20 2023-06-16 中山大学 基于sao-adv结构的论文创新性的测度方法
CN111984762B (zh) * 2020-08-05 2022-12-13 中国科学院重庆绿色智能技术研究院 一种对抗攻击敏感的文本分类方法
CN113704464B (zh) * 2021-07-05 2024-07-19 中央民族大学 基于网络新闻的时评类作文素材语料库的构建方法及系统
CN114254075A (zh) * 2021-12-13 2022-03-29 北京惠及智医科技有限公司 标签识别方法、装置、电子设备和存储介质
CN117421428B (zh) * 2023-10-31 2024-05-17 中国人民解放军海军大连舰艇学院 基于完整期刊库的论文发表诚信评估分析方法及系统
CN118170933B (zh) * 2024-05-13 2024-08-13 之江实验室 一种面向科学领域多模态语料数据的构建方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002059857A1 (en) * 2001-01-23 2002-08-01 Educational Testing Service Methods for automated essay analysis
US9761220B2 (en) * 2015-05-13 2017-09-12 Microsoft Technology Licensing, Llc Language modeling based on spoken and unspeakable corpuses
CN104991968B (zh) * 2015-07-24 2018-04-20 成都云堆移动信息技术有限公司 基于文本挖掘的互联网媒体用户属性分析方法
CN105224695B (zh) * 2015-11-12 2018-04-20 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
US10146858B2 (en) * 2015-12-11 2018-12-04 International Business Machines Corporation Discrepancy handler for document ingestion into a corpus for a cognitive computing system
US9842161B2 (en) * 2016-01-12 2017-12-12 International Business Machines Corporation Discrepancy curator for documents in a corpus of a cognitive computing system
CN106844424B (zh) * 2016-12-09 2020-11-03 宁波大学 一种基于lda的文本分类方法
EP3446241A4 (en) * 2017-06-20 2019-11-06 Accenture Global Solutions Limited AUTOMATIC EXTRACTION OF A LEARNING CORPUS FOR A DATA CLASSIFIER BASED ON AUTOMATIC LEARNING ALGORITHMS

Also Published As

Publication number Publication date
CN109189926A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN109189926B (zh) 一种科技论文语料库的构建方法
Neelakandan et al. A gradient boosted decision tree-based sentiment classification of twitter data
Onan Sentiment analysis on product reviews based on weighted word embeddings and deep neural networks
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
Duncan et al. Neural networks for sentiment analysis on Twitter
CN104951548A (zh) 一种负面舆情指数的计算方法及系统
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN101714135B (zh) 一种跨领域文本情感倾向性分析方法
CN114048305A (zh) 一种基于图卷积神经网络的行政处罚文书的类案推荐方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
Hosseini et al. Deep text clustering using stacked AutoEncoder
CN109062895A (zh) 一种智能语义处理方法
CN115114427A (zh) 基于预训练和多任务学习的文本摘要和关键词抽取方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN113139599A (zh) 一种融合词向量扩充和主题模型的服务分布式聚类方法
Priyadharshan et al. Text summarization for Tamil online sports news using NLP
Nalini et al. Survey on text classification
Akther et al. Compilation, analysis and application of a comprehensive Bangla Corpus KUMono
Giannopoulou et al. An ai-based methodology for the automatic classification of a multiclass Ebook collection using information from the tables of contents
Zhu et al. A Text Classification Algorithm for Power Equipment Defects Based on Random Forest
Kowsher et al. Bangla topic classification using supervised learning
Alharbi et al. Neural networks based on Latent Dirichlet Allocation for news web page classifications
Mei A Framework for the Discovery and Tracking of Ideas in Longitudinal Text Corpora

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant