CN115713085B - 文献主题内容分析方法及装置 - Google Patents
文献主题内容分析方法及装置 Download PDFInfo
- Publication number
- CN115713085B CN115713085B CN202211352310.0A CN202211352310A CN115713085B CN 115713085 B CN115713085 B CN 115713085B CN 202211352310 A CN202211352310 A CN 202211352310A CN 115713085 B CN115713085 B CN 115713085B
- Authority
- CN
- China
- Prior art keywords
- subject
- analyzed
- document
- documents
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000002372 labelling Methods 0.000 claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 238000004458 analytical method Methods 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims description 29
- 238000011160 research Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 5
- 241000196324 Embryophyta Species 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 244000005700 microbiome Species 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 239000002028 Biomass Substances 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000003337 fertilizer Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 235000009973 maize Nutrition 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000013049 sediment Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003971 tillage Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种文献主题内容分析方法及装置,所述方法包括:获取目标领域的多个待分析文献;得到所述主题词提取模型输出的各主题下的主题词、各主题下的主题词扩展短语以及所述语步标注模型输出的各待分析文献的摘要的语步标注信息;基于各主题下的主题词扩展短语以及各待分析文献的摘要的语步标注信息,生成各主题下待分析文献的分析文本。本发明的文献主题内容分析方法,通过主题提取、生成主题词扩展短语并对反映主题的文本进行语步功能标注,能更深层次、细粒度地对大量文献进行主题分析,更加有利于相关人员更加全面而又准确地对文献主题进行了解。
Description
技术领域
本发明涉及文本分析技术领域,尤其涉及一种文献主题内容分析方法及装置。
背景技术
随着数据科学的不断创新与发展,论文、专利、基金项目等学术研究载体数量迅速增长,内容丰富且深入,在研究内容中蕴含了大量高学术价值的知识,其中涉及专家学者的研究观点、研究方法、研究成果等重要的信息。面对海量学术信息,科技情报工作者、领域科研人员仅凭人工处理这些信息,并主观分析解读这些信息资源,不仅耗时耗力,而且难以全面、准确地识别出研究主题,获取有价值的信息。
因此,现亟需建立一种深层次、细粒度的主题识别与分析方法,辅助科研人员、情报人员对领域内容进行解读与分析。
发明内容
本发明提供一种文献主题内容分析方法及装置,用以解决现有技术中难以快速全面而又准确地识别出文献主题的缺陷,实现对文献进行深层次、细粒度的主题识别与分析。
本发明提供一种文献主题内容分析方法,包括:
获取目标领域的多个待分析文献;
将各待分析文献输入至主题词提取模型,得到所述主题词提取模型输出的各主题下的主题词,并生成各主题下的主题词扩展短语;将各待分析文献的摘要输入至语步标注模型,得到所述语步标注模型输出的各待分析文献的摘要的语步标注信息;
基于各主题下的主题词扩展短语以及各待分析文献的摘要的语步标注信息,生成各主题下待分析文献的分析文本。
根据本发明提供的一种文献主题内容分析方法,所述将各待分析文献输入至主题词提取模型,得到所述主题词提取模型输出的各主题下的主题词,包括:
将各待分析文献文本进行分词并向量化,得到各待分析文献对应的词袋向量;
基于各待分析文献文本分词结果中各词语的出现频次,将各待分析文献对应的词袋向量进行筛选,得到各待分析文献对应的目标词袋向量;
将各待分析文献对应的目标词袋向量输入至所述主题词提取模型,得到所述主题词提取模型输出的第一数量的主题和各主题对应的第二数量的主题词;其中,每个所述待分析文献与一个所述主题对应。
根据本发明提供的一种文献主题内容分析方法,所述生成各主题下的主题词扩展短语,包括:
基于各主题下的各主题词,确定各主题下第三数量的目标主题词;
基于各目标主题词和短语结构,构建主题词扩展短语集合;
通过语义相似度模型确定所述主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度;
基于所述主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度,从所述主题词扩展短语集合中确定第四数量的主题词扩展短语。
根据本发明提供的一种文献主题内容分析方法,所述基于各主题下的各主题词,确定各主题下第三数量的目标主题词,包括:
对各待分析文献的各主题词在对应的待分析文献中的出现频率进行统计;
基于各待分析文献的各主题词的出现频率,确定各主题下所述第三数量的目标主题词。
根据本发明提供的一种文献主题内容分析方法,所述语步标注模型为SCIBert模型,所述语步标注模型的训练数据通过以下方式获取:
获取数据库中的结构化摘要论文;
以论文的领域标签词语作为检索词,通过检索筛选研究方向为所述目标领域的文献并进行数据导出,得到所述目标领域的原始文献;
对所述目标领域的原始文献的摘要进行清洗,识别语步标签并提取得到不同语步标签后的句子。
根据本发明提供的一种文献主题内容分析方法,所述语步标签包括研究背景、研究目标、研究方法、结果和结论。
本发明还提供一种文献主题内容分析装置,包括:
获取模块,用于获取目标领域的多个待分析文献;
第一处理模块,用于将各待分析文献输入至主题词提取模型,得到所述主题词提取模型输出的各主题下的主题词,并生成各主题下的主题词扩展短语;将各待分析文献的摘要输入至语步标注模型,得到所述语步标注模型输出的各待分析文献的摘要的语步标注信息;
第二处理模块,用于基于各主题下的主题词扩展短语以及各待分析文献的摘要的语步标注信息,生成各主题下待分析文献的分析文本。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文献主题内容分析方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文献主题内容分析方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文献主题内容分析方法。
本发明提供的文献主题内容分析方法及装置,通过主题提取、生成主题词扩展短语并对反映主题的文本进行语步功能标注,能更深层次、细粒度地对大量文献进行主题分析,更加有利于相关人员更加全面而又准确地对文献主题进行了解。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文献主题内容分析方法的流程示意图;
图2是本发明提供的文献主题内容分析装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3描述本发明的文献主题内容分析方法及装置。
本发明实施例的文献主题内容分析方法的执行主体可以是处理器,当然,在另一些实施例中,本发明实施例的文献主题内容分析方法的执行主体还可以是服务器,此处对执行主体的类型不做限制。下面以执行主体为处理器为例来对本发明实施例的文献主题内容分析方法进行说明。
如图1所示,本发明实施例的文献主题内容分析方法主要包括步骤110、步骤120以及步骤130。
步骤110、获取目标领域的多个待分析文献。
可以理解的是,相同领域的文献在词语以及短语上具有一定的相似度,能够方便进行批量处理。
目标领域可以是科技情报工作者、领域科研人员需要查阅、分析以及学习的领域。
待分析文献可以从相关的数据库中经过筛选后批量导出,并按照一定的文档格式载体进行呈现。
步骤120,将各待分析文献输入至主题词提取模型,得到主题词提取模型输出的各主题下的主题词,并生成各主题下的主题词扩展短语;将各待分析文献的摘要输入至语步标注模型,得到语步标注模型输出的各待分析文献的摘要的语步标注信息。
需要说明的是,在获取到批量的待分析文献后,需要对各待分析文献进行主题识别与分析。主题识别的目的是对大规模的数据信息进行处理和分析,从而快速抽取其中的研究主题,并使用表征词对关键性的信息进行表示。
需要说明的是,主题可以用于表示在目标领域下更加细分的领域。主题可以是一个抽象的类型概念,可用不同具体的词语进行表示。
在一些实施例中,将各待分析文献输入至主题词提取模型,得到主题词提取模型输出的各主题下的主题词包括以下步骤。
需要说明的是,主题词提取模型可以是LDA(Latent Dirichlet Allocation,潜在狄利克雷分配模型)模型。LDA模型是一种主题抽取模型,属于无监督的算法模型,LDA模型可以从一份文档中提取出文档的主题以及主题对应的主题词。
LDA模型的主题模型(Topic Model)能够识别文档里的主题,并且挖掘语料里隐藏的信息,在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。
本发明实施例通过LDA主题模型,将文档-词汇矩阵变成文档-主题矩阵和主题-主题词汇矩阵,进而得到主题和各主题对应的主题词。
可以理解的是,可以先将各待分析文献文本进行分词并向量化,得到各待分析文献对应的词袋向量。
需要说明的是,可以采用NLTK、Spacy、Gemsim等Python工具包对文本内容进行分词、去停用词、词型还原、词性标注等操作。文本向量表示过程中,通过压缩词向量,降低高频词和低频词对主题识别影响,最后提取分词结果用于LDA主题识别。
在进行主题提取前可以构造领域词典,并利用领域词典自定义分词字典来进行文本分词,进而有助于提高切分词语的准确率。
在本实施方式中,以农业领域为例,可以挑选WOS(Web of Science)数据库中农业领域期刊,提取近5年发表论文的作者添加关键词(Author plus key words)以及KeywordPlus关键词,并以此为基础,通过数据清洗过滤无意义词语,确定91万条领域词语。
在本实施方式中,可以基于Python中主题模型工具包Gemsim进行主题抽取,将每一篇文档文本分词后向量化,转化为词袋(BOW,Bag of words)向量。
在此基础上,再基于各待分析文献文本分词结果中各词语的出现频次,将各待分析文献对应的词袋向量进行筛选,得到各待分析文献对应的目标词袋向量。
在词袋构建过程中,本文对文献中摘要文本转化的同时,对文档标题和关键词也进行转化,通过实验计算给予三部分文献的内容一定权重,以提高文本主题聚类效果。
进一步地,将各待分析文献对应的目标词袋向量输入至主题词提取模型,得到主题词提取模型输出的第一数量的主题和各主题对应的第二数量的主题词;其中,每个待分析文献与一个主题对应。
换言之,通过基于语料分词结果构造字典和词袋,并对词袋向量进行压缩,减少高频词和低频次对主题识别的影响。例如,可以去掉出现在全部语料中频次小于2的词,以及留下在50%的文档都出现的词语,得到目标词袋向量。再将经过筛选后的目标词袋向量输入LDA模型。
LDA模型的参数如第一数量和第二数量可以根据需要来进行设置,此处不作限制。例如,本发明实施例中LDA主题模型参数可以设置为:第一数量的主题个数为4个,迭代次数1000次,输出第二数量的主题词个数为10个。
在本实施方式中,通过LDA模型能够批量提取文献的主题和主题词,能够有效提高处理效率。
现有技术中,在主题识别方法上开展了深入研究,主要集中在共词分析和主题模型两个方向。通过构建词语共现网络,利用复杂网络算法识别研究主题,并通过机器学习算法挖掘隐藏在文档中的主题表征词信息。然而单独使用缺乏上下文语境的词汇作为主题表征词,很难准确揭示主题含义。
由于短语相比词汇更能表达丰富的语义信息,易于理解和分析。因此,从主题表示形式角度出发,本实施方式中,在确定出主题词后,再生成短语结构的主题词扩展短语。
在本实施方式中,生成各主题下的主题词扩展短语,包括:基于各主题下的各主题词,确定各主题下第三数量的目标主题词。
可以对各待分析文献的各主题词在对应的待分析文献中的出现频率进行统计。
在得到频率后,再基于各待分析文献的各主题词的出现频率,确定各主题下第三数量的目标主题词。
需要说明的是,第三数量可以根据实际需要去进行设定,例如第三数量可以是3或者4等。
以第三数量为3为例,可以将待分析文献中出现频率前三的主题词挑选出。
在本实施方式中,通过分析主题词在待分析文献中的频率来筛选目标主题词,能够更好地反映目标主题词与待分析文献主题之间的关联性,进而能确定出更加准确的主题词。
在确定出目标主题词的基础上,可以基于各待分析文献的目标主题词和短语结构,构建主题词扩展短语集合。
短语结构根据语法以及词语的词性来进行确定。根据目标主题词的词性以及语法,确定出该目标主题词可能的短语结构,并在此基础上,根据本领域的短语库,构建主题词扩展短语集合。
在得到主题词扩展短语集合后,可以通过语义相似度模型确定主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度。
在一些实施例中,可以选取适用语义-文本相似度(STS,Semantic TextualSimilarity)任务的Sentence-BERT预训练模型,本实施例中选择paraphrase-distilroberta-base-v2模型对文本进行表示。
在构建主题词扩展短语集合后,以LDA模型主题识别得到的主题词作为种子词,结合短语结构搭配对文本进行划分,利用预训练模型将候选短语和文本嵌入到向量空间,使用余弦相似度计算找到与待分析文献相似的主题词扩展短语,以此描述整个待分析文献的主题内容,
换言之,基于主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度,从主题词扩展短语集合中确定各待分析文献第四数量的主题词扩展短语。
在本实施方式中,通过计算主题词扩展短语与待分析文献的语义相似度,能够尽可能获得与待分析文献主题贴合的主题词扩展短语。
例如,针对某一批农业领域的文献,提取出四个主题的主题词如下。
Topic0:plant、root、abundance、diversity、rhizosphere、microbial、alter、biomass、decomposition以及isolate;
Topic1:model、area、sample、sediment、predict、map、soil erosion,、soilproperties、erosion以及parameter;
Topic2:treatment、concentration、biochar、content、crop、plant、fertilizer、Cd、maize以及nutrient;
Topic3:soil quality、SOC、depth、content、plot、aggregate、soil properties、tillage、layer以及cover crop。
例如,以上述Topic0中的目标主题词plant为例,可以得到plant traits、wholeplant effects以及plant variables这三个主题词扩展短语构成的主题词扩展短语集合,再进一步通过语义相似度的计算,确定待分析文献的一个主题词扩展短语为planttraits。
需要说明的是,将各待分析文献的摘要输入至语步标注模型,可以得到语步标注模型输出的各待分析文献的摘要的语步标注信息。摘要是文献体裁中重要的次语体,摘要在结构和功能上的独立性和自含性使其成为一种独立的学术语篇体裁。
学术语篇体裁最常用的分析方法就是语步分析。在本实施方式中,用于语步分析的语步标注模型为SCIBert模型,
本实施方式中,将语步标注任务转化为文本分类任务,通过选取预训练模型,构建语步标签的训练集,训练得到用于文本语步分类的SCIBert模型,以实现对文本内容的语步标注。
科技文本摘要的内容高度凝练,具有结构化的撰写模式。在本实施方式中,语步标签包含:研究背景(BACKGROUND)、研究目标(OBJECTIVE)、研究方法(METHODS)、结果(RESULTS)、结论(CONCLUSIONS)等五类,以此描述文献的核心思想。
本实施方式中采用的SCIBert预训练模型标注上述五类语步结构。SCIBert预训练模型是一个利用大型科学出版物语料库(包括生物医学(82%)以及计算机科学(18%)方向总共114万篇论文样本)进行无监督预训练的BERT模型,因此,更加适用于科技文本数据的自然语言处理任务。
训练数据的特性和数量是决定一个模型性能好坏的最主要因素。例如针对农业领域,可以重点针对农业领域科技文本进行主题分析,现有公开数据集未涉及农业领域,因此,可以先构建农业领域语步标注训练数据集,再对预训练模型进行微调,将使得模型更好的适应农业领域文本标注任务。
语步标注模型即SCIBert模型的训练数据可以通过以下方式获取。
先获取数据库中的结构化摘要论文,以论文的领域标签词语作为检索词,通过检索筛选研究方向为目标领域的文献并进行数据导出,得到目标领域的原始文献,进而保证语步标注训练数据的准确性和权威性。
在此基础上,再对目标领域的原始文献的摘要进行清洗,识别语步标签并提取得到不同语步标签后的句子。
例如,本实施例以WOS(Web Of Science)数据库中的结构化摘要论文作为语料来源,以标签词语作为检索词,通过检索筛选研究方向为农业领域的文献进行数据导出,利用Python工具对论文摘要进行清洗,识别标签并提取不同标签后的句子。
在训练过程中,本实施方式中,使用Pytorch深度学习框架,选用SCIBert中推荐的scibert-scivocab-uncased预训练模型进行语步识别任务训练,模型首先对输入的语步标签、句子文本进行编码,转为模型需要的编码格式,使用辅助标记符[CLS]和[SEP]来表示句子的开始和分隔,然后根据输入得到对应的embedding,在得到整体的embedding后使用模型进行学习,最终根据本任务的分类层得到语步标注结果。
在得到训练好的语步标注模型后,将各待分析文献的摘要输入至语步标注模型,得到语步标注模型输出的各待分析文献的摘要的语步标注信息
步骤130,基于各待分析文献的目标主题词扩展短语以及各待分析文献的摘要的语步标注信息,生成各待分析文献的分析文本。
可以理解的是,可以直接将各待分析文献的目标主题词扩展短语以及各待分析文献的摘要的语步标注信息以文本的形式进行展示后输出,生成各待分析文献的分析文本,以便于相关人员直接查阅。
以农业领域为例,若通过LDA主题识别结果得到Topic0:农业资源环境研究主题下的plant traits、root traits、abundance effects、microbial traits以及rhizosphereeffect为目标主题词对应的主题词扩展短语,则可以确定Topic0主要研究作物根际与微生物多样性,如有机微生物分解、微生物多样性、根际微生物对作物生长的影响。
本发明实施例中,通过提出基于LDA和语步标注的主题识别与分析方法,在LDA模型基础上,通过短语结构分析和深度学习模型对主题表征词进行语义扩展,获取主题词扩展短语,提高了主题解读性。同时,引入语步分析法,通过构建领域语步训练数据集,基于SCIBert预训练模型,训练语步标注模型,并对主题结果进行句子功能标注,以提高主题内容在功能结构层面的理解与分析。
根据本发明实施例提供的文献主题内容分析方法,通过主题提取、生成主题词扩展短语并对反映主题的文本进行语步功能标注,能更深层次、细粒度地对大量文献进行主题分析,更加有利于相关人员更加全面而又准确地对文献主题进行了解。
下面对本发明提供的文献主题内容分析装置进行描述,下文描述的文献主题内容分析装置与上文描述的文献主题内容分析方法可相互对应参照。
如图2所示,本发明实施例的文献主题内容分析装置包括获取模块210、第一处理模块220以及第二处理模块230。
获取模块210用于获取目标领域的多个待分析文献;
第一处理模块220用于将各待分析文献输入至主题词提取模型,得到主题词提取模型输出的各主题下的主题词,并生成各主题下的主题词扩展短语;将各待分析文献的摘要输入至语步标注模型,得到语步标注模型输出的各待分析文献的摘要的语步标注信息;
第二处理模块230用于基于各主题下的主题词扩展短语以及各待分析文献的摘要的语步标注信息,生成各主题下待分析文献的分析文本。
根据本发明实施例提供的文献主题内容分析装置,通过主题提取、生成主题词扩展短语并对反映主题的文本进行语步功能标注,能更深层次、细粒度地对大量文献进行主题分析,更加有利于相关人员更加全面而又准确地对文献主题进行了解。
在一些实施例中,第一处理模块220还用于将各待分析文献文本进行分词并向量化,得到各待分析文献对应的词袋向量;基于各待分析文献文本分词结果中各词语的出现频次,将各待分析文献对应的词袋向量进行筛选,得到各待分析文献对应的目标词袋向量;将各待分析文献对应的目标词袋向量输入至主题词提取模型,得到主题词提取模型输出的第一数量的主题和各主题对应的第二数量的主题词;其中,每个待分析文献与一个主题对应。
在一些实施例中,第一处理模块220还用于基于各主题下的各主题词,确定各主题下第三数量的目标主题词;基于各目标主题词和短语结构,构建主题词扩展短语集合;通过语义相似度模型确定主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度;基于主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度,从主题词扩展短语集合中确定第四数量的主题词扩展短语。
在一些实施例中,第一处理模块220还用于对各待分析文献的各主题词在对应的待分析文献中的出现频率进行统计;基于各待分析文献的各主题词的出现频率,确定各主题下第三数量的目标主题词。
在一些实施例中,语步标注模型为SCIBert模型,语步标注模型的训练数据通过以下方式获取:获取数据库中的结构化摘要论文;以论文的领域标签词语作为检索词,通过检索筛选研究方向为目标领域的文献并进行数据导出,得到目标领域的原始文献;对目标领域的原始文献的摘要进行清洗,识别语步标签并提取得到不同语步标签后的句子。
在一些实施例中,语步标签包括研究背景、研究目标、研究方法、结果和结论。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行文献主题内容分析方法,该方法包括:获取目标领域的多个待分析文献;将各待分析文献输入至主题词提取模型,得到主题词提取模型输出的各主题下的主题词,并生成各主题下的主题词扩展短语;将各待分析文献的摘要输入至语步标注模型,得到语步标注模型输出的各待分析文献的摘要的语步标注信息;基于各主题下的主题词扩展短语以及各待分析文献的摘要的语步标注信息,生成各主题下待分析文献的分析文本。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的文献主题内容分析方法,该方法包括:获取目标领域的多个待分析文献;将各待分析文献输入至主题词提取模型,得到主题词提取模型输出的各主题下的主题词,并生成各主题下的主题词扩展短语;将各待分析文献的摘要输入至语步标注模型,得到语步标注模型输出的各待分析文献的摘要的语步标注信息;基于各主题下的主题词扩展短语以及各待分析文献的摘要的语步标注信息,生成各主题下待分析文献的分析文本。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的文献主题内容分析方法,该方法包括:获取目标领域的多个待分析文献;将各待分析文献输入至主题词提取模型,得到主题词提取模型输出的各主题下的主题词,并生成各主题下的主题词扩展短语;将各待分析文献的摘要输入至语步标注模型,得到语步标注模型输出的各待分析文献的摘要的语步标注信息;基于各主题下的主题词扩展短语以及各待分析文献的摘要的语步标注信息,生成各主题下待分析文献的分析文本。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种文献主题内容分析方法,其特征在于,包括:
获取目标领域的多个待分析文献;
将各待分析文献输入至主题词提取模型,得到所述主题词提取模型输出的各主题下的主题词,并生成各主题下的主题词扩展短语;将各待分析文献的摘要输入至语步标注模型,得到所述语步标注模型输出的各待分析文献的摘要的语步标注信息;
基于各主题下的主题词扩展短语以及各待分析文献的摘要的语步标注信息,生成各主题下待分析文献的分析文本;
所述生成各主题下的主题词扩展短语,包括:
基于各主题下的各主题词,确定各主题下第三数量的目标主题词;
基于各目标主题词和短语结构,构建主题词扩展短语集合;
通过语义相似度模型确定所述主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度;
基于所述主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度,从所述主题词扩展短语集合中确定第四数量的主题词扩展短语;
所述通过语义相似度模型确定所述主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度,具体包括:
选取Sentence-BERT预训练模型作为语义相似度模型,利用所述Sentence-BERT预训练模型将各主题词扩展短语和各待分析文献文本嵌入到向量空间,使用余弦相似度计算得到与各待分析文献文本相似的各主题词扩展短语;
所述将各待分析文献输入至主题词提取模型,得到所述主题词提取模型输出的各主题下的主题词,包括:
将各待分析文献文本用NLTK工具包进行分词并向量化,得到各待分析文献对应的词袋向量;
基于各待分析文献文本分词结果中各词语的出现频次,将各待分析文献对应的词袋向量进行筛选,得到各待分析文献对应的目标词袋向量;
将各待分析文献对应的目标词袋向量输入至所述主题词提取模型,得到所述主题词提取模型输出的第一数量的主题和各主题对应的第二数量的主题词;其中,每个所述待分析文献与一个所述主题对应;
所述语步标注模型为SCIBert模型,所述语步标注模型的训练数据通过以下方式获取:
获取数据库中的结构化摘要论文;
以论文的领域标签词语作为检索词,通过检索筛选研究方向为所述目标领域的文献并进行数据导出,得到所述目标领域的原始文献;
对所述目标领域的原始文献的摘要进行清洗,识别语步标签并提取得到不同语步标签后的句子;
所述语步标签包括研究背景、研究目标、研究方法、结果和结论。
2.根据权利要求1所述的文献主题内容分析方法,其特征在于,所述基于各主题下的各主题词,确定各主题下第三数量的目标主题词,包括:
对各待分析文献的各主题词在对应的待分析文献中的出现频率进行统计;
基于各待分析文献的各主题词的出现频率,确定各主题下所述第三数量的目标主题词。
3.一种文献主题内容分析装置,其特征在于,包括:
获取模块,用于获取目标领域的多个待分析文献;
第一处理模块,用于将各待分析文献输入至主题词提取模型,得到所述主题词提取模型输出的各主题下的主题词,并生成各主题下的主题词扩展短语;将各待分析文献的摘要输入至语步标注模型,得到所述语步标注模型输出的各待分析文献的摘要的语步标注信息;
第二处理模块,用于基于各主题下的主题词扩展短语以及各待分析文献的摘要的语步标注信息,生成各主题下待分析文献的分析文本;
所述第一处理模块还用于:
基于各主题下的各主题词,确定各主题下第三数量的目标主题词;
基于各目标主题词和短语结构,构建主题词扩展短语集合;
通过语义相似度模型确定所述主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度;
基于所述主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度,从所述主题词扩展短语集合中确定第四数量的主题词扩展短语;
所述第一处理模块还用于:
选取Sentence-BERT预训练模型作为语义相似度模型,利用所述Sentence-BERT预训练模型将各主题词扩展短语和各待分析文献文本嵌入到向量空间,使用余弦相似度计算得到与各待分析文献文本相似的各主题词扩展短语;
所述第一处理模块还用于:
将各待分析文献文本用NLTK工具包进行分词并向量化,得到各待分析文献对应的词袋向量;
基于各待分析文献文本分词结果中各词语的出现频次,将各待分析文献对应的词袋向量进行筛选,得到各待分析文献对应的目标词袋向量;
将各待分析文献对应的目标词袋向量输入至所述主题词提取模型,得到所述主题词提取模型输出的第一数量的主题和各主题对应的第二数量的主题词;其中,每个所述待分析文献与一个所述主题对应;
所述语步标注模型为SCIBert模型,所述语步标注模型的训练数据通过以下方式获取:
获取数据库中的结构化摘要论文;
以论文的领域标签词语作为检索词,通过检索筛选研究方向为所述目标领域的文献并进行数据导出,得到所述目标领域的原始文献;
对所述目标领域的原始文献的摘要进行清洗,识别语步标签并提取得到不同语步标签后的句子;
所述语步标签包括研究背景、研究目标、研究方法、结果和结论。
4.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1或2所述文献主题内容分析方法。
5.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1或2所述文献主题内容分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211352310.0A CN115713085B (zh) | 2022-10-31 | 2022-10-31 | 文献主题内容分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211352310.0A CN115713085B (zh) | 2022-10-31 | 2022-10-31 | 文献主题内容分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115713085A CN115713085A (zh) | 2023-02-24 |
CN115713085B true CN115713085B (zh) | 2023-11-07 |
Family
ID=85231873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211352310.0A Active CN115713085B (zh) | 2022-10-31 | 2022-10-31 | 文献主题内容分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115713085B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116415593B (zh) * | 2023-02-28 | 2023-10-31 | 北京市农林科学院 | 一种研究前沿识别方法、系统、电子设备及存储介质 |
CN118052225A (zh) * | 2024-02-28 | 2024-05-17 | 中国科学院文献情报中心 | 一种研究问题短语抽取的方法、装置、设备及介质 |
CN118278365A (zh) * | 2024-03-28 | 2024-07-02 | 北京市农林科学院 | 科技文献综述自动生成方法及装置 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106066866A (zh) * | 2016-05-26 | 2016-11-02 | 同方知网(北京)技术有限公司 | 一种英文文献关键短语自动抽取方法与系统 |
CN107102985A (zh) * | 2017-04-23 | 2017-08-29 | 四川用联信息技术有限公司 | 改进的文档中多主题的关键词提取技术 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
CN109446344A (zh) * | 2018-11-14 | 2019-03-08 | 同方知网(北京)技术有限公司 | 一种基于大数据的智能分析报告自动生成系统 |
CN110334268A (zh) * | 2019-07-05 | 2019-10-15 | 北京国创动力文化传媒有限公司 | 一种区块链项目热词生成方法以及装置 |
CN110728135A (zh) * | 2019-10-12 | 2020-01-24 | 中国科学技术信息研究所 | 文本主题标引方法、装置、电子设备及计算机存储介质 |
CN111090731A (zh) * | 2019-12-20 | 2020-05-01 | 山大地纬软件股份有限公司 | 基于主题聚类的电力舆情摘要提取优化方法及系统 |
CN111125355A (zh) * | 2018-10-31 | 2020-05-08 | 北京国双科技有限公司 | 一种信息处理方法及相关设备 |
CN111898366A (zh) * | 2020-07-29 | 2020-11-06 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
CN111914086A (zh) * | 2020-07-07 | 2020-11-10 | 广西科技大学 | 一种基于lstm神经网络的手机评论分析方法及系统 |
CN111966890A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 基于文本的事件推送方法、装置、电子设备和存储介质 |
CN112036485A (zh) * | 2020-08-31 | 2020-12-04 | 平安科技(深圳)有限公司 | 主题分类的方法、装置和计算机设备 |
CN113255340A (zh) * | 2021-07-09 | 2021-08-13 | 北京邮电大学 | 面向科技需求的主题提取方法、装置和存储介质 |
CN115017903A (zh) * | 2022-06-20 | 2022-09-06 | 安徽大学 | 文档层次结构联合全局局部信息抽取关键短语方法及系统 |
CN115114427A (zh) * | 2022-03-21 | 2022-09-27 | 国家计算机网络与信息安全管理中心 | 基于预训练和多任务学习的文本摘要和关键词抽取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11537950B2 (en) * | 2020-10-14 | 2022-12-27 | Adobe Inc. | Utilizing a joint-learning self-distillation framework for improving text sequential labeling machine-learning models |
KR102452123B1 (ko) * | 2020-12-23 | 2022-10-12 | 한국전자통신연구원 | 비정형 사이버 위협 정보 빅데이터 구축 장치, 사이버 위협 정보 빅데이터 구축 및 연관성 분석 방법 |
-
2022
- 2022-10-31 CN CN202211352310.0A patent/CN115713085B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106066866A (zh) * | 2016-05-26 | 2016-11-02 | 同方知网(北京)技术有限公司 | 一种英文文献关键短语自动抽取方法与系统 |
CN107102985A (zh) * | 2017-04-23 | 2017-08-29 | 四川用联信息技术有限公司 | 改进的文档中多主题的关键词提取技术 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
CN111125355A (zh) * | 2018-10-31 | 2020-05-08 | 北京国双科技有限公司 | 一种信息处理方法及相关设备 |
CN109446344A (zh) * | 2018-11-14 | 2019-03-08 | 同方知网(北京)技术有限公司 | 一种基于大数据的智能分析报告自动生成系统 |
CN110334268A (zh) * | 2019-07-05 | 2019-10-15 | 北京国创动力文化传媒有限公司 | 一种区块链项目热词生成方法以及装置 |
CN110728135A (zh) * | 2019-10-12 | 2020-01-24 | 中国科学技术信息研究所 | 文本主题标引方法、装置、电子设备及计算机存储介质 |
CN111090731A (zh) * | 2019-12-20 | 2020-05-01 | 山大地纬软件股份有限公司 | 基于主题聚类的电力舆情摘要提取优化方法及系统 |
CN111966890A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 基于文本的事件推送方法、装置、电子设备和存储介质 |
CN111914086A (zh) * | 2020-07-07 | 2020-11-10 | 广西科技大学 | 一种基于lstm神经网络的手机评论分析方法及系统 |
CN111898366A (zh) * | 2020-07-29 | 2020-11-06 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
CN112036485A (zh) * | 2020-08-31 | 2020-12-04 | 平安科技(深圳)有限公司 | 主题分类的方法、装置和计算机设备 |
CN113255340A (zh) * | 2021-07-09 | 2021-08-13 | 北京邮电大学 | 面向科技需求的主题提取方法、装置和存储介质 |
CN115114427A (zh) * | 2022-03-21 | 2022-09-27 | 国家计算机网络与信息安全管理中心 | 基于预训练和多任务学习的文本摘要和关键词抽取方法 |
CN115017903A (zh) * | 2022-06-20 | 2022-09-06 | 安徽大学 | 文档层次结构联合全局局部信息抽取关键短语方法及系统 |
Non-Patent Citations (5)
Title |
---|
ProcessBERT: A Pre-trained Language Model for Judging Equivalence of Variable Definitions in Process Models;Shota Kato;《IFAC-PapersOnLine》;第55卷(第7期);957-962 * |
基于bdPubMed的手卫生研究文献主题分析;吴永康;《内蒙古科技与经济》(第08期);139-141 * |
基于专利视角的北京涉农领域科技创新现状分析;张辉;《科技管理研究》;第37卷(第23期);192-199 * |
应用语言学学术论文讨论部分的修辞研究:介入视角;邓小华;《外语与翻译》;第28卷(第02期);53-60 * |
考虑语义距离的领域科学知识主题关联与演化研究;张瑞;《情报杂志》;第41卷(第10期);121-129 * |
Also Published As
Publication number | Publication date |
---|---|
CN115713085A (zh) | 2023-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115713085B (zh) | 文献主题内容分析方法及装置 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN105701084A (zh) | 一种基于互信息的文本分类的特征提取方法 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN110287298A (zh) | 一种基于问句主题的自动问答答案选择方法 | |
CN112417862A (zh) | 知识点预测方法、系统和可读存储介质 | |
CN116451114A (zh) | 基于企业多源实体特征信息的物联网企业分类系统及方法 | |
Dhar et al. | Bengali news headline categorization using optimized machine learning pipeline | |
CN114579695A (zh) | 一种事件抽取方法、装置、设备及存储介质 | |
Mossie | Social media dark side content detection using transfer learning emphasis on hate and conflict | |
Shatalov et al. | Named entity recognition problem for long entities in english texts | |
Schirmer et al. | A new dataset for topic-based paragraph classification in genocide-related court transcripts | |
Hridoy et al. | Aspect based sentiment analysis for bangla newspaper headlines | |
Thuy et al. | Leveraging foreign language labeled data for aspect-based opinion mining | |
Eswaraiah et al. | A Hybrid Deep Learning GRU based Approach for Text Classification using Word Embedding | |
Kapugama et al. | Enhancing Wikipedia search results using text mining | |
CN106570088A (zh) | 一种科研文献话题发现和演化跟踪的方法 | |
Mohemad et al. | Ontological-based information extraction of construction tender documents | |
Oshadi et al. | AppGuider: Feature Comparison System using Neural Network with FastText and Aspect-based Sentiment Analysis on Play Store User Reviews | |
Shekhar | Text Mining and Sentiment Analysis | |
CN116992869B (zh) | 基于搜索引擎和分类器的远程监督关系抽取方法及装置 | |
Mulyanto et al. | Systematic Literature Review of Text Feature Extraction | |
Ghatge et al. | Nutritional and Natural Farming: Agriculturists’ Sentiment Analysis | |
Wininger | Measuring the evolution of a revised document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |