CN116561311A - 基于大语言模型的引文文本自动分类方法 - Google Patents

基于大语言模型的引文文本自动分类方法 Download PDF

Info

Publication number
CN116561311A
CN116561311A CN202310440257.8A CN202310440257A CN116561311A CN 116561311 A CN116561311 A CN 116561311A CN 202310440257 A CN202310440257 A CN 202310440257A CN 116561311 A CN116561311 A CN 116561311A
Authority
CN
China
Prior art keywords
quotation
text
cited
document
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310440257.8A
Other languages
English (en)
Inventor
任檐雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202310440257.8A priority Critical patent/CN116561311A/zh
Publication of CN116561311A publication Critical patent/CN116561311A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于大语言模型的引文文本自动分类方法,包括:获取待分析的被引文献全文及其施引文献全文,并对其进行数据预处理;利用大语言模型提炼被引文献中的关键信息;将提炼的关键信息以及得到的引文文本信息输入到BERT模型提取相应的特征,将提取的特征以及数据预处理中得到的引用位置特征进行集合并采用集合的特征对用于分类任务的多层感知机分类模型进行训练;将待分类的引文文本经过上述步骤提取特征后,将特征进行集合并输入到训练完成的多层感知机分类模型中对引文文本的引用对象标签和引用功能标签进行预测,并根据引用对象标签和引用功能标签对引文文本进行分类。本发明大大提升了引文文本分类准确率。

Description

基于大语言模型的引文文本自动分类方法
技术领域
本发明属于引文分析的技术领域,具体涉及一种基于大语言模型的引文文本自动分类方法。
背景技术
基于文献被引频次的传统引文分析方法已广泛应用于学术评价、科学计量、科研绩效管理等领域,衍生出了期刊影响因子IF、科研人员H指数等颇具影响力的计量指标,但这些方法均将所有的引用同等看待,未能有效区分不同引文内容之间的具体差异。随着全文文献数据库的普及以及文本处理技术的发展,对引文文本进行细粒度的分析处理成为大势所趋,尝试从引用对象、引用功能等多方面对引文文本进行自动分类逐渐成为研究人员关注的焦点。然而,当前的引文内容自动识别方法准确率并不理想,与被引文献本身内容脱节的问题也尤为突出。因此,如何有效解决引文文本的分类问题、进而更细粒度地评价被引文献的影响力成为一个重要问题。
发明内容
本发明的目的在于针对现有技术的不足之处,提供一种基于大语言模型的引文文本自动分类方法,该方法从引用对象和引用功能两个层面更细粒度地揭示出引用行为的实质,提高引文文本分类的准确率。
为解决上述技术问题,本发明采用如下技术方案:
一种基于大语言模型的引文文本自动分类方法,包括如下步骤:
步骤1、获取待分析的被引文献全文及其施引文献全文,并对其进行数据预处理;
步骤2、利用大语言模型提炼被引文献中的关键信息;
步骤3、将步骤2提炼的关键信息以及步骤1中得到的引文文本信息输入到BERT模型提取相应的特征,将提取的特征及步骤1中得到的引用位置特征进行集合并采用集合的特征对用于分类任务的多层感知机分类模型MLP进行训练;
步骤4、将待分类的引文文本经过步骤1和步骤2的处理并经步骤3提取特征后将特征进行集合并输入到训练完成的多层感知机分类模型MLP中对引文文本的引用对象标签和引用功能标签进行预测,并根据引用对象标签和引用功能标签对引文文本进行分类。
进一步地,步骤1具体包括:
S1.1、从数据库中获取待分析的被引文献全文及其对应的施引文献全文,删除无法获取全文的文献;
S1.2、将施引文献全文PDF转化为TXT格式的文本,保留引用标记;
S1.3、利用正则表达式匹配引用标记的方法获取施引文献中的引文内容和引用位置,得到引文内容集合其中,xi表示第i条样本(xi,zi)中的引文文本;zi表示第i条样本(xi,zi)中的被引文献内容;di表示引文文本在施引文献中的引用位置特征向量;yi表示引用对象标签,y′i表示引用功能标签,标签均来自人工标注;i=1,2,…,N,N表示样本总数。
进一步地,步骤2中提取的关键信息包括被引文献的背景、方法和结论。
进一步地,步骤2中将被引文献全文输入大语言模型LLM中,提取的背景、方法和结论分别为:
si=LLM(xi,prompt1);
s′i=LLM′(xi,prompt2);
s″i=LLM″(xi,prompt3);
其中,LLM是提炼被引文献背景的大语言模型,prompt1是提炼被引文献背景的提示词,si是第i篇被引文献提炼后的背景文本;LLM′是提炼被引文献方法的大语言模型,prompt2是提炼被引文献方法的提示词,s′i是第i篇被引文献提炼后的方法文本;LLM″是提炼被引文献结论的大语言模型;prompt3是提炼被引文献结论的提示词,s″i是第i篇被引文献提炼后的结论文本。
进一步地,步骤3具体包括:
将步骤2中提取的被引文献关键信息输入到BERT模型获得被引文献关键信息的特征向量;
将步骤1中得到的引文文本信息输入到BERT模型得到引文文本的特征向量;
将被引文献关键信息的特征向量与引文文本的特征向量、步骤1中得到的引用位置特征向量拼接后得到训练集,采用该训练集对多层感知机分类模型MLP进行训练,获得多层感知机分类模型MLP的模型参数。
进一步地,步骤3中在训练过程中,建立损失函数,通过反向传播优化模型参数,直至损失函数收敛,其中,损失函数为交叉熵损失函数L:
式中,为多层感知机分类模型MLP输出的引用对象标签,/>为输出的引用功能标签;yi为训练集中人工标注的引用对象标签,y′i为训练集中人工标注的引用功能标签;i=1,2,…,N,N表示样本总数;λ为使模型效果最优的参数,取值范围为[0.1,5]。
进一步地,步骤4中,根据预测的引用对象标签和引用功能标签,构建引文三元组,引文三元组包含引用对象包含关系三元组、引用对象类别三元组和引文功能三元组。
进一步地,引用对象包含关系三元组表示为(引用对象,Part-of,被引文献)。
进一步地,引用对象类别三元组表示为(引用对象,ISA,引用对象类别)。
进一步地,引文功能三元组表示为(施引文献,引文功能,被引文献)。
与现有技术相比,本发明的有益效果为:
1、本发明通过大语言模型实现了对长文本更好的处理,可以有效提炼被引文献全文的关键内容信息,转化为训练集成语言特征分类器的特征向量,实现了引文内容和被引文献本身内容的有效匹配,从而提高了对引文文本的分类准确率;
2、本发明通过识别引文文本在施引文献中的引用位置特征向量,包括Introduction(背景或引言)、Data&Methods(数据或方法)、Results(结果)、Conclusion(结论)等,利用不同位置的引文通常具有不同的引用功能这个特点,进一步提高了对引文文本的分类准确率;
3、本发明利用人工标注的引用对象和引用功能标签对BERT短文本分类模型进行微调,提高了BERT模型对特定文本分类任务的特征提取能力,获得了更加准确的语义特征向量表示;
4、本发明通过融合被引文献本身的内容特征、施引文献中的引用特征,并利用人工标注的标签微调预训练模型,实现了准确率更优的引文文本分类。
附图说明
图1为本发明实施例基于大语言模型的引文文本自动分类方法的流程图;
图2为本发明实施例基于大语言模型的引文文本自动分类方法的实施框图;
图3为本发明实施例中利用大语言模型提炼被引文献关键信息的实施框图;
图4为本发明实施例中利用集成语言特征进行多目标分类的实施框图;
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合具体实施例对本发明作进一步说明,但不作为本发明的限定。
如图1和图2所示,本发明实施例公开一种基于大语言模型的引文文本自动分类方法,该方法通过大语言模型和集成语言特征分类器获取了被引文献原文信息,且增加了引用位置特征向量,提升了引文文本分类准确率,以此实现辅助被引文献影响力评价、探究文献间知识传递过程、构建知识传播网络以及学术本体的技术效果。具体来说,其包括以下步骤:
步骤1、获取待分析的被引文献全文及其施引文献全文,并进行数据预处理:
S1.1、从文献数据库,如Web of Science数据库、Scopus数据库、PubMed数据库中获取待分析的被引文献全文,并通过数据库提供的“查看施引文献”功能获取其对应的施引文献全文,以PDF格式下载被引文献及其对应的施引文献,组成一个文献对,剔除部分由于访问权限或其他原因无法获取全文PDF的文献对;
S1.2、当被引文献出现在施引文献中时,通常会被以“[编号]”的格式标记,如被引文献《SARS-CoV-2variants of concern and vaccine escape,from Alpha to Omicronand beyond》一文在其施引文献《Antibody persistence and safety afterheterologous boosting with orally aerosolised Ad5-nCoV in individuals primedwith two-dose CoronaVac previously:12-month analyses of a randomizedcontrolled trial》一文中的Introduction部分被标记为“[3]”,其中,“[3]”即为引用标记,“[3]”所在的句子即为引文句。利用Python语言将S1.1中获得的施引文献全文PDF全部转化为TXT格式的文本,并保留文中所有的引用标记“[]”;
S1.3、利用Python语言中的正则表达式匹配引用标记“[]”,获取施引文献中的引文句和引用位置,其中引用位置分为“Introduction”“Data&Methods”“Results”和“Discussion&Conclusion”四类,具体分类体系见表1。如在S1.2提到的《Antibodypersistence and safety after heterologous boosting with orally aerosolisedAd5-nCoV in individuals primed with two-dose CoronaVac previously:12-monthanalyses of a randomized controlled trial》一文中匹配引用标记“[3]”,即可抽取出其所在的引文句及其所在的引用位置“Introduction”。
表1为引用位置分类体系
由此,可得到引文文本集合:
其中,xi表示第i条文献对样本(xi,zi)中的引文文本,由于引文上下文在理解引文语义中发挥重要作用,这里将其定义为施引文献中的引文句及其前两句和后两句,共5句;zi表示第i条文献对样本(xi,zi)中的被引文献内容;di表示引文文本在施引文献中的引用位置特征向量,特征维度为4维;yi表示引用对象标签,y′i表示引用功能标签,标签均来自人工标注;i=1,2,…,N,N表示样本总数。其中,引用对象标签主要分为“背景”、“方法”和“结论”3类,具体分类体系见表2;引用功能标签主要分为“背景”、“基于”、“支持”、“批判”和“不同”5类,具体分类体系见表3;
表2为引用对象分类体系
表3为引用功能分类体系
步骤2、利用大语言模型提炼被引文献中的关键信息;
如图3所示,在本实施例中,将被引文献全文输入大语言模型LLM,设置三组提示词,分别提炼出被引文献的背景、方法和结论:
si=LLM(xi,prompt1); (2)
s′i=LLM′(xi,prompt2); (3)
s″i=LLM″(xi,prompt3); (4)
其中,LLM是提炼被引文献背景的大语言模型,prompt1是提炼被引文献背景的提示词,si是第i篇被引文献提炼后的背景文本;LLM′是提炼被引文献方法的大语言模型,prompt2是提炼被引文献方法的提示词,s′i是第i篇被引文献提炼后的方法文本;LLM″是提炼被引文献结论的大语言模型,prompt3是提炼被引文献结论的提示词,s″i是第i篇被引文献提炼后的结论文本。
步骤3、将步骤2提炼的被引文献关键信息以及步骤1中得到的引文文本信息输入到BERT模型提取相应的特征,采用提取的特征及步骤1中得到的引用位置特征对用于分类任务的多层感知机分类模型MLP中进行训练;该步骤具体包括:
S3.1、BERT模型是一个能融合上下文深层双向语言特征的预训练模型,适用于文本分类、语义理解等任务。将提炼后的被引文献背景文本si、方法文本s′i和结论文本s″i分别输入不同的BERT模型,可分别得到其特征向量表示:
qi=BERT(si); (5)
q′i=BERT′(s′i); (6)
q″i=BERT″(s″i); (7)
其中,BERT是用于提取被引文献背景特征的BERT模型,BERT′是用于提取被引文献方法特征的BERT模型,BERT″是提取被引文献结论特征的BERT模型;qi是得到的被引文献背景文本特征向量,在本实施例中,特征维度是768维;q′i是被引文献方法文本特征向量,特征维度是768维;q″i是被引文献结论文本特征向量,特征维度是768维。
S3.2、将引文文本xi输入BERT模型,得到引文文本特征向量:
Pi=BERT″′(xi) (8)
其中,BERT″′是提取引文文本特征的BERT模型,Pi是输出的引文文本特征向量,在本实施例中,特征维度是768维。
S3.3、将被引文献背景文本特征向量qi、方法文本特征向量q′i、结论文本特征向量q″i、引文文本特征向量Pi以及步骤1中得到的引用位置向量di拼接后得到训练集;将训练集输入到多层感知机分类模型MLP中,由此输出预测值:
其中,MLP是用于引用目标标签分类的分类器,特征维度为[128,16];MLP′是用于引用功能标签分类的分类器,特征维度为[128,16];是输出的引用对象标签,/>是引用功能标签。
S3.4、采用训练集对多层感知机分类模型进行训练,在训练过程中设置损失函数,通过反向传播优化模型参数,直至损失函数收敛,其中,损失函数为交叉熵损失函数L,
式中,为多层感知机分类模型输出的引用对象标签,/>为输出的引用功能标签;yi为训练集中人工标注的引用对象标签,y′i为训练集中人工标注的引用功能标签;i=1,2,…,N,N表示样本总数;λ为使多层感知机分类模型效果最优的参数,取值范围为[0.1,5]。
步骤4、将待分类的引文文本经过步骤1和步骤2的处理并经步骤3提取特征后将特征进行集合并输入到训练完成的多层感知机分类模型MLP中对引文文本的引用对象标签和引用功能标签进行预测,并根据引用对象标签和引用功能标签对引文文本进行分类;
在本实施例中,如图4所示,采用训练完成的多层感知机分类模型MLP中对待分类的引文文本的引用对象标签和引用功能标签进行预测,将根据预测出的施引文献引用对象标签和引文功能标签构建引文三元组。该引文三元组包含引用对象包含关系三元组、引用对象类别三元组和引文功能三元组。其中,引用对象包含关系三元组表示为(引用对象,Part-of,被引文献),表达了引用对象和被引文献间的包含关系,将引用对象和其原先隶属的被引文献之间联结起来;引用对象类别三元组表示为(引用对象,ISA,引用对象类别),表达了引用对象的类别属性,即被引文献被施引文献引用的内容是什么;引文功能三元组表示为(施引文献,引文功能,被引文献),表达了被引文献在施引文献中发挥中的功能作用。3个三元组从多维度揭示出引用关系的实质,共同表达出引文的完整内涵,作为引文文本的3个属性,以实现分类目的,示例如表4。
表4为引文文本三元组示例
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (10)

1.一种基于大语言模型的引文文本自动分类方法,其特征在于,包括如下步骤:
步骤1、获取待分析的被引文献全文及其施引文献全文,并对其进行数据预处理;
步骤2、利用大语言模型提炼被引文献中的关键信息;
步骤3、将步骤2提炼的关键信息以及步骤1中得到的引文文本信息输入到BERT模型提取相应的特征,将提取的特征以及步骤1中得到的引用位置特征进行集合并采用集合的特征对用于分类任务的多层感知机分类模型MLP进行训练;
步骤4、将待分类的引文文本经过步骤1和步骤2的处理并经步骤3提取特征后将特征进行集合并输入到训练完成的多层感知机分类模型MLP中对引文文本的引用对象标签和引用功能标签进行预测,并根据引用对象标签和引用功能标签对引文文本进行分类。
2.根据权利要求1所述的基于大语言模型的引文文本自动分类方法,其特征在于,步骤1具体包括:
S1.1、从数据库中获取待分析的被引文献全文及其对应的施引文献全文,删除无法获取全文的文献;
S1.2、将施引文献全文PDF转化为TXT格式的文本,保留引用标记;
S1.3、利用正则表达式匹配引用标记的方法获取施引文献中的引文内容和引用位置,得到引文文本集合其中,xi表示第i条样本(xi,zi)中的引文文本;zi表示第i条样本(xi,zi)中的被引文献内容;di表示引文文本在施引文献中的引用位置特征向量;yi表示引用对象标签,y′i表示引用功能标签,标签均来自人工标注;i=1,2,…,N,N表示样本总数。
3.根据权利要求1所述的基于大语言模型的引文文本自动分类方法,其特征在于,步骤2中提取的关键信息包括被引文献的背景、方法和结论。
4.根据权利要求3所述的基于大语言模型的引文文本自动分类方法,其特征在于,步骤2中将被引文献全文输入大语言模型LLM中,提取的背景、方法和结论分别为:
si=LLM(xi,rompt1);
s′i=LM′(xi,prompt2);
s″i=LLM″(i,prompt3);
其中,LLM是提炼被引文献背景的大语言模型,prompt1是提炼被引文献背景的提示词,si是第i篇被引文献提炼后的背景文本;LLM′是提炼被引文献方法的大语言模型,prompt2是提炼被引文献方法的提示词,s′i是第i篇被引文献提炼后的方法文本;LLM″是提炼被引文献结论的大语言模型;prompt3是提炼被引文献结论的提示词,s″i是第i篇被引文献提炼后的结论文本。
5.根据权利要求1所述的基于大语言模型的引文文本自动分类方法,其特征在于,步骤3具体包括:
将步骤2中提取的被引文献关键信息输入到BERT模型,获得被引文献关键信息的特征向量;
将步骤1中得到的引文文本信息输入到BERT模型得到引文文本的特征向量;
将被引文献关键信息的特征向量与引文文本的特征向量、步骤1中得到的引用位置拼接后得到训练集,采用该训练集对多层感知机分类模型MLP进行训练,获得多层感知机分类模型MLP的模型参数。
6.根据权利要5所述的基于大语言模型的引文文本自动分类方法,其特征在于,步骤3中在训练过程中,建立损失函数,通过反向传播优化模型参数,直至损失函数收敛,其中,损失函数为交叉熵损失函数L:
式中,为多层感知机分类模型MLP输出的引用对象标签,/>为输出的引用功能标签;yi为训练集中人工标注的引用对象标签,y′i为训练集中人工标注的引用功能标签;i=1,2,…,,N表示样本总数;λ为使模型效果最优的参数。
7.根据权利要求1所述的基于大语言模型的引文文本自动分类方法,其特征在于,步骤4中,根据预测的引用对象标签和引用功能标签,构建引文三元组,引文三元组包含引用对象包含关系三元组、引用对象类别三元组和引文功能三元组。
8.根据权利要求7所述的基于大语言模型的引文文本自动分类方法,其特征在于,引用对象包含关系三元组表示为(引用对象,Part-of,被引文献)。
9.根据权利要求7所述的基于大语言模型的引文文本自动分类方法,其特征在于,引用对象类别三元组表示为(引用对象,ISA,引用对象类别)。
10.根据权利要求7所述的基于大语言模型的引文文本自动分类方法,其特征在于,引文功能三元组表示为(施引文献,引文功能,被引文献)。
CN202310440257.8A 2023-04-21 2023-04-21 基于大语言模型的引文文本自动分类方法 Pending CN116561311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310440257.8A CN116561311A (zh) 2023-04-21 2023-04-21 基于大语言模型的引文文本自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310440257.8A CN116561311A (zh) 2023-04-21 2023-04-21 基于大语言模型的引文文本自动分类方法

Publications (1)

Publication Number Publication Date
CN116561311A true CN116561311A (zh) 2023-08-08

Family

ID=87485381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310440257.8A Pending CN116561311A (zh) 2023-04-21 2023-04-21 基于大语言模型的引文文本自动分类方法

Country Status (1)

Country Link
CN (1) CN116561311A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117390497A (zh) * 2023-12-08 2024-01-12 浙江口碑网络技术有限公司 基于大语言模型的类目预测方法、装置和设备
CN117556049A (zh) * 2024-01-10 2024-02-13 杭州光云科技股份有限公司 一种基于大语言模型生成的正则表达式的文本分类方法
CN118069778A (zh) * 2024-04-24 2024-05-24 成都锋卫科技有限公司 一种基于llm模型的相似资产指纹提取方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117390497A (zh) * 2023-12-08 2024-01-12 浙江口碑网络技术有限公司 基于大语言模型的类目预测方法、装置和设备
CN117390497B (zh) * 2023-12-08 2024-03-22 浙江口碑网络技术有限公司 基于大语言模型的类目预测方法、装置和设备
CN117556049A (zh) * 2024-01-10 2024-02-13 杭州光云科技股份有限公司 一种基于大语言模型生成的正则表达式的文本分类方法
CN117556049B (zh) * 2024-01-10 2024-05-17 杭州光云科技股份有限公司 一种基于大语言模型生成的正则表达式的文本分类方法
CN118069778A (zh) * 2024-04-24 2024-05-24 成都锋卫科技有限公司 一种基于llm模型的相似资产指纹提取方法

Similar Documents

Publication Publication Date Title
CN109086357B (zh) 基于变分自动编码器的情感分类方法、装置、设备及介质
CN116561311A (zh) 基于大语言模型的引文文本自动分类方法
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN112784578B (zh) 法律要素提取方法、装置和电子设备
CN109960727B (zh) 针对非结构化文本的个人隐私信息自动检测方法及系统
CN106919673A (zh) 基于深度学习的文本情绪分析系统
CN109002473B (zh) 一种基于词向量与词性的情感分析方法
CN108536870A (zh) 一种融合情感特征和语义特征的文本情感分类方法
CN111680225B (zh) 基于机器学习的微信金融消息分析方法及系统
CN112101027A (zh) 基于阅读理解的中文命名实体识别方法
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
CN112966682B (zh) 一种基于语义分析的档案分类方法及系统
CN110457690A (zh) 一种专利创造性的判断方法
CN116822517B (zh) 一种多语言翻译的术语识别方法
CN111027306A (zh) 一种基于关键词抽取和词移距离的知识产权匹配技术
WO2021190662A1 (zh) 医学文献排序方法、装置、电子设备及存储介质
CN115687634A (zh) 一种结合先验知识的金融实体关系抽取系统及方法
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
Mo et al. Crf-based named entity recognition for myanmar language
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
CN117574858A (zh) 一种基于大语言模型的类案检索报告自动生成方法
CN112784601A (zh) 关键信息提取方法、装置、电子设备和存储介质
CN109241521B (zh) 一种基于引用关系的科技文献高关注度句子提取方法
CN114398492B (zh) 一种在数字领域的知识图谱构建方法、终端及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination