CN117668173A - 科学文献信息抽取方法、装置、计算机设备和存储介质 - Google Patents

科学文献信息抽取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117668173A
CN117668173A CN202311367647.3A CN202311367647A CN117668173A CN 117668173 A CN117668173 A CN 117668173A CN 202311367647 A CN202311367647 A CN 202311367647A CN 117668173 A CN117668173 A CN 117668173A
Authority
CN
China
Prior art keywords
information extraction
scientific literature
model
extraction
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311367647.3A
Other languages
English (en)
Inventor
郭蒙浩
孙山鑫
江金陵
吴凡
张琛
吴信东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202311367647.3A priority Critical patent/CN117668173A/zh
Publication of CN117668173A publication Critical patent/CN117668173A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种科学文献信息抽取方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式,基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令,基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息,基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型,将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。实现了从多元异构的科学文献中抽取信息,提高了信息抽取的准确性和可扩展性。

Description

科学文献信息抽取方法、装置、计算机设备和存储介质
技术领域
本申请涉及信息抽取技术领域,特别是涉及一种科学文献信息抽取方法、装置、计算机设备和存储介质。
背景技术
科学文献作为记录科学研究结果的文献,通常会记录和描述研究问题、方法、结果和结论等,对于推进学术研究、传播研究成果、促进知识共享等具有重要意义。通过科学文献,研究人员可以了解前人的研究成果、研究现状和发展趋势,从而更好地开展自己的研究工作。然而,随着信息技术的发展,科学文献的规模和蕴含的信息量越来越大,仅仅依靠人工阅读和获取其中有用的信息需要耗费大量时间和精力,因此,信息抽取技术作为一种能够实现自然语言处理和数据库技术结合的工具,逐渐被研究人员广泛使用。
传统的信息抽取技术,通常是采用传统的机器学习方法,基于规则或分类器,例如支持向量机、决策树等,进行科学文献的信息抽取,然而,这种方法仅在一些特定领域或数据集上具有较好的效果,并不适用于全部的科学文献,且由于科学文献具有多元异构的特点,来源、格式等多种多样,极大的影响了信息抽取的准确性和鲁棒性。因此,相关技术中亟需一种能够对多元异构的科学文献进行信息抽取,同时提高抽取的准确率和可扩展性的方式。
发明内容
基于此,有必要针对上述技术问题,提供一种能够对多元异构的科学文献进行抽取,同时提高抽取的准确率和可扩展性的科学文献信息抽取方法、装置、计算机设备和计算机可读存储介质。
第一方面,本申请提供了一种科学文献信息抽取方法。所述方法包括:
获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式;
基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令;
基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息;
基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型;
将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。
可选的,在本申请的一个实施例中,所述获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式包括:
识别参考科学文献的来源和载体格式;
基于所述来源和载体格式确定信息抽取方式。
可选的,在本申请的一个实施例中,所述基于所述参考科学文献和信息抽取方式构建信息抽取指令集包括:
基于所述参考科学文献的内容和元数据确定多个信息抽取对象;
基于所述多个信息抽取对象和信息抽取方式生成多个信息抽取指令,组成信息抽取指令集。
可选的,在本申请的一个实施例中,所述基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集之后包括:
基于所述参考科学文献和标注信息确定信息抽取指令的抽取准确率和抽取完整率。
可选的,在本申请的一个实施例中,所述基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型包括:
将所述参考科学文献输入初始信息抽取模型,得到初始信息;
基于所述初始信息和标注信息确定抽取损失函数,基于所述抽取损失函数调整所述初始信息抽取模型的参数;
将所述参考科学文献输入经过调整的初始信息抽取模型,得到抽取结果,并将所述抽取结果输入奖励评分模型,得到评分结果,其中,所述奖励评分模型基于调整后的初始信息抽取模型训练得到;
基于所述抽取结果和评分结果确定强化损失函数,基于所述强化损失函数调整所述初始信息抽取模型的参数,得到目标信息抽取模型。
可选的,在本申请的一个实施例中,所述奖励评分模型基于调整后的初始信息抽取模型通过以下方式训练得到:
将所述初始信息输入经过调整的初始信息抽取模型,得到累积奖励;
基于所述累积奖励和标准评分确定奖励损失函数,基于所述累积奖励和策略损失函数调整初始信息抽取模型的参数,得到奖励评分模型。
可选的,在本申请的一个实施例中,所述将待处理科学文献输入所述目标信息抽取模型,得到目标信息抽取结果之后包括:
将所述目标信息抽取结果存入科学文献抽取数据库。
第二方面,本申请还提供了一种科学文献信息抽取装置。所述装置包括:
参考科学文献获取模块,用于获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式;
信息抽取指令集构建模块,用于基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令;
信息抽取数据集构建模块,用于基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息;
信息抽取模型训练模块,用于基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型;
信息抽取模块,用于将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述各个实施例所述方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个实施例所述方法的步骤。
上述科学文献信息抽取方法、装置、计算机设备和存储介质,首先,获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式,之后,基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令,之后,基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息,之后,基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型,最后,将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。也就是说,通过基于科学文献的特点,采用不同的信息抽取方式,并基于不同的信息抽取方式生成信息抽取指令,构建训练数据集,训练抽取模型,实现了从多元异构的科学文献中抽取信息,且采用生成式模型,能够自动适应不同领域和格式的科学文献,提高了信息抽取的准确性和可扩展性。
附图说明
图1为一个实施例中科学文献信息抽取方法的应用环境图;
图2为一个实施例中科学文献信息抽取方法的流程示意图;
图3为一个实施例中实现科学文献信息抽取方法的系统展示界面示意图;
图4为一个实施例中科学文献信息抽取装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的科学文献信息抽取方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种科学文献信息抽取方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S201:获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式。
本申请实施例中,首先,获取参考科学文献,可选的,参考科学文献是多元异构的,可以来源不同,例如学术期刊、学术会议、学术论文等,也可以具有不同的结构,通常可以通过例如arxiv互联网科学文献公开网站获取,之后,基于获得的参考科学文献的属性确定信息抽取方式,不同的参考科学文献因为来源不同而具有不同的属性,例如布局方式不同,载体格式不同,除此之外,不同的参考科学文献,还具有多种多样的表现形式,基于不同的属性,对应有不同的信息抽取方式,都可以对参考科学文献中进行抽取,得到需要的信息。
S203:基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令。
本申请实施例中,在确定信息抽取方式之后,基于参考科学文献的不同信息,结合对应不同属性的信息抽取方式,生成多个信息抽取指令,每个信息抽取指令对应可以抽取一个参考科学文献中的一个信息,多个对应不同信息的信息抽取指令组成信息抽取指令集。具体的,参考科学文献的信息包括标题、摘要、作者、正文、参考文献、发表年份等。
S205:基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息。
本申请实施例中,在构建信息抽取指令集之后,基于信息抽取指令集中不同的信息抽取指令对参考科学文献的不同信息进行抽取,得到抽取信息,并对其进行标注,得到标注信息,所有的标注信息组成信息抽取数据集。具体应用中,标注通常是机器学习或人工标注,人工标注指专家或专业人员进行的标注,给抽取信息增加对应的标签。
S207:基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型。
本申请实施例中,得到信息抽取数据集之后,基于参考科学文献和信息抽取数据集对初始信息抽取模型进行训练,通过不断的对模型参数进行调整,最终得到目标信息抽取模型。具体的,初始信息抽取模型为生成式模型,可选的,例如大规模语言模型(LargeLanguage Model,LLM),具体表示为如下公式。
P(x)=\sum_z P(x|z)P(z)
其中,x表示生成的数据,z表示生成数据的潜在变量,P(x∣z)表示在潜在变量z下生成数据x的概率,P(z)表示潜在变量的先验概率。
对于LLM,潜在变量z通常表示为文本生成的上下文信息,例如科学文献文本信息和指令等。LLM通过学习大量文本数据,来估计P(x∣z)和P(z)。
可选的,还可以通过最大化文档生成似然以训练模型,如下述公式表示。
θ*=argmaxθE~data[pθ()]
其中,x表示文档,pθ()是模型生成x的概率。通过最大化文档的生成似然,使模型学会预测文档中的下一个词,以生成连贯、符合语法的文本。
还可以通过最小化抽取结果误差以训练模型,如下述公式表示。
其中,x是文档,y是文档中的抽取信息真实标注,fθ()是模型对x的抽取结果,L是损失函数,常见的有MSE,Cross-Entropy等。通过最小化抽取结果与真实标注之间的误差,使模型学会从文档中准确抽取信息。
也可以通过综合考虑文档生成最大化似然和抽取最小误差作为联合训练目标,可以获得在两个任务上都表现较好的模型,如下述公式表示,其中,λ用于调节两个任务的权重。
S209:将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。
本申请实施例中,得到目标信息抽取模型之后,将待处理科学文献和接收到的用户信息抽取指令输入训练好的目标信息抽取模型中,得到目标信息抽取结果,并将目标信息抽取结果展示给用户。
上述科学文献信息抽取方法中,首先,获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式,之后,基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令,之后,基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息,之后,基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型,最后,将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。也就是说,通过基于科学文献的特点,采用不同的信息抽取方式,并基于不同的信息抽取方式生成信息抽取指令,构建训练数据集,训练抽取模型,实现了从多元异构的科学文献中抽取信息,且采用生成式模型,能够自动适应不同领域和格式的科学文献,提高了信息抽取的准确性和可扩展性。
在本申请的一个实施例中,所述获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式包括:
S301:识别参考科学文献的来源和载体格式。
S303:基于所述来源和载体格式确定信息抽取方式。
在本申请的一个实施例中,首先,识别参考科学文献的来源和载体格式,其中,来源指参考科学文献的出处,例如期刊、会议、论文集等,载体格式指承载参考科学文献,展示参考科学文献的载体的格式,包括pdf、doc、html等。之后,基于来源和载体格式确定信息抽取方式,因为不同来源、不同载体格式都使参考科学文献的表示方式不同,不同的参考科学文献有不同的表达格式,所以根据其来源和载体格式,可以确定不同的信息抽取方式,具体应用中,可以通过pdf处理模块、doc处理模块、html处理模块等处理模块,实现对不同的参考科学文献进行信息抽取。需要说明的是,pdf、doc、html等处理模块中包括自然语言处理和图像识别技术,可以通过其实现对参考科学文献中的文本、图片、表格等不同表现形式的内容进行处理。
本实施例中,通过识别参考科学文献的来源和载体格式,基于来源和载体格式确定信息抽取方式,能够实现对多元异构的科学文献进行初步处理,抽取结构化信息,满足不同需求。
在本申请的一个实施例中,所述基于所述参考科学文献和信息抽取方式构建信息抽取指令集包括:
S401:基于所述参考科学文献的内容和元数据确定多个信息抽取对象。
S403:基于所述多个信息抽取对象和信息抽取方式生成多个信息抽取指令,组成信息抽取指令集。
在本申请的一个实施例中,参考科学文献中具有各种各样的信息,信息包括例如标题、摘要、正文、参考文献等内容和例如作者、单位、出版年份等元数据,这些内容和元数据也就是多个信息抽取对象,基于该多个信息抽取对象和之前确定的信息抽取方式,在专家辅助下,生成多个信息抽取指令,组成信息抽取指令集。
本实施例中,通过基于参考科学文献的内容和元数据确定多个信息抽取对象,基于多个信息抽取对象和信息抽取方式生成多个信息抽取指令,组成信息抽取指令集,能够简化信息抽取模型的构建和使用。
在本申请的一个实施例中,所述基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集之后包括:
基于所述参考科学文献和标注信息确定信息抽取指令的抽取准确率和抽取完整率。
在本申请的一个实施例中,在基于信息抽取指令集标注参考科学文献,得到信息抽取数据集之后,还要对信息抽取指令进行评估,具体的,通过确定抽取准确率和抽取完整率评估信息抽取指令的性能。具体应用中,通过计算抽取出的结果中真正相关的比例确定抽取准确率(Precision),即抽取准确率=正确抽取的结果数/总抽取结果数。通过F1分数确定抽取完整率,即采用抽取准确率(Precision)和抽取召回率(Recall)综合判断,评估抽取完整性,其中,抽取召回率(Recall),计算的是抽取出的相关结果占所有相关结果的比例,即抽取召回率=正确抽取的结果数/参考标准中相关结果总数。F1分数的计算方式如下述公式所示。
F1=2*Precision*Recall/(Precision+Recall)
可选地,具体应用中,还可以通过其他指标对信息抽取指令的性能进行评估,例如覆盖率(Coverage),覆盖率=被抽取的信息成分数/文献中总的信息成分数。还可以评估其一致性和可扩展性,其中,一致性指评估同一位文献使用抽取指令集重复抽取的一致性,可扩展性指评估抽取指令集扩展新的领域、信息类型的难易程度。
本实施例中,通过基于参考科学文献和标注信息确定信息抽取指令的抽取准确率和抽取完整率,能够对信息抽取指令的性能进行全面的评估,使信息抽取结果更准确、更完整。
在本申请的一个实施例中,所述基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型包括:
S501:将所述参考科学文献输入初始信息抽取模型,得到初始信息。
S503:基于所述初始信息和标注信息确定抽取损失函数,基于所述抽取损失函数调整所述初始信息抽取模型的参数。
S505:将所述参考科学文献输入经过调整的初始信息抽取模型,得到抽取结果,并将所述抽取结果输入奖励评分模型,得到评分结果,其中,所述奖励评分模型基于调整后的初始信息抽取模型训练得到。
S507:基于所述抽取结果和评分结果确定强化损失函数,基于所述强化损失函数调整所述初始信息抽取模型的参数,得到目标信息抽取模型。
在本申请的一个实施例中,首先,将参考科学文献输入初始信息抽取模型,得到初始信息,其中,初始信息抽取模型是经过文本训练的科学文献基模型,其能够理解基本的论文结构与语义,其实现逻辑是先进行编码,将训练科学文献编码为一个序列,再进行解码,根据序列能够将科学文献解码为原始文本。之后,基于经初始信息抽取模型抽取得到的初始信息和信息抽取数据集中的标注信息确定抽取损失函数,基于该抽取损失函数调整初始信息抽取模型的参数。当抽取损失函数的值逐渐变小趋于平稳时,初始信息抽取模型训练结束。具体应用中,通常采用有监督的方式训练初始信息抽取模型,一般采用以下公式表示计算损失。
其中,f(xi;)指初始信息,yi指标注信息,N指样本数量,l指损失函数。需要说明的是,在具体应用中,通常将信息抽取数据集分为训练集和验证集,其中训练集用于训练初始信息抽取模型,验证集则用于验证初始信息抽取模型的训练结果。通常采用验证集准确率(Accuracy)以验证训练的初始信息抽取模型的性能,验证集准确率(Accuracy)采用以下公式计算得到。
其中,f(xi;)指初始信息,yi指标注信息,N指样本数量。
之后,将参考科学文献再次输入经过调整后的初始信息抽取模型中,得到抽取结果,将得到的抽取结果输入事先训练好的奖励评分模型,得到评分结果,具体的,奖励评分模型是基于调整后的初始信息抽取模型训练得到的。
之后,基于抽取结果和评分结果确定强化损失函数,基于强化损失函数继续调整初始信息抽取模型的参数,当强化损失函数的值最小时,初始信息抽取模型训练完成,得到目标信息抽取模型。具体应用中,通常采用无监督强化学习的方式继续训练初始信息抽取模型,训练目标是最大化智能体的累积奖励值,以近端策略优化算法(Proximal PolicyOptimization,PPO)为例,PPO采用的损失函数是置信域策略优化算法(Trust RegionPolicy Optimization,TRPO)中的损失函数,具体计算方式如下所示。
其中,θ表示策略参数,θ′表示更新后的策略参数,at表示第t时刻的优势函数,KL(πθ′|πθ)表示两个策略之间的KL散度。状态空间决定了智能体的行为空间。在损失函数中,状态空间表示在第t时刻的状态st。状态空间是智能体在当前时刻的所有信息。在人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)中,状态空间可以包括当前的输入文本、模型的内部状态等。动作空间决定了智能体可以采取的操作数量。在损失函数中,动作空间表示在第t时刻的动作at。动作空间是智能体在当前时刻可以采取的所有操作。在RLHF中,动作空间可以包括生成文本、选择下一个词等。奖励函数决定了智能体的行为目标。在损失函数中,奖励函数表示在第t时刻获得的奖励rt。奖励函数是智能体在采取某个动作后获得的奖励。在RLHF中,奖励函数可以由人类反馈数据训练得到。策略决定了智能体的表现。在损失函数中,策略表示在状态st下采取动作at的概率πθ(at|st)。策略是智能体在某个状态下采取某个动作的概率。在RLHF中,策略可以由PPO算法训练得到。优化器决定了训练过程的效率。在损失函数中,优化器用于更新策略参数θ。优化器是用来更新策略参数的算法。在RLHF中,PPO通常使用Adam优化器。超参数影响训练过程的效果。在损失函数中,超参数用于控制训练过程,例如学习率、优化器的参数等。超参数是控制训练过程的参数。在RLHF中,PPO的超参数包括学习率、优化器的参数等。
本实施例中,通过将参考科学文献输入初始信息抽取模型,得到初始信息,基于初始信息和标注信息确定抽取损失函数,基于抽取损失函数调整初始信息抽取模型的参数,将参考科学文献输入经过调整的初始信息抽取模型,得到抽取结果,并将抽取结果输入奖励评分模型,得到评分结果,其中,奖励评分模型基于调整后的初始信息抽取模型训练得到,基于抽取结果和评分结果确定强化损失函数,基于强化损失函数调整初始信息抽取模型的参数,得到目标信息抽取模型,通过有监督地微调训练和引入奖励打分机制,并无监督地强化训练,提高了模型的准确性、鲁棒性和泛化性。
在本申请的一个实施例中,所述奖励评分模型基于调整后的初始信息抽取模型通过以下方式训练得到:
S601:将所述初始信息输入经过调整的初始信息抽取模型,得到累积奖励。
S603:基于所述累积奖励和标准评分确定奖励损失函数,基于所述累积奖励和策略损失函数调整初始信息抽取模型的参数,得到奖励评分模型。
在本申请的一个实施例中,首先,将初始信息输入经过调整的初始信息抽取模型,得到累积奖励,具体的,在模型中,累积奖励通过以下公式计算得到。
其中,Rt指时刻t的累积奖励,ri指即时奖励。
之后,基于累积奖励和标准评分确定奖励损失函数,并基于累积奖励和奖励损失函数调整初始信息抽取模型的参数,当累积奖励越高,且奖励损失函数的值越小同时逐渐趋于平稳时,奖励评分模型训练完成。具体的,在模型中,奖励损失函数可以采用以下公式表示。
L(θ)=(Rt-(st;))2
其中,V(st;)指状态st的价值估计,即标准评分。
本实施例中,通过将初始信息输入经过调整的初始信息抽取模型,得到累积奖励,基于累积奖励和标准评分确定奖励损失函数,基于累积奖励和策略损失函数调整初始信息抽取模型的参数,得到奖励评分模型,能够通过引入奖励机制,进一步提高信息抽取模型的鲁棒性。
在本申请的一个实施例中,所述将待处理科学文献输入所述目标信息抽取模型,得到目标信息抽取结果之后包括:
将所述目标信息抽取结果存入科学文献抽取数据库。
在本申请的一个实施例中,在得到目标信息抽取结果之后,将目标信息抽取结果存入科学文献抽取数据库。当用户发起对之前已进行过信息抽取的科学文献再次进行信息抽取时,可以直接从科学文献抽取数据库中匹配信息抽取结果,并返回给用户,以供查看。
本实施例中,通过将目标信息抽取结果存入科学文献抽取数据库中,实现了结构化表示和管理,方便了用户检索和利用。
下面以一个具体的实施例说明本申请的科学文献信息抽取方法的具体实施步骤。如图3所示,为科学文献信息抽取方法系统的展示界面,用户可以上传个人文献,由系统接收并保存在系统的数据库当中,用户还可以在界面选择已有的科学文献,并定义信息抽取指令,由系统接收并基于选择的科学文献以及信息抽取指令进行信息抽取。
首先,S701,获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式。具体的,S703-S705,识别参考科学文献的来源和载体格式,基于所述来源和载体格式确定信息抽取方式。在系统中,由多模态解析模块实现,可以解析多种格式的科学文献,并在统一格式的科学文献解析多种模态:如文本、图片、表格等模态的文献。
之后,S707,基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令。具体的,S709-711,基于所述参考科学文献的内容和元数据确定多个信息抽取对象,基于所述多个信息抽取对象和信息抽取方式生成多个信息抽取指令,组成信息抽取指令集。
之后,S713,基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息。之后,S715,基于所述参考科学文献和标注信息确定信息抽取指令的抽取准确率和抽取完整率。
之后,S717,基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型。具体的,S719-725,将所述参考科学文献输入初始信息抽取模型,得到初始信息;基于所述初始信息和标注信息确定抽取损失函数,基于所述抽取损失函数调整所述初始信息抽取模型的参数;将所述参考科学文献输入经过调整的初始信息抽取模型,得到抽取结果,并将所述抽取结果输入奖励评分模型,得到评分结果,其中,所述奖励评分模型基于调整后的初始信息抽取模型训练得到;基于所述抽取结果和评分结果确定强化损失函数,基于所述强化损失函数调整所述初始信息抽取模型的参数,得到目标信息抽取模型。其中,奖励模型可以通过以下方式训练得到,S727-729,将所述初始信息输入经过调整的初始信息抽取模型,得到累积奖励;基于所述累积奖励和标准评分确定奖励损失函数,基于所述累积奖励和策略损失函数调整初始信息抽取模型的参数,得到奖励评分模型。
之后,S731,将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。最后,S733,将所述目标信息抽取结果存入科学文献抽取数据库。当信息抽取结束或从科学文献抽取数据库中匹配到用户所需的信息时,将信息以结构化的形式展示给用户。
在本申请的一个实施例中,所述初始信息抽取模型选择生成式模型Chat-GLM-6B或Llama-2-7B。Chat-GLM-6B和Llama-2-7B均是一种基于Transformer的生成模型,它在各种生成任务上都取得了优异的效果。具体来说,Chat-GLM-6B可以直接将带抽取科学文献与抽取指令编码为一个序列,并根据该序列进行解码。Llama-2-7B可以直接将科学文献编码为一个序列,并根据该序列进行解码。在训练过程中,Chat-GLM-6B和Llama-2-7B会学习科学文献的语义和结构,从而提高抽取的准确性和鲁棒性。此外,Chat-GLM-6B和Llama-2-7B还可以通过对多种模态、多种类型的信息进行融合,提高抽取的覆盖率和丰富度。例如,对于包含文本和图像的科学文献,Chat-GLM-6B和Llama-2-7B可以将文本和图像的信息进行融合,从而提高抽取的准确性。
具体的,首先,收集一个包含科学文献基模型的训练数据集。训练数据集可以包括文本、图像、表格等多种模态的信息。之后,从科学文献基模型数据集中进行文本训练,得到PaperExtractGPT_base模型,使得模型能够理解基本的论文结构与语义。其中,编码是将科学文献编码为一个序列,解码是将根据序列将科学文献解码为原始文本。之后,使用标注的科学文献抽取训练数据集对PaperExtractGPT_base模型进行有监督训练,得到PaperExtractGPT_1。之后,基于有监督微调模块训练出的科学文献抽取模型PaperExtractGPT_1训练出一个奖励模型PaperExtractGPT_reword,该模型跟据科学文献抽取模型抽取的结果进行打分(0-5分),抽取结果符合要求的分为5,不符合的为低分。之后,使用没有标注的科学文献抽取训练数据集对模型进行无监督强化微调,并以PaperExtractGPT_reword作为监督模型,以提高模型的泛化性,得到最终的目标信息抽取模型PaperExtractGPT。
最后,使用目标信息抽取模型进行科学文献信息抽取,将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,目标信息抽取模型会根据用户信息抽取指令从科学文献中抽取信息,并按照指令生成json格式,模型生成处理模块会将模型生成的json文本处理成mysql字段,即目标信息抽取结构,存入指定科学文献抽取数据库,供科研人员进行研究与使用。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的科学文献信息抽取方法的科学文献信息抽取装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个科学文献信息抽取装置实施例中的具体限定可以参见上文中对于科学文献信息抽取方法的限定,在此不再赘述。
在一个实施例中,如图4所示,提供了一种科学文献信息抽取装置400,包括:参考科学文献获取模块401、信息抽取指令集构建模块403、信息抽取数据集构建模块405、信息抽取模型训练模块407和信息抽取模块409,其中:
参考科学文献获取模块401,用于获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式;
信息抽取指令集构建模块403,用于基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令;
信息抽取数据集构建模块405,用于基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息;
信息抽取模型训练模块407,用于基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型;
信息抽取模块409,用于将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。
在本申请的一个实施例中,所述参考科学文献获取模块还用于:
识别参考科学文献的来源和载体格式;
基于所述来源和载体格式确定信息抽取方式。
在本申请的一个实施例中,所述信息抽取指令集构建模块还用于:
基于所述参考科学文献的内容和元数据确定多个信息抽取对象;
基于所述多个信息抽取对象和信息抽取方式生成多个信息抽取指令,组成信息抽取指令集。
所述科学文献信息抽取装置还包括抽取指令评估模块。在本申请的一个实施例中,所述抽取指令评估模块用于:
基于所述参考科学文献和标注信息确定信息抽取指令的抽取准确率和抽取完整率。
在本申请的一个实施例中,所述信息抽取模型训练模块还用于:
将所述参考科学文献输入初始信息抽取模型,得到初始信息;
基于所述初始信息和标注信息确定抽取损失函数,基于所述抽取损失函数调整所述初始信息抽取模型的参数;
将所述参考科学文献输入经过调整的初始信息抽取模型,得到抽取结果,并将所述抽取结果输入奖励评分模型,得到评分结果,其中,所述奖励评分模型基于调整后的初始信息抽取模型训练得到;
基于所述抽取结果和评分结果确定强化损失函数,基于所述强化损失函数调整所述初始信息抽取模型的参数,得到目标信息抽取模型。
在本申请的一个实施例中,所述信息抽取模型训练模块还用于:
将所述初始信息输入经过调整的初始信息抽取模型,得到累积奖励;
基于所述累积奖励和标准评分确定奖励损失函数,基于所述累积奖励和策略损失函数调整初始信息抽取模型的参数,得到奖励评分模型。
所述科学文献信息抽取装置还包括抽取结果管理模块。在本申请的一个实施例中,所述抽取结果管理模块用于:
将所述目标信息抽取结果存入科学文献抽取数据库。
上述科学文献信息抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种科学文献信息抽取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种科学文献信息抽取方法,其特征在于,所述方法包括:
获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式;
基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令;
基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息;
基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型;
将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。
2.根据权利要求1所述的方法,其特征在于,所述获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式包括:
识别参考科学文献的来源和载体格式;
基于所述来源和载体格式确定信息抽取方式。
3.根据权利要求1所述的方法,其特征在于,所述基于所述参考科学文献和信息抽取方式构建信息抽取指令集包括:
基于所述参考科学文献的内容和元数据确定多个信息抽取对象;
基于所述多个信息抽取对象和信息抽取方式生成多个信息抽取指令,组成信息抽取指令集。
4.根据权利要求1所述的方法,其特征在于,所述基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集之后包括:
基于所述参考科学文献和标注信息确定信息抽取指令的抽取准确率和抽取完整率。
5.根据权利要求1所述的方法,其特征在于,所述基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型包括:
将所述参考科学文献输入初始信息抽取模型,得到初始信息;
基于所述初始信息和标注信息确定抽取损失函数,基于所述抽取损失函数调整所述初始信息抽取模型的参数;
将所述参考科学文献输入经过调整的初始信息抽取模型,得到抽取结果,并将所述抽取结果输入奖励评分模型,得到评分结果,其中,所述奖励评分模型基于调整后的初始信息抽取模型训练得到;
基于所述抽取结果和评分结果确定强化损失函数,基于所述强化损失函数调整所述初始信息抽取模型的参数,得到目标信息抽取模型。
6.根据权利要求5所述的方法,其特征在于,所述奖励评分模型基于调整后的初始信息抽取模型通过以下方式训练得到:
将所述初始信息输入经过调整的初始信息抽取模型,得到累积奖励;
基于所述累积奖励和标准评分确定奖励损失函数,基于所述累积奖励和策略损失函数调整初始信息抽取模型的参数,得到奖励评分模型。
7.根据权利要求1所述的方法,其特征在于,所述将待处理科学文献输入所述目标信息抽取模型,得到目标信息抽取结果之后包括:
将所述目标信息抽取结果存入科学文献抽取数据库。
8.一种科学文献信息抽取装置,其特征在于,所述装置包括:
参考科学文献获取模块,用于获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式;
信息抽取指令集构建模块,用于基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令;
信息抽取数据集构建模块,用于基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息;
信息抽取模型训练模块,用于基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型;
信息抽取模块,用于将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202311367647.3A 2023-10-20 2023-10-20 科学文献信息抽取方法、装置、计算机设备和存储介质 Pending CN117668173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311367647.3A CN117668173A (zh) 2023-10-20 2023-10-20 科学文献信息抽取方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311367647.3A CN117668173A (zh) 2023-10-20 2023-10-20 科学文献信息抽取方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN117668173A true CN117668173A (zh) 2024-03-08

Family

ID=90083453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311367647.3A Pending CN117668173A (zh) 2023-10-20 2023-10-20 科学文献信息抽取方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117668173A (zh)

Similar Documents

Publication Publication Date Title
Lu et al. Machine learning for synthetic data generation: a review
US9645999B1 (en) Adjustment of document relationship graphs
US10769381B2 (en) Topic-influenced document relationship graphs
Kosinski et al. Mining big data to extract patterns and predict real-life outcomes.
US10678823B2 (en) Facilitating targeted analysis via graph generation based on an influencing parameter
Skupin et al. Visualizing the topical structure of the medical sciences: a self-organizing map approach
CN105593849A (zh) 数据库访问
CN109657204A (zh) 使用非对称度量学习的自动配对字体
US11023503B2 (en) Suggesting text in an electronic document
SzymańSki Comparative analysis of text representation methods using classification
US11636251B2 (en) Content aware font recommendation
Kang et al. A random forest classifier with cost-sensitive learning to extract urban landmarks from an imbalanced dataset
JP2020098592A (ja) ウェブページ内容を抽出する方法、装置及び記憶媒体
CN117786086A (zh) 答复文本生成方法、装置、计算机设备和可读存储介质
CN118013031A (zh) 提示词的确定方法、装置、计算机设备以及存储介质
KR20220101807A (ko) Sns 텍스트 기반의 사용자의 인테리어 스타일 분석 모델 제공 장치 및 방법
Bagirov et al. An algorithm for minimizing clustering functions
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN115878761A (zh) 事件脉络生成方法、设备及介质
CN117668173A (zh) 科学文献信息抽取方法、装置、计算机设备和存储介质
CN108229572B (zh) 一种参数寻优方法及计算设备
CN116992875B (zh) 文本生成方法、装置、计算机设备和存储介质
CN116757216B (zh) 基于聚类描述的小样本实体识别方法、装置和计算机设备
CN115206533B (zh) 基于知识图谱健康管理方法、装置及电子设备
US20230044182A1 (en) Graph Based Discovery on Deep Learning Embeddings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination