CN117194632A - 从文档中抽取结构化知识的方法、装置、设备及介质 - Google Patents
从文档中抽取结构化知识的方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117194632A CN117194632A CN202311170157.4A CN202311170157A CN117194632A CN 117194632 A CN117194632 A CN 117194632A CN 202311170157 A CN202311170157 A CN 202311170157A CN 117194632 A CN117194632 A CN 117194632A
- Authority
- CN
- China
- Prior art keywords
- question
- content
- pair
- document
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 210000004899 c-terminal region Anatomy 0.000 abstract description 9
- 239000000284 extract Substances 0.000 abstract description 8
- 238000012423 maintenance Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种从文档中抽取结构化知识的方法、装置、设备及介质。方法包括:从文档知识中抽取文本内容;将所述文本内容输入至第一gpt大模型,得到标问‑答案对;将所述文本内容或所述标问输入至第二gpt大模型,得到标问‑相似问对;将标问‑相似问‑答案作为结构化知识输出。本申请能够实现从文档知识中自动抽取标问‑相似问‑答案形式的结构化知识,供C端客户使用,降低了知识录入成本,提升了知识运维效率,解决了现有技术中业务运维人员手工录入知识,人工成本高,且效率慢的问题。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种从文档中抽取结构化知识的方法、装置、设备及介质。
背景技术
目前银行面向C端客户和行内用户(总、分支行)分别构建了对应的知识库平台。面向C端客户的知识库平台,主要以问题-答案对的形式存储知识;而面向行内用户的知识库平台,主要以文档(html、word、pdf、ppt等)的形式存储知识。两个知识库平台均需要业务运维人员手工录入知识,人工成本高,且效率慢。
发明内容
基于此,有必要针对上述问题,提出一种从文档中抽取结构化知识的方法、装置、计算机设备及可读存储介质,能够从文档知识中自动抽取标问-相似问-答案形式的结构化知识。
第一方面,本申请提供一种从文档中抽取结构化知识的方法,所述方法包括:
从文档知识中抽取文本内容;
将所述文本内容输入至第一gpt大模型,得到标问-答案对;
将所述文本内容或所述标问输入至第二gpt大模型,得到标问-相似问对;
将标问-相似问-答案作为结构化知识输出。
在一些实施例中,从文档中抽取结构化知识的方法还包括:
使用银行内的自然语言任务的数据集构造指令样本;
将不同的指令样本和正文文本输入至开源预训练模型进行训练,分别得到所述第一gpt大模型和所述第二gpt大模型。
在一些实施例中,所述将不同的指令样本和正文文本输入至开源预训练模型进行训练,分别得到所述第一gpt大模型和所述第二gpt大模型,包括:
将不同的指令样本和正文文本输入至开源预训练模型,得到预标问-答案对和预标问-相似问对;
判断所述预标问-答案对的格式和内容和所述预标问-相似问对的格式和内容是否符合标准;
若所述预标问-答案对的格式和内容和所述预标问-相似问对的格式和内容符合标准,则结束训练,得到所述第一gpt大模型和所述第二gpt大模型。
在一些实施例中,所述判断所述预标问-答案对的格式和内容和所述预标问-相似问对的格式和内容是否符合标准,包括:
获取人工构造的参照标问-答案对和参照标问-相似问对;
根据所述预标问-答案对的格式和内容和所述参照标问-答案对的格式和内容是否一致或差异是否在允许范围内,判断所述预标问-答案对的格式和内容是否符合标准;
根据所述预标问-相似问对的格式和内容和所述参照标问-相似问对的格式和内容是否一致或差异是否在允许范围内,判断所述预标问-相似问对的格式和内容是否符合标准。
在一些实施例中,所述预标问-答案对的格式和内容和所述参照标问-答案对的格式和内容的差异是否在允许范围内,包括:
计算所述预标问-答案对的格式和所述参照标问-答案对的格式的差异,记为第一差异值;
计算所述预标问-答案对的内容和所述参照标问-答案对的内容的差异,记为第二差异值;
获取所述第一差异值的权重和所述第二差异值的权重;其中,所述第一差异值的权重小于所述第二差异值的权重;
根据所述第一差异值、所述第一差异值的权重、所述第二差异值和所述第二差异值的权重,计算总差异值;
判断所述总差异值是否在允许范围内。
在一些实施例中,所述预标问-相似问对的格式和内容和所述参照标问-相似问对的格式和内容的差异是否在允许范围内,包括:
计算所述预标问-相似问对的格式和所述参照标问-相似问对的格式的差异,记为第三差异值;
计算所述预标问-相似问对的内容和所述参照标问-相似问对的内容的差异,记为第四差异值;
获取所述第三差异值的权重和所述第四差异值的权重;其中,所述第三差异值的权重小于所述第四差异值的权重;
根据所述第三差异值、所述第三差异值的权重、所述第四差异值和所述第四差异值的权重,计算总差异值;
判断所述总差异值是否在允许范围内。
在一些实施例中,所述从文档知识中抽取文本内容,包括:
获取html文档、pdf文档、word文档中的至少一种;
采用java自带的HTMLEditorKit.ParserCallback从html文档中抽取文本内容;和/或,采用开源的spire.pdf.free包从pdf文档中抽取文本内容;和/或,采用开源的poi包从word文档中抽取文本内容。
第二方面,本申请还提供一种从文档中抽取结构化知识的装置,所述装置包括:
抽取模块,用于从文档知识中抽取文本内容;
第一输入模块,用于将所述文本内容输入至第一gpt大模型,得到标问-答案对;
第二输入模块,用于将所述文本内容或所述标问输入至第二gpt大模型,得到标问-相似问对;
输出模块,用于将标问-相似问-答案作为结构化知识输出。
第三方面,本申请实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如第一方面任一项所述从文档中抽取结构化知识的方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如第一方面任一项所述从文档中抽取结构化知识的方法的步骤。
采用本申请实施例,至少具有如下有益效果:
本申请实施例通过从文档知识中抽取文本内容;将文本内容输入至第一gpt大模型,得到标问-答案对;将文本内容或标问输入至第二gpt大模型,得到标问-相似问对;将标问-相似问-答案作为结构化知识输出,从而实现从文档知识中自动抽取标问-相似问-答案形式的结构化知识,供C端客户使用,降低了知识录入成本,提升了知识运维效率,解决了现有技术中业务运维人员手工录入知识,人工成本高,且效率慢的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1-1为标问-相似问-答案的示意图;
图1为本申请一个实施例中从文档中抽取结构化知识的方法的流程示意图;
图2为本申请一个实施例中最终输出的结构化知识的示意图;
图3为本申请一个实施例中计算机设备的内部结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前银行面向C端客户和行内用户(总、分支行)分别构建了对应的知识库平台。面向C端客户的知识库平台,主要以问题-答案对的形式存储知识;而面向行内用户的知识库平台,主要以文档(html、word、pdf、ppt等)的形式存储知识。
文档知识(指上述以文档的形式存储的知识)的主要形式为html、word、txt、pdf等,而能够被面向C端客户的知识库平台识别并使用的知识结构为:标问-相似问-答案,如图1-1所示。其中一个标问(即标准问题)对应多个相似问,同时该标问对应一个答案。多个相似问存在的原因在于,为了使其后的C端的问答引擎模型对用户的问题能够具有更好的泛化能力。
在当前的知识维护过程中,两个知识库平台均需要业务运维人员阅读文档,分析文档,然后总结出文档中存在的标问及答案,同时需要针对标问,构造出相似问列表。这个过程是纯人工作业,人工成本高,效率低,且效果一般(主要体现在构造相似问列表上)。
基于上述问题,从降本增效的角度考虑,本申请实施例提出了一种从文档中抽取结构化知识的方法、装置、设备及介质,旨在从文档知识中自动抽取标问-相似问-答案形式的结构化知识,并结合大模型能力进行了实验和调优,供C端客户使用,降低了知识录入成本,提升了知识运维效率。
下面,通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是,如下实施例可以单独存在,也可以相互结合,对于相同或相似的内容,在不同的实施例中不再重复说明。
第一方面,本申请实施例提供了一种从文档中抽取结构化知识的方法。图1为本申请一个实施例中从文档中抽取结构化知识的方法的流程示意图。请参照图1,在一些实施例中,该从文档中抽取结构化知识的方法包括:
S110:从文档知识中抽取文本内容;
在一些实施例中,本申请实施例所提到的“结构化”是相对于文档知识而言的,其具有固定的数据结构的知识形式,这种固定的数据结构,在具体存储时,可以存储成Key-Value形式,也可以使用传统的数据库表形式进行存储。例如,银行中的结构化知识,由3个部分组成:标问、相似问、答案,并且三者之间具有一定关系(参考图1-1),而在具体存储时,如果按照数据库表的形式,可以设计三张表:标问表、相似问表、答案表,三张表之间通过标问ID可以进行关联,从而得到一条完整的知识。
在一些实施例中,文档包括html文档、pdf文档、word文档等中的至少一种。文本抽取主要是从文档知识中抽取文本内容。例如html格式的文档,通过文本抽取,可以去除掉其中的html标签,保留其中的文字部分。这个过程可以看作数据预处理的过程,通过工程代码解决。对文本的抽取,主要通过以下代码实现html文档到纯文本、PDF文档到纯文本、word文档到纯文本的抽取:
从html文档中提取纯文本,本申请实施例采用java自带的HTMLEditorKit.ParserCallback从html文档中进行抽取,示例代码如下(部分):
FileReader in=new FileReader("input.html");
Html2Text parser=new Html2Text();
parser.parse(in);
in.close();
return parser.getText();
从pdf文档中抽取纯文本,本申请实施例采用开源的spire.pdf.free包从pdf文档中进行抽取,示例代码如下(部分):
从word文档中抽取纯文本,本申请实施例采用开源的poi包从word文档中进行抽取,现有技术中有很多,本申请实施例在此不再赘述。
S120:将文本内容输入至第一gpt大模型,得到标问-答案对。
S130:将文本内容或标问输入至第二gpt大模型,得到与标问对应的相似问列表。
在一些实施例中,第一gpt大模型和第二gpt大模型均为银行内部自研的大模型bankgpt,属于自回归模型GPT(Generative Pre-trained Transformer)系列的一种。模型规格一般是62亿参数,设置了三个训练目标,分别是基于mask的自然语言理解任务、无条件的长文本生成任务和有条件的文本生成任务。
在一些实施例中,第一gpt大模型和第二gpt大模型通过以下方式训练得到:
使用银行内的自然语言任务的数据集构造指令样本;
将不同的指令样本和正文文本输入至开源预训练模型进行训练,分别得到第一gpt大模型和第二gpt大模型。
具体地,在开源预训练模型权重的基础上,使用银行内的知识库、会话、抽取类任务、生成类场景等10多项自然语言任务的数据集构造指令样本,训练得到行内bankgpt底座,又称为llm(large language model,大语言模型)大模型,即本申请实施例的第一gpt大模型和第二gpt大模型。
训练时,输入一般分为两部分,第一部分是指令样本(prompt),这部分是描述需要大模型完成的任务,专业准确的任务描述往往达到事半功倍的效果;第二部分是正文文本输入(input),这部分是真正要处理的文本。其中,prompt和input可能会互相嵌入。
以下是本申请实施例训练得到第一gpt大模型时输入的一个示例:
可以看出,第一gpt大模型的输入是指令样本prompt1和正文文本,输出为标问-答案对。中间的过程可以包括:第一gpt大模型会对输入的指令样本和正文文本进行语义分析和实体识别,识别出文本中的实体和属性信息。根据语义分析和实体识别结果,第一gpt大模型可以自动生成相关的问题,根据生成的问题,第一gpt大模型可以从文本中提取相应的答案,形成问题-答案对,并按照指令样本中指定的格式输出。
可以理解的是,指令样本prompt描述的是需要大模型完成的任务,因此,第二gpt大模型的指令样本与第一gpt大模型的指令样本不同。第二gpt大模型的指令样本可以为:
prompt2:
\n{input}\n###\n任务:你是银行培训考试出题老师,请将以上文本改写成多个问句-相似问对的形式,并按给定的格式进行输出。\n###\n输出:\n问题:\n相似问:。
可以看出,第二gpt大模型的输入是指令样本prompt2和正文文本,输出为标问-相似问对。在一些实施例中,也可以将第一gpt大模型得到的标问作为正文文本,将指令样本prompt2和正文文本输入至第二gpt大模型,输出为标问-相似问对。中间的过程可以包括:第二gpt大模型会对输入的指令样本和正文文本(或标问)进行语义分析和实体识别,识别出文本中的实体和属性信息。根据语义分析和实体识别结果,第一gpt大模型可以自动生成相关的相似问,形成问题-相似问对,并按照指令样本中指定的格式输出。
也就是说,从文档知识中抽取文本内容后,可以将文本内容同时输入至第一gpt大模型和第二gpt大模型,第一gpt大模型和第二gpt大模型根据不同的指令样本对文本内容进行处理,分别得到标问-答案对和标问-相似问对。或者,从文档知识中抽取文本内容后,可以将文本内容输入至第一gpt大模型,第一gpt大模型根据对应的指令样本对文本内容进行处理,得到标问-答案对;再将得到的标问输入至第二gpt大模型,第二gpt大模型根据对应的指令样本对标问进行相似问扩充,得到与标问对应的相似问列表,进而得到标问-相似问对。
本申请实施例借助llm大模型赋能标问-答案对抽取,主要采用了两大技术支撑:Prompt Engineering和LORA微调。Prompt Engineering是一项基础工作,也是最快速落地的工作。Prompt Engineering指的是如何针对当前任务生成prompt模板。最基础的prompt构造方法为人工构造,针对垂直任务设计合适的文本模板。且模型对prompt也是敏感的,prompt模板的构造方式对效果的影响非常大。如上面的示例1,在这样的指令下模型就可以按需抽取一些问答对,但从批量测试的结果来看,部分情况下返回的结果的格式和内容均有误差。格式指的是大模型按照一组组的\n问题:\n答案:输出想要的结果,再放入结构化的json。内容指的是抽取的问题和答案是符合期望的,来自文本段落中且问题具有意义,答案和问题吻合)。其中,格式符合标准的只能达到80%多,内容符合人工评价意义的(指符合业务专家给的参照标问-答案对)也只有40%多。LORA微调是一种轻量级的模型微调方式,只需要微调模型总体参数的2%-3%,比如10B(billion)参数的llm,每次LORA调试只需要更新2亿-3亿参数量即可,不仅节约显存资源,并且试错成本低,可以快速迭代部署。
因此,将指令样本和正文文本输入至开源预训练模型进行训练,得到第一gpt大模型,包括:
将指令样本和正文文本输入至开源预训练模型,得到预标问-答案对;
判断预标问-答案对的格式和内容是否符合标准;
若预标问-答案对的格式和内容符合标准,则结束训练,得到第一gpt大模型。
具体地,如上面的示例1,将指令样本prompt1和正文文本输入至开源预训练模型,得到三个预标问-答案对,分别是:
“问题”:“活动时间是什么时候?”
“答案”:“活动时间是2022年12月2日至2023年8月31日。”
“问题”:“参与对象是谁?”
“答案”:“参与对象是平安银行口袋APP用户和符合条件的受邀好友,推荐人只能邀请符合条件的用户好友,自己无法获得邀请开户奖励。”
“问题”:“受邀好友需要满足哪些条件?”
“答案”:“受邀好友需要符合监管要求和开户试点条件,并且未在平安银行开通个人养老金资金账户。”
判断上述三个预标问-答案对的格式和内容是否符合标准。若预标问-答案对的格式和内容符合标准,则结束训练,得到第一gpt大模型。若预标问-答案对的格式和内容不符合标准,则继续训练和调优,直到输出的预标问-答案对的格式和内容符合标准,得到第一gpt大模型。则,将从文档知识中抽取的文本内容输入至第一gpt大模型,第一gpt大模型根据对应的指令样本对文本内容进行处理,确定标问及其对应的答案,将标问及其对应的答案形成标问-答案对。
其中,判断预标问-答案对的格式和内容是否符合标准,包括:
获取人工构造的参照标问-答案对;
根据预标问-答案对的格式和内容和参照标问-答案对的格式和内容是否一致或差异是否在允许范围内,判断预标问-答案对的格式和内容是否符合标准。
在一些实施例中,人工构造的参照标问-答案对可以是业务专家提供的标准标问-答案对。对比预标问-答案对的格式和内容和参照标问-答案对的格式和内容,若两者一致或差异在允许范围内(例如仅有几个无关紧要的字不同或者标点符号不同),则判断预标问-答案对的格式和内容符合标准。
在一些实施例中,得到标问-相似问对以及判断标问-相似问对是否符合标准的原理和实现过程与标问-答案对一致。
一个标问可以对应多个相似问。例如,
“问题”:“活动时间是什么时候?”
“相似问1”:“活动时间是几月几号?”
“相似问2”:“活动时间是哪天?”
“相似问3”:“活动时间在什么时候?”
因此,标问-相似问对中包含一个标问和多个相似问。
将指令样本prompt2和正文文本输入至开源预训练模型,得到预标问-相似问对。对比预标问-相似问对的格式和内容和业务专家提供的参照标问-相似问对的格式和内容,若两者一致或差异在允许范围内(例如仅有几个无关紧要的字不同或者标点符号不同),则判断预标问-相似问对的格式和内容符合标准,则结束训练,得到第二gpt大模型。则,将从文档知识中抽取的文本内容或第一gpt大模型得到的标问输入至第二gpt大模型,第二gpt大模型根据对应的指令样本对文本内容进行处理或对标问进行相似问扩充,确定标问及其对应的相似问,得到与标问对应的相似问列表,将标问和标问对应的相似问形成标问-相似问对。
在一些实施例中,无论是预标问-答案对还是预标问-相似问对,内容符合标准要比格式符合标准更加重要。因此,在判断预标问-答案对的格式和内容和参照标问-答案对的格式和内容的差异是否在允许范围内,以及判断预标问-相似问对的格式和内容和参照标问-相似问对的格式和内容的差异是否在允许范围内的过程中,可以调整内容所占的权重大于格式所占的权重,从而可以避免一些不必要的模型调优,提高效率。
具体地,计算预标问-答案对的格式和参照标问-答案对的格式的差异,记为第一差异值D1;计算预标问-答案对的内容和所述参照标问-答案对的内容的差异,记为第二差异值D2;获取第一差异值D1的权重X1和第二差异值D2的权重X2;其中,第一差异值D1的权重X1小于第二差异值D2的权重X2。计算总差异值D=D1*X1+D2*X2,判断总差异值D是否在允许范围内。若总差异值D在允许范围内,则预标问-答案对的格式和内容符合标准。
同样地,计算预标问-相似问对的格式和参照标问-相似问对的格式的差异,记为第三差异值D3;计算预标问-相似问对的内容和参照标问-相似问对的内容的差异,记为第四差异值D4;获取第三差异值D3的权重X3和第四差异值D4的权重X4;其中,第三差异值D3的权重X3小于第四差异值D4的权重X4。计算总差异值D=D3*X3+D4*X4,判断总差异值D是否在允许范围内。若总差异值D在允许范围内,则预标问-相似问对的格式和内容符合标准。
在一些实施例中,第一gpt大模型和第二gpt大模型可以集成为一个大模型,也可以是独立的两个大模型。
S140:将标问-相似问-答案作为结构化知识输出。
请参照示例1,则最终输出的结构化知识如图2所示。图2所示的结构化知识仅为其中的一部分,作为示意。输出的结构化知识供C端客户使用。
本申请通过自动抽取标问-答案对,并自动对标问-相似问列表进行扩充,最终组合成完整的结构化知识,供后续的问答引擎模型使用。这个过程全自动完成,极大的提高了知识生产的效率和效果,为业务条线降本增效提供了技术支撑。本申请的方案,在知识生产上面可以做到全天候7*24小时进行,生成的知识可以保存在数据库中,并结合后续的业务流程,通过规则或者简单人工复核的方式,将知识真正应用于后续流程。这个过程可以每天至少节省1~2个人力。另外一个显著的效果是,通过这种自动的知识生成过程,极大提升了结构化知识转化的效率。之前纯人工的方式阅读文档、总结标问、构造相似问,整个过程的生成效率是比较低的,加之文档知识较多,就导致了很多文档知识不能及时的转化成结构化知识,影响了对C端客户的服务效果。通过自动化生成知识,提升了知识转化效率,提升了C端客户的体验。
第二方面,本申请实施例还提供了一种从文档中抽取结构化知识的装置,包括:
抽取模块,用于从文档知识中抽取文本内容;
第一输入模块,用于将文本内容输入至第一gpt大模型,得到标问-答案对;
第二输入模块,用于将文本内容或标问输入至第二gpt大模型,得到标问-相似问对;
输出模块,用于将标问-相似问-答案作为结构化知识输出。
第三方面,本申请实施例还提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如第一方面任一项从文档中抽取结构化知识的方法的步骤。
图3为本申请一个实施例中计算机设备的内部结构图。请参照图3,在一些实施例中,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现如上任一项从文档中抽取结构化知识的方法的步骤。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行如上任一项从文档中抽取结构化知识的方法的步骤。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
第四方面,本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如第一方面任一项从文档中抽取结构化知识的方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种从文档中抽取结构化知识的方法,其特征在于,所述方法包括:
从文档知识中抽取文本内容;
将所述文本内容输入至第一gpt大模型,得到标问-答案对;
将所述文本内容或所述标问输入至第二gpt大模型,得到标问-相似问对;
将标问-相似问-答案作为结构化知识输出。
2.根据权利要求1所述的从文档中抽取结构化知识的方法,其特征在于,还包括:
使用银行内的自然语言任务的数据集构造指令样本;
将不同的指令样本和正文文本输入至开源预训练模型进行训练,分别得到所述第一gpt大模型和所述第二gpt大模型。
3.根据权利要求2所述的从文档中抽取结构化知识的方法,其特征在于,所述将不同的指令样本和正文文本输入至开源预训练模型进行训练,分别得到所述第一gpt大模型和所述第二gpt大模型,包括:
将不同的指令样本和正文文本输入至开源预训练模型,得到预标问-答案对和预标问-相似问对;
判断所述预标问-答案对的格式和内容和所述预标问-相似问对的格式和内容是否符合标准;
若所述预标问-答案对的格式和内容和所述预标问-相似问对的格式和内容符合标准,则结束训练,得到所述第一gpt大模型和所述第二gpt大模型。
4.根据权利要求3所述的从文档中抽取结构化知识的方法,其特征在于,所述判断所述预标问-答案对的格式和内容和所述预标问-相似问对的格式和内容是否符合标准,包括:
获取人工构造的参照标问-答案对和参照标问-相似问对;
根据所述预标问-答案对的格式和内容和所述参照标问-答案对的格式和内容是否一致或差异是否在允许范围内,判断所述预标问-答案对的格式和内容是否符合标准;
根据所述预标问-相似问对的格式和内容和所述参照标问-相似问对的格式和内容是否一致或差异是否在允许范围内,判断所述预标问-相似问对的格式和内容是否符合标准。
5.根据权利要求4所述的从文档中抽取结构化知识的方法,其特征在于,所述预标问-答案对的格式和内容和所述参照标问-答案对的格式和内容的差异是否在允许范围内,包括:
计算所述预标问-答案对的格式和所述参照标问-答案对的格式的差异,记为第一差异值;
计算所述预标问-答案对的内容和所述参照标问-答案对的内容的差异,记为第二差异值;
获取所述第一差异值的权重和所述第二差异值的权重;其中,所述第一差异值的权重小于所述第二差异值的权重;
根据所述第一差异值、所述第一差异值的权重、所述第二差异值和所述第二差异值的权重,计算总差异值;
判断所述总差异值是否在允许范围内。
6.根据权利要求4所述的从文档中抽取结构化知识的方法,其特征在于,所述预标问-相似问对的格式和内容和所述参照标问-相似问对的格式和内容的差异是否在允许范围内,包括:
计算所述预标问-相似问对的格式和所述参照标问-相似问对的格式的差异,记为第三差异值;
计算所述预标问-相似问对的内容和所述参照标问-相似问对的内容的差异,记为第四差异值;
获取所述第三差异值的权重和所述第四差异值的权重;其中,所述第三差异值的权重小于所述第四差异值的权重;
根据所述第三差异值、所述第三差异值的权重、所述第四差异值和所述第四差异值的权重,计算总差异值;
判断所述总差异值是否在允许范围内。
7.根据权利要求1所述的从文档中抽取结构化知识的方法,其特征在于,所述从文档知识中抽取文本内容,包括:
获取html文档、pdf文档、word文档中的至少一种;
采用java自带的HTMLEditorKit.ParserCallback从html文档中抽取文本内容;和/或,采用开源的spire.pdf.free包从pdf文档中抽取文本内容;和/或,采用开源的poi包从word文档中抽取文本内容。
8.一种从文档中抽取结构化知识的装置,其特征在于,所述装置包括:
抽取模块,用于从文档知识中抽取文本内容;
第一输入模块,用于将所述文本内容输入至第一gpt大模型,得到标问-答案对;
第二输入模块,用于将所述文本内容或所述标问输入至第二gpt大模型,得到标问-相似问对;
输出模块,用于将标问-相似问-答案作为结构化知识输出。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述从文档中抽取结构化知识的方法的步骤。
10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述从文档中抽取结构化知识的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311170157.4A CN117194632A (zh) | 2023-09-11 | 2023-09-11 | 从文档中抽取结构化知识的方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311170157.4A CN117194632A (zh) | 2023-09-11 | 2023-09-11 | 从文档中抽取结构化知识的方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117194632A true CN117194632A (zh) | 2023-12-08 |
Family
ID=88993888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311170157.4A Pending CN117194632A (zh) | 2023-09-11 | 2023-09-11 | 从文档中抽取结构化知识的方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117194632A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117453903A (zh) * | 2023-12-22 | 2024-01-26 | 深圳市智慧城市科技发展集团有限公司 | 信息推送方法、终端设备及可读存储介质 |
-
2023
- 2023-09-11 CN CN202311170157.4A patent/CN117194632A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117453903A (zh) * | 2023-12-22 | 2024-01-26 | 深圳市智慧城市科技发展集团有限公司 | 信息推送方法、终端设备及可读存储介质 |
CN117453903B (zh) * | 2023-12-22 | 2024-04-12 | 深圳市智慧城市科技发展集团有限公司 | 信息推送方法、终端设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021042503A1 (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
US20230418856A1 (en) | Pre-training language model-based summarization generation method | |
US11417316B2 (en) | Speech synthesis method and apparatus and computer readable storage medium using the same | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN117194632A (zh) | 从文档中抽取结构化知识的方法、装置、设备及介质 | |
CN110765235B (zh) | 训练数据的生成方法、装置、终端及可读介质 | |
CN113468877A (zh) | 语言模型的微调方法、装置、计算设备和存储介质 | |
CN110929094A (zh) | 一种视频标题处理方法和装置 | |
CN112016271A (zh) | 语言风格转换模型的训练方法、文本处理方法以及装置 | |
CN114218379B (zh) | 一种面向智能问答系统的无法回答问题的归因方法 | |
CN111370001B (zh) | 一种发音的纠正方法、智能终端及存储介质 | |
CN114330318A (zh) | 一种金融领域中文细粒度实体识别方法及装置 | |
CN112231556A (zh) | 基于对话场景的用户画像方法、装置、设备及介质 | |
CN112836525A (zh) | 一种基于人机交互机器翻译系统及其自动优化方法 | |
CN112365886A (zh) | 语音识别模型的压缩方法、装置和计算机设备 | |
CN109657244B (zh) | 一种英文长句自动切分方法及系统 | |
CN109344385B (zh) | 自然语言处理方法、装置、计算机设备和存储介质 | |
CN115438655A (zh) | 人物性别识别方法、装置、电子设备及存储介质 | |
US20220207239A1 (en) | Utterance pair acquisition apparatus, utterance pair acquisition method, and program | |
CN114625759A (zh) | 模型训练方法、智能问答方法、设备、介质及程序产品 | |
CN117057321B (zh) | 语音转文字处理方法、模型训练方法、装置、设备及介质 | |
CN117690416B (zh) | 一种人工智能交互方法及人工智能交互系统 | |
CN111160009B (zh) | 一种基于树状网格记忆神经网络的序列特征提取方法 | |
CN116089603A (zh) | 篇章结构评分模型的训练方法、评分方法和相关设备 | |
CN116226332B (zh) | 一种基于概念隐喻理论的隐喻生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |