CN117725167A - 基于大语言模型的qa抽取方法,电子设备及存储介质 - Google Patents
基于大语言模型的qa抽取方法,电子设备及存储介质 Download PDFInfo
- Publication number
- CN117725167A CN117725167A CN202311370572.4A CN202311370572A CN117725167A CN 117725167 A CN117725167 A CN 117725167A CN 202311370572 A CN202311370572 A CN 202311370572A CN 117725167 A CN117725167 A CN 117725167A
- Authority
- CN
- China
- Prior art keywords
- text
- training
- model
- pair
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 80
- 238000000034 method Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 230000009193 crawling Effects 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例涉及深度学习领域,公开了一种基于大语言模型的QA抽取方法、电子设备及存储介质,通过获取训练用语料文本,并生成训练用语料文本的QA对标签数据;为预训练好的大语言模型生成关于模型微调的第一提示词,并将第一提示词与训练用语料文本拼接后的文本作为训练文本;所述大语言模型用于从语料文本中提取QA对;利用训练文本和QA对标签数据对大语言模型进行模型微调,得到QA对抽取模型;利用QA对抽取模型,对待预测的语料文本和第二提示词拼接后的文本进行QA对抽取;其中,第一提示词和第二提示词的语义相同或相似。本方案实现端到端的直接进行QA对抽取,避免了QA对不匹配的问题。
Description
技术领域
本发明涉及深度学习领域,特别涉及一种基于大语言模型的QA抽取方法、电子设备及存储介质。
背景技术
现有的从文档中抽取问答对的方法通常采用流水线(Pipeline)方式,其主要包含以下两种方法:1)先从文档中抽取可能的答案,再根据答案生成问题;2)根据文本生成可能的问题,再根据问题去文本中抽取答案。这两种方法均忽略了问题生成与答案抽取之间的联系,从而可能导致生成的问答(QA)对不兼容,即抽取的答案不适于问题。
发明内容
本发明实施方式的目的在于提供一种基于大语言模型的QA抽取方法、电子设备及存储介质,以基于对预训练的大语言模型进行微调,实现端到端的直接进行QA对抽取,避免了QA对不匹配的问题。
为解决上述技术问题,本发明的实施方式提供了一种基于大语言模型的QA抽取方法,包括:
获取训练用语料文本,并生成所述训练用语料文本的QA对标签数据;
为预训练好的大语言模型生成关于模型微调的第一提示词,并将所述第一提示词与所述训练用语料文本拼接后的文本作为训练文本;所述大语言模型用于从语料文本中提取QA对;
利用所述训练文本和所述QA对标签数据对所述大语言模型进行模型微调,得到QA对抽取模型;
利用所述QA对抽取模型,对待预测的语料文本和第二提示词拼接后的文本进行QA对抽取;其中,所述第一提示词和所述第二提示词的语义相同或相似。
本发明的实施方式还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的基于大语言模型的QA抽取方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于大语言模型的QA抽取方法。
本发明实施方式相对于现有技术而言,通过获取训练用语料文本,并生成训练用语料文本的QA对标签数据;为预训练好的大语言模型生成关于模型微调的第一提示词,并将第一提示词与训练用语料文本拼接后的文本作为训练文本;所述大语言模型用于从语料文本中提取QA对;利用训练文本和QA对标签数据对大语言模型进行模型微调,得到QA对抽取模型;利用QA对抽取模型,对待预测的语料文本和第二提示词拼接后的文本进行QA对抽取;其中,第一提示词和第二提示词的语义相同或相似。本方案以基于对预训练的大语言模型进行微调,实现端到端的直接进行QA对抽取,避免了QA对不匹配的问题。
附图说明
图1是根据本发明实施方式的基于大语言模型的QA抽取方法的具体流程图;
图2是根据本发明实施方式的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的一实施方式涉及一种基于大语言模型的QA抽取方法,如图1所示,包括如下步骤。
步骤101:获取训练用语料文本,并生成训练用语料文本的QA对标签数据。
具体地,获取大量语料文本作为训练用语料文本,关于语料文本的来源、内容领域和获取方式均不做限定;针对训练用语料文本,采用人工、机器或二者相结合的方式标注出可能涉及的问题-答案对(简称“QA对”),其中,答案内容必须严格出自语料文本中,问题内容要与对应的答案内容匹配。标注出来的QA对记为QA对标签数据。
在一些实施例中,获取训练用语料文本,并生成训练用语料文本的QA对标签数据,包括:
利用爬虫工具从网络中爬取不同领域、不同行文风格的文本数据作为训练用语料文本;生成训练用语料文本的QA对标签数据,且QA对标签数据与所标注的训练用语料文本的格式和行文风格保持一致。
例如,在获取训练用语料文本过程中,可利用爬虫工具从网络中抓取不同领域、不同行文风格的文本数据,例如包括但不局限于:新闻、期刊、财报、课本等领域的文本数据。这些数据的行文风格各有不同,比如新闻的行文风格简洁明了、逻辑清晰、语言通俗易懂;期刊的行文风格严谨、客观、注重理论和实证分析;财报的行文风格流畅、通顺、简明、精练;课本的行文风格科学、系统、具备良好的逻辑结构。
此外,由于爬取的语料数据中可能会存在表格数据,可以对表格数据进行预处理,将表格数据转成Mark Down形式数据,该形式数据可以较大程度的保留表格的结构信息,有利于模型对表格数据的理解,能够较准确的抽取出表格中的QA对。
在获取到训练用语料文本后,可以根据训练用语料文本的领域和行文风格,生成所属相同领域、行文风格的QA对标签数据,以使QA对标签数据与所标注的训练用语料文本的格式和行文风格保持一致。
在一些例子中,生成训练用语料文本的QA对标签数据,可包括:当练用语料文本中包括阅读理解型的语料文本时,从阅读理解型的语料文本中提取原文问答句作为阅读理解型的语料文本的QA对标签数据,以使QA对标签数据与所标注的训练用语料文本的格式和行文风格保持一致。
其中,阅读理解型的语料文本中普遍都原文记载了一些问答语句,因此可以从阅读理解型的语料文本中提取原文问答句,然后可直接将原文问答句直接作为QA对标签数据,或者对原文问答句进行简单语言规范处理后,形成QA对标签数据。这种标注方式,由于QA对标签数据直接出语料文本中,因此可以有效确保QA对标签数据与所标注的训练用语料文本的格式和行文风格保持一致。
在另一些例子中,生成训练用语料文本的QA对标签数据,可包括:利用其他语言模型提取训练用语料文本中的原始QA对,然后对原始QA对进行修正得到QA对标签数据。
例如,在生成QA对标签数据时,可以借助一些现有的语言模型,或者是采用如背景技术中提到的采用Pipeline方式训练出的能够抽取问答对的语言模型,对训练用语料文本进行粗标注,从中得到原始QA对。这些QA对的匹配效果,以及与训练用语料文本的一致性效果并不是很好,因此还需要人工或者机器等方式对原始QA对进行修正,从而得到QA对标签数据。
如下表所示,为本实施例针对训练用语料文本生成的QA对标签数据样例,可以看出训练用语料文本和对应的QA对标签数据具有相同的领域和行为风格。
表1训练用语料文本和QA对标签数据
步骤102:为预训练好的大语言模型生成关于模型微调的第一提示词,并将第一提示词与训练用语料文本拼接后的文本作为训练文本;大语言模型用于从语料文本中提取QA对。
其中,大语言模型(Large Language Model,LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。
本实施例中的预训练好的大语言模型是可用于从语料文本中提取QA对的语言模型,该大语言模型可以实现端到端的QA对抽取功能。该大语言模型采用的结构模型可以是但不局限于:BaiChuan-13B-Chat语言模型。
预训练好的大语言模型只是具有基本的从语料文本中提取QA对的功能,但如果按特定的任务类型和要求进行抽取,还需对大语言模型进行微调。本实施例利用提示词(prompt)机制,通过在训练用语料文本中添加包含特定任务类型和要求内容的prompt,以告诉模型微调学习的任务类型以及一些限制要求,从而指引模型向目标任务类型完成微调过程。
微调之前需要为预训练好的大语言模型生成关于模型微调的提示词,由于该提示词是在微调阶段使用,因此可记为第一提示词。该第一提示词的内容与模型微调所指向的任务类型和要求紧密相关。
在一些例子中,可生成关于模型微调的微调任务类型及要求的内容作为第一提示词;其中,第一提示词对不同领域、不同行文风格的训练用语料文本普遍适用。
这里提到的普遍适用,本质上则是第一提示词中的任务类型及要求应该是对各个领域、行文风格的训练用语料文本都是通用的,而不是针对个别领域、行文风格的训练用语料文本所特有,以此才能保证最终微调后的模型能处理不同领域、行文风格的语料文本。而确保模型最终抽取出的QA对的领域和行文风格与被抽取的语料文本一致,则是通过标注与训练用语料文本具有相同领域和行文风格的QA对标签数据来实现。
如下给出了第一提示词的样例。
Prompt示例:
“你是一个擅长提取问题和答案的助手,请根据提供的内容,生成尽可能多的和内容相关的问题和答案,要求:1、依据以下内容信息进行提问,每个问题都是唯一的,不要出现重复的问题;2、根据内容给出问题的正确答案,答案必须包含在原文中。以下是内容:”。
在生成第一提示词后,将第一提示词与上述的训练用语料文本拼接,拼接后的文本作为训练文本,即“prompt+训练用语料文本”。
步骤103:利用训练文本和QA对标签数据对大语言模型进行模型微调,得到QA对抽取模型。
具体地,根据“prompt+训练用语料文本”的训练文本,让预先训练好的大语言模型学习标注的QA对,即学习QA对标签数据,以实现对大语言模型进行模型微调,微调后的模型即为QA对抽取模型。
在一些例子中,可以基于训练文本输入至大语言模型得到预测的QA对数据与QA对标签数据之间的损失值,对大语言模型的模型参数进行微调,得到QA对抽取模型。
例如,可将训练文本“prompt+训练用语料文本”输入至大语言模型得到预测的QA对数据,然后将预测的QA对数据与QA对标签数据通过计算二者之间的相似性或者文本距离得到二者之间的损失值,通过最小化损失值对大语言模型的模型参数进行迭代性训练实现模型微调,微调后的模型即为QA对抽取模型。
步骤104:利用QA对抽取模型,对待预测的语料文本和第二提示词拼接后的文本进行QA对抽取;其中,第一提示词和第二提示词的语义相同或相似。
在通过步骤101~103的处理过程得到QA对抽取模型后,可以利用该QA对抽取模型对待预测的语料文本直接进行端到端的QA对抽取。其中,待预测的语料文本的格式可包括但不局限于PDF、DOC、TXT中的至少一种。
当待预测的语料数据中存在表格数据时,也可以预先对表格数据进行预处理,将表格数据转成Mark Down形式数据,然后将转换后的Mark Down形式数据连同其他待预测的语料数据共同作为待预测的语料文本。
此外,还要生成待预测的语料文本的第二提示词,该第二提示词和训练QA对抽取模型时所采用的第一提示词的语义相同或相似。将待预测的语料文本和第二提示词进行拼接,形成待预测文本,然后将预测文本输入到QA对抽取模型中,输出得到预测的QA对数据。设置第一提示词和第二提示词的语义相同或相似,是用以保证抽取模型在训练过程和预测过程的输出结果稳定。
在一些例子中,利用QA对抽取模型,对待预测的语料文本和第二提示词拼接后的文本进行QA对抽取,可包括:对待预测的语料文本进行分块,得到的每个分块文本的字数不超过预设字数;利用QA对抽取模型,对每个分块文本分别和第二提示词拼接后的文本进行QA对抽取。
具体地,当待预测的语料文本的数据量较大时,可以先将待预测的语料文本进行分块,得到多个分块文本,每个分块文本的字数不超过预设字数,从而可以降低一次预测运算的数据量较大所带来的卡顿等一些问题。然后可将每个分块文本分别和第二提示词进行拼接,得到多个待预测的文本块,将这些文本块分别输入至QA对抽取模型,以抽取出针对每个文本块的QA对数据。
与相关技术比较,本实施例通过获取训练用语料文本,并生成训练用语料文本的QA对标签数据;为预训练好的大语言模型生成关于模型微调的第一提示词,并将第一提示词与训练用语料文本拼接后的文本作为训练文本;所述大语言模型用于从语料文本中提取QA对;利用训练文本和QA对标签数据对大语言模型进行模型微调,得到QA对抽取模型;利用QA对抽取模型,对待预测的语料文本和第二提示词拼接后的文本进行QA对抽取;其中,第一提示词和第二提示词的语义相同或相似。本方案以基于对预训练的大语言模型进行微调,实现端到端的直接进行QA对抽取,避免了QA对不匹配的问题。
本发明的另一实施方式涉及一种电子设备,如图2所示,包括至少一个处理器202;以及,与至少一个处理器202通信连接的存储器201;其中,存储器201存储有可被至少一个处理器202执行的指令,指令被至少一个处理器202执行,以使至少一个处理器202能够执行上述任一方法实施例。
其中,存储器201和处理器202采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器202和存储器201的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器202处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器202。
处理器202负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器201可以被用于存储处理器202在执行操作时所使用的数据。
本发明的另一实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述任一方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (10)
1.一种基于大语言模型的QA抽取方法,其特征在于,包括:
获取训练用语料文本,并生成所述训练用语料文本的QA对标签数据;
为预训练好的大语言模型生成关于模型微调的第一提示词,并将所述第一提示词与所述训练用语料文本拼接后的文本作为训练文本;所述大语言模型用于从语料文本中提取QA对;
利用所述训练文本和所述QA对标签数据对所述大语言模型进行模型微调,得到QA对抽取模型;
利用所述QA对抽取模型,对待预测的语料文本和第二提示词拼接后的文本进行QA对抽取;其中,所述第一提示词和所述第二提示词的语义相同或相似。
2.根据权利要求1所述的方法,其特征在于,所述获取训练用语料文本,并生成所述训练用语料文本的QA对标签数据,包括:
利用爬虫工具从网络中爬取不同领域、不同行文风格的文本数据作为所述训练用语料文本;
生成所述训练用语料文本的QA对标签数据,且所述QA对标签数据与所标注的所述训练用语料文本的格式和行文风格保持一致。
3.根据权利要求2所述的方法,其特征在于,所述生成所述训练用语料文本的QA对标签数据,包括:
当所述练用语料文本中包括阅读理解型的语料文本时,从所述阅读理解型的语料文本中提取原文问答句作为所述阅读理解型的语料文本的所述QA对标签数据,以使所述QA对标签数据与所标注的所述训练用语料文本的格式和行文风格保持一致。
4.根据权利要求2所述的方法,其特征在于,所述生成所述训练用语料文本的QA对标签数据,包括:
利用其他语言模型提取所述训练用语料文本中的原始QA对,然后对所述原始QA对进行修正得到所述QA对标签数据。
5.根据权利要求1所述的方法,其特征在于,所述为预训练好的大语言模型生成关于模型微调的第一提示词,包括:
生成关于模型微调的微调任务类型及要求的内容作为所述第一提示词;
其中,所述第一提示词对不同领域、不同行文风格的所述训练用语料文本普遍适用。
6.根据权利要求1所述的方法,其特征在于,所述利用所述训练文本和所述QA对标签数据对所述大语言模型进行模型微调,得到QA对抽取模型,包括:
基于所述训练文本输入至所述大语言模型得到预测的QA对数据与所述QA对标签数据之间的损失值,对所述大语言模型的模型参数进行微调,得到所述QA对抽取模型。
7.根据权利要求1所述的方法,其特征在于,所述待预测的语料文本的格式包括PDF、DOC、TXT中的至少一种。
8.根据权利要求1所述的方法,其特征在于,所述利用所述QA对抽取模型,对待预测的语料文本和第二提示词拼接后的文本进行QA对抽取,包括:
对待预测的语料文本进行分块,得到的每个分块文本的字数不超过预设字数;
利用所述QA对抽取模型,对所述每个分块文本分别和所述第二提示词拼接后的文本进行QA对抽取。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一项所述的基于大语言模型的QA抽取方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于大语言模型的QA抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311370572.4A CN117725167A (zh) | 2023-10-20 | 2023-10-20 | 基于大语言模型的qa抽取方法,电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311370572.4A CN117725167A (zh) | 2023-10-20 | 2023-10-20 | 基于大语言模型的qa抽取方法,电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117725167A true CN117725167A (zh) | 2024-03-19 |
Family
ID=90209531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311370572.4A Pending CN117725167A (zh) | 2023-10-20 | 2023-10-20 | 基于大语言模型的qa抽取方法,电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117725167A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118132683A (zh) * | 2024-05-07 | 2024-06-04 | 杭州海康威视数字技术股份有限公司 | 文本抽取模型的训练方法、文本抽取方法和设备 |
-
2023
- 2023-10-20 CN CN202311370572.4A patent/CN117725167A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118132683A (zh) * | 2024-05-07 | 2024-06-04 | 杭州海康威视数字技术股份有限公司 | 文本抽取模型的训练方法、文本抽取方法和设备 |
CN118132683B (zh) * | 2024-05-07 | 2024-08-20 | 杭州海康威视数字技术股份有限公司 | 文本抽取模型的训练方法、文本抽取方法和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117009490A (zh) | 基于知识库反馈的生成式大语言模型的训练方法和装置 | |
US20180329894A1 (en) | Language conversion method and device based on artificial intelligence and terminal | |
CN107861954B (zh) | 基于人工智能的信息输出方法和装置 | |
CN117725167A (zh) | 基于大语言模型的qa抽取方法,电子设备及存储介质 | |
WO2012038014A1 (de) | System und verfahren für relevanzbasiertes kategorisieren und zeitnahes lernen von vokabeln | |
CN110826345B (zh) | 一种机器翻译方法和装置 | |
CN117094334A (zh) | 基于大型语言模型的数据处理方法、装置和设备 | |
CN109446526B (zh) | 一种隐式篇章关系语料库的构建方法、装置和存储介质 | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
CN114218379A (zh) | 一种面向智能问答系统的无法回答问题的归因方法 | |
CN117194612A (zh) | 大模型训练方法、装置、计算机设备集存储介质 | |
CN117875292A (zh) | 金融知识智能问答方法、系统、终端设备和存储介质 | |
CN112988982B (zh) | 一种计算机比较空间的自主学习方法及系统 | |
CN117786133A (zh) | 一种大模型幻觉缓解方法、装置、电子设备和存储介质 | |
CN111177414A (zh) | 一种实体预标注方法和装置以及设备 | |
CN110110050B (zh) | 一种新闻事件生成式问答数据集的生成方法 | |
CN110888976B (zh) | 一种文本摘要生成方法和装置 | |
CN116384387A (zh) | 一种自动化合同审查的方法及装置 | |
CN115130437A (zh) | 一种文档智能填写方法、装置及存储介质 | |
US11423228B2 (en) | Weakly supervised semantic entity recognition using general and target domain knowledge | |
CN114021004A (zh) | 一种理科相似题推荐方法、装置、设备及可读存储介质 | |
US20210350088A1 (en) | Systems and methods for digital document generation using natural language interaction | |
Zhu et al. | Multi: Multimodal Understanding Leaderboard with Text and Images | |
CN117390177A (zh) | 文本摘要生成方法,电子设备及存储介质 | |
CN114444470B (zh) | 专利文本中的领域命名实体识别方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |