CN116662496A - 信息抽取方法、训练问答处理模型的方法及装置 - Google Patents
信息抽取方法、训练问答处理模型的方法及装置 Download PDFInfo
- Publication number
- CN116662496A CN116662496A CN202310485688.6A CN202310485688A CN116662496A CN 116662496 A CN116662496 A CN 116662496A CN 202310485688 A CN202310485688 A CN 202310485688A CN 116662496 A CN116662496 A CN 116662496A
- Authority
- CN
- China
- Prior art keywords
- text
- answer
- question
- processing model
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 192
- 238000012549 training Methods 0.000 title claims abstract description 99
- 238000000605 extraction Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000008451 emotion Effects 0.000 claims description 120
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 15
- 230000007246 mechanism Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- 235000009508 confectionery Nutrition 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种信息抽取方法、训练问答处理模型的方法及装置。主要技术方案包括:获取待抽取文本以及待抽取文本中第一目标类型对应的第一目标内容;将由待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型;获取问答处理模型输出的包含第二目标类型对应的第二目标内容的第一答案文本;将由待抽取文本、第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型;获取问答处理模型输出的包含第三目标类型对应的第三目标内容的第二答案文本;其中问答处理模型是基于预训练语言模型预先训练得到的。本申请通过基于提示学习的链式推理方式,提高信息抽取的准确性。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种信息抽取方法、训练问答处理模型的方法及装置。
背景技术
随着互联网的普及,网络上每天产生大量的文本数据,其中蕴含着巨大的价值,信息抽取技术应运而生。信息抽取(IE,InformationExtraction)指的是从文本中抽取出特定类型的目标,从而将海量内容自动分类、提取和重构,例如命名实体识别、实体关系抽取、事件抽取、情感抽取等。
随着深度学习技术的飞速发展,信息抽取技术逐渐从基于字典加规则的方式,发展为基于深度学习模型的方式。然而基于深度学习模型的信息抽取在显式信息的抽取上具有较好的表现,但对于隐式信息的抽取极其依赖于对输入文本的深层次语义理解,目前的信息抽取技术则效果较差。例如,在进行情感极性的抽取时,对于“这个手机真好用”这种显式表达,现有的信息抽取技术能够准确地抽取出情感极性为“积极”。但对于“我的手机刚刚可以放入我的裤兜里”这种隐式表达,其实际上表达的是手机大小很合适,其情感极性也应该为“积极”,但现有的信息抽取技术很难准确抽取,很大概率抽取的情感极性为“中性”。
发明内容
有鉴于此,本申请提供了一种信息抽取方法、训练问答处理模型的方法及装置,以便于提高信息抽取的准确性。
本申请提供了如下方案:
第一方面,提供了一种信息抽取的方法,所述方法包括:
获取待抽取文本以及所述待抽取文本中第一目标类型对应的第一目标内容;
将由所述待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,所述第一提示文本包含第一目标内容和第二目标类型的信息;获取所述问答处理模型输出的包含所述第二目标类型对应的第二目标内容的第一答案文本;
将由所述待抽取文本、所述第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,所述第二提示文本包含第一目标内容和第三目标类型的信息;获取所述问答处理模型输出的包含所述第三目标类型对应的第三目标内容的第二答案文本;
其中所述问答处理模型是基于预训练语言模型预先训练得到的。
根据本申请实施例中一可实现的方式,所述待抽取文本中第一目标类型对应的第一目标内容采用如下方式获取:
获取用户指定的第一目标内容;或者,
利用信息抽取模型从所述待抽取文本中抽取第一目标类型对应的第一目标内容;或者,
将由所述待抽取文本和第四提示文本拼接得到的第四文本序列输入问答处理模型,所述第四提示文本包含所述第一目标类型的信息,从所述问答处理模型输出的第四答案文本中获取所述第一目标类型对应的第一目标内容。
根据本申请实施例中一可实现的方式,所述方法还包括:
将由所述待抽取文本、所述第一答案文本、所述第二答案文本和第三提示文本拼接得到的第三文本序列输入问答处理模型,所述第三提示文本包含所述第一目标内容和第四目标类型的信息;获取所述问答处理模型输出的包含所述第四目标类型对应的第四目标内容的第三答案文本。
根据本申请实施例中一可实现的方式,所述第一提示文本是将所述第一目标内容和所述第二目标类型的信息填入预设的第一问题模板中对应的槽位后得到的;
所述第二提示文本是将所述第一目标内容和所述第三目标类型的信息填入预设的第二问题模板中对应的槽位后得到的。
第二方面,提供了一种信息抽取的方法,所述方法由云端服务器执行,所述方法包括:
获取来自于用户终端的待抽取文本,以及获取所述待抽取文本中第一目标类型对应的第一目标内容;
将由所述待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,所述第一提示文本包含第一目标内容和第二目标类型的信息;获取所述问答处理模型输出的包含所述第二目标类型对应的第二目标内容的第一答案文本;
将由所述待抽取文本、所述第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,所述第二提示文本包含第一目标内容和第三目标类型的信息;获取所述问答处理模型输出的包含所述第三目标类型对应的第三目标内容的第二答案文本;
利用所述第三目标内容生成抽取结果,将所述抽取结果返回给所述用户终端。
第三方面,提供了一种情感抽取方法,所述方法包括:
获取待抽取文本以及所述待抽取文本中的情感对象词;
将由所述待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,所述第一提示文本包含所述情感对象词和指示观点词的信息;获取所述问答处理模型输出的包含观点词的第一答案文本;
将由所述待抽取文本、所述第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,所述第二提示文本包含所述情感对象词和指示情感极性的信息;获取所述问答处理模型输出的包含情感极性的第二答案文本;
从所述第二答案文本中获取所述情感极性。
第四方面,提供了一种情感抽取方法,所述方法包括:
获取待抽取文本以及所述待抽取文本中的情感对象词;
将由所述待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,所述第一提示文本包含所述情感对象词和指示方面的信息;获取所述问答处理模型输出的包含方面词的第一答案文本;
将由所述待抽取文本、所述第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,所述第二提示文本包含所述情感对象词和指示观点词的类型信息;获取所述问答处理模型输出的包含观点词的第二答案文本;
将由所述待抽取文本、所述第一答案文本、第二答案文本和第三提示文本拼接得到的第三文本序列输入问答处理模型,所述第三提示文本包含所述情感对象词和指示情感极性的信息;获取所述问答处理模型输出的包含情感极性的第三答案文本;
从所述第三答案文本中获取所述情感极性。
第五方面,提供了一种训练问答处理模型的方法,所述方法包括:
获取包括多个训练样本的训练数据,所述训练样本包括文本样本以及该文本样本被标注的第三目标类型对应的第三目标内容标签;
利用所述训练数据训练基于预训练语言模型的问答处理模型,其中,获取所述文本样本中第一目标类型对应的第一目标内容,将由所述文本样本和第一提示文本拼接得到的第一文本序列输入问答处理模型,所述第一提示文本包含第一目标内容和第二目标类型的信息;获取所述问答处理模型输出的包含所述第二目标类型对应的第二目标内容的第一答案文本;将由所述文本样本、所述第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,所述第二提示文本包含第一目标内容和第三目标类型的信息;获取所述问答处理模型输出的包含所述第三目标类型对应的第三目标内容的第二答案文本;
所述训练的目标包括:最小化所述第二答案文本包含的第三目标内容与对应第三目标内容标签之间的差异。
根据本申请实施例中一可实现的方式,所述训练样本还包括所述文本样本被标注的第二目标类型对应的第二目标内容标签;
所述训练的目标还包括:最小化所述第一答案文本包含的第二目标内容与对应第二目标内容标签之间的差异。
根据本申请实施例中一可实现的方式,所述第一提示文本是将所述第一目标内容和所述第二目标类型的信息填入预设的第一问题模板中对应的槽位后得到的;
所述第二提示文本是将所述第一目标内容和所述第三目标类型的信息填入预设的第二问题模板中对应的槽位后得到的。
第六方面,提供了一种信息抽取装置,所述装置包括:
文本获取单元,被配置为获取待抽取文本;
第一目标获取单元,被配置为获取所述待抽取文本中第一目标类型对应的第一目标内容;
第二目标获取单元,被配置为将由所述待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,所述第一提示文本包含第一目标内容和第二目标类型的信息;获取所述问答处理模型输出的包含所述第二目标类型对应的第二目标内容的第一答案文本;
第三目标获取单元,被配置为将由所述待抽取文本、所述第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,所述第二提示文本包含第一目标内容和第三目标类型的信息;获取所述问答处理模型输出的包含所述第三目标类型对应的第三目标内容的第二答案文本;
其中所述问答处理模型是基于预训练语言模型预先训练得到的。
第七方面,提供了一种训练问答处理模型的装置,所述装置包括:
样本获取单元,被配置为获取包括多个训练样本的训练数据,所述训练样本包括文本样本以及该文本样本被标注的第三目标类型对应的第三目标内容标签;
模型训练单元,被配置为利用所述训练数据训练基于预训练语言模型的问答处理模型,其中,获取所述文本样本中第一目标类型对应的第一目标内容,将由所述文本样本和第一提示文本拼接得到的第一文本序列输入问答处理模型,所述第一提示文本包含第一目标内容和第二目标类型的信息;获取所述问答处理模型输出的包含所述第二目标类型对应的第二目标内容的第一答案文本;将由所述文本样本、所述第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,所述第二提示文本包含第一目标内容和第三目标类型的信息;获取所述问答处理模型输出的包含所述第三目标类型对应的第三目标内容的第二答案文本;所述训练的目标包括:最小化所述第二答案文本包含的第三目标内容与对应第三目标内容标签之间的差异。
根据第八方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面至第五方面中任一项所述的方法的步骤。
根据第九方面,提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面至第五方面中任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
1)本申请从待抽取文本中抽取第一目标内容后,将待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,帮助问答处理模型得到包含第二目标内容的第一答案文本;再将待抽取文本、第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,帮助问答处理模型得到包含第三目标内容的第二答案文本。通过这种基于提示学习的链式推理方式帮助问答处理模型充分利用预训练语言模型强大的理解能力,逐步理解待抽取文本的深层语义,从而提高信息抽取的准确性。也就是说,利用问答处理模型一步获取一个目标类型对应的目标内容,分多步逐步获取各目标类型对应的目标内容,已获取的目标内容将辅助问答处理模型对下一个目标类型的理解,因此在抽取隐式信息时,能够有效利用已经获得的目标内容对隐式信息进行理解,抽取效果尤其突出。
2)本申请能够利用预设的问题模板,将已经得到的目标内容和待抽取的目标类型的信息填入问题模板,从而自动生成提示文本,再与待抽取文本或者进一步与已经得到的答案文本进行拼接,输入问答处理模型。整个过程可以自动实现,无需人工干预。
3)本申请首先基于提示机制使用问答处理模型推理出句子所针对的情感对象的方面词,然后进一步基于提示机制使用问答处理模型推理出针对该方面词的观点词,最后基于提示机制使用问答处理模型推理出情感极性。使用三个渐进式的推理步骤,充分利用语言模型的理解能力,逐渐理解句子的深层语义,从而准确地提取出隐式表达的情感极性。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为是本申请实施例所适用的系统架构图;
图2为本申请实施例提供的信息抽取方法的流程图;
图3为本申请实施例提供的问答处理模型的原理性示意图;
图4为本申请实施例提供的情感抽取的方法流程图;
图5为本申请实施例提供的训练问答处理模型的方法流程图;
图6为本申请实施例提供的信息抽取装置的示意性框图;
图7为本申请实施例提供的训练问答处理模型的装置示意性框图;
图8为本申请实施例提供的电子设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
随着预训练语言模型,特别是大规模语言模型的出现,NLP(NaturalLanguageProcessing,自然语言处理)的研究和应用开始以预训练语言模型为中心。由于预训练语言模型具有强大的理解和问答能力,因此出现了提示学习机制。所谓提示学习(Promptlearning)是在不显著改变预训练语言模型结构和参数的情况下,通过向输入增加提示信息,将下游任务改为文本生成任务。本申请参考了提示学习机制,在此基础上提供了一种链式推理方式来实现信息抽取。
为了方便对本申请的理解,首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示例性系统架构,如图1中所示,该系统架构包括采用离线方式建立问答处理模型的模型训练装置,以及在线实现信息抽取的信息抽取装置。
其中,本申请实施例提供的信息抽取方法是使用问答处理模型实现的,即将信息抽取任务转化为问答任务。模型训练装置在获取训练数据后,采用本申请实施例中提供的方式预先训练得到问答处理模型。
问答处理模型用以采用本申请实施例提供的方式,利用输入的文本序列得到输出文本序列,其中输出的文本序列包含特定目标类型对应的目标内容。其中的目标可以在不同的应用场景下对应不同的内容,例如实体词、实体关系、情感元素、事件信息等,具体将在后续实施例中详述。信息抽取装置可以利用上述问答处理模型获取从待抽取文本中抽取预设目标类型的目标内容。
模型训练装置和信息抽取装置可以分别设置为独立的服务器,也可以设置于同一个服务器或服务器群组,还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,VirtualPrivateServer)服务中存在的管理难度大,服务扩展性弱的缺陷。模型训练装置或信息抽取装置还可以设置于具有较强计算能力的计算机终端。
在其中一种常用的场景下,用户可以使用用户终端与设置于服务端的信息抽取装置进行交互,用户终端上可以安装有各种应用,例如语音交互应用、网页浏览器应用、通信类应用等。
用户终端可以是各种电子设备,可以是有屏设备,也可以是无屏设备。包括但不限于智能手机、平板电脑、智能音箱、智能电视、PC(PersonalComputer,个人计算机)、可穿戴式设备等等。
用户可以通过用户终端输入待抽取文本,该待抽取文本通过网络发送到服务器端的信息抽取装置,由信息抽取装置获取从待抽取文本中抽取的预设目标类型的目标内容后,将抽取的目标内容返回给用户终端。上述预设目标类型可以是用户指定的目标类型,也可以是默认的目标类型。
应该理解,图1中的模型训练装置、信息抽取装置、用户终端以及问答处理模型的数目仅仅是示意性的。根据实现需要,可以具有任意数目的模型训练装置、信息抽取装置、用户终端以及问答处理模型。
图2为本申请实施例提供的信息抽取方法的流程图,该方法流程可以由图1所示系统架构中的信息抽取装置执行。如图2中所示,该方法可以包括以下步骤:
步骤202:获取待抽取文本以及待抽取文本中第一目标类型对应的第一目标内容。
步骤204:将由待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,第一提示文本包含第一目标内容和第二目标类型的信息;获取问答处理模型输出的包含第二目标类型对应的第二目标内容的第一答案文本,其中问答处理模型是基于预训练语言模型预先训练得到的。
步骤206:将由待抽取文本、第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,第二提示文本包含第一目标内容和第三目标类型的信息;获取问答处理模型输出的第三目标类型对应的第三目标内容的第二答案文本。
由上述流程可以看出,本申请从待抽取文本中抽取第一目标内容后,将待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,帮助问答处理模型得到包含第二目标内容的第一答案文本;再将待抽取文本、第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,帮助问答处理模型得到包含第三目标内容的第二答案文本。通过这种基于提示学习的链式推理方式帮助问答处理模型充分利用预训练语言模型强大的理解能力,逐步理解待抽取文本的深层语义,从而提高信息抽取的准确性。
需要说明的是,本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制,仅仅用以在名称上加以区分。例如“第一目标类型”、“第二目标类型”和“第三目标类型”用以在名称上区分三个目标类型。再例如,“第一提示文本”和“第二提示文本”用以在名称上区分两个提示文本。再例如,“第一文本序列”、“第二文本序列”用以在名称上区分两个文本序列。等等。
下面对上述方法流程中的各步骤分别进行描述。首先结合实施例对上述步骤202即“获取待抽取文本以及待抽取文本中第一目标类型对应的第一目标内容”进行详细描述。
本申请实施例中涉及的待抽取文本可以是从用户设备获取的文本,例如用户希望对文本进行特定目标类型的信息抽取,则可以通过用户设备将该文本上传至服务器端的信息抽取装置,由信息抽取装置将该文本作为待抽取文本,采用本申请实施例提供的方式从待抽取文本中抽取特定目标类型的目标内容。
本申请实施例中涉及的待抽取文本也可以是从数据库中获取的文本。例如需要对数据库中批量的文本进行特定目标类型的信息抽取,则可以将从数据库获取的各文本分别作为待抽取文本,采用本申请实施例提供的方式从待抽取文本中抽取特定目标类型的目标内容。
待抽取文本可以是句子,也可以是由句子构成的段落、文档等,还可以是更小粒度的文本单位,例如短语等。
本申请实施例涉及的信息抽取,目的是为了抽取出其中特定目标类型的信息。本步骤中首先获取的第一目标类型的第一目标内容可以是其中一种在语义理解上比较基础的,或者比较显式的,容易理解的目标类型。以情感抽取为例,情感抽取通常要抽取诸如情感对象词、方面词、评价词、情感极性等情感元素,其中诸如方面词、评价词、情感极性等都是基于情感对象的,且情感对象在文本中通常是比较显式的表达,抽取比较容易,因此可以将情感对象作为第一目标类型首先进行抽取。后续将会以情感抽取为例进行详细描述。
获取待抽取文本中第一目标类型对应的第一目标内容可以采用但不限于以下方式:
第一种方式:获取用户指定的第一目标内容。
在进行信息抽取时,第一目标内容可以由用户指定,这种情况相当于用户确定想要抽取待抽取文本中基于第一目标内容时的其他目标类型的目标内容。例如,用户想要抽取待抽取文本中关于特定情感对象的情感极性,则可以输入待抽取文本中的情感对象词。
第二种方式:利用信息抽取模型从待抽取文本中抽取第一目标类型对应的第一目标内容。
由于通常第一目标内容在文本中是显式的、比较容易理解的,现有的信息抽取模型对于第一目标类型的第一目标内容的识别是比较准确的,因此可以采用现有的信息抽取模型从待抽取文本中抽取第一目标类型对应的第一目标内容。例如,使用情感抽取模型从待抽取文本中抽取情感对象。
第三种方式:将由待抽取文本和第四提示文本拼接得到的第四文本序列输入问答处理模型,第四提示文本包含第一目标类型的信息,从问答处理模型输出的第四答案文本中获取第一目标类型对应的第一目标内容。
鉴于第三种抽取方式采用的是提示学习机制,具体放在针对步骤204的详细描述中一并进行说明。
下面结合实施例对上述步骤204即“将由待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,第一提示文本包含第一目标内容和第二目标类型的信息;获取问答处理模型输出的包含第二目标类型对应的第二目标内容的第一答案文本”进行详细描述。
虽然目前已经存在一些技术在NLP领域使用了提示学习机制,但仅仅用以将预训练语言模型适配于具体的任务,对于深层语义理解相关任务的推理能力较差。本申请实施例中将提示学习机制与链式推理思路相结合。本申请实施例中的链式推理至少包括两步推理过程,本步骤涉及的是其中一步推理。
首先将待抽取文本和第一提示文本进行拼接,得到第一文本序列。其中第一提示文本包括上一步骤中已经抽取的第一目标内容,还包括本步推理需要得到的第二目标类型的信息。
作为其中一种可实现的方式,上述第一目标类型、第二目标类型、第三目标类型等可以依次在理解难度上递增,即首先抽取相对较容易的目标类型对应的目标内容,然后再利用已经抽取到的目标内容帮助理解相对较难的目标类型对应的目标内容,依次类推。这种实现方式是较为优选的实施方式,但本申请并不限于这种实现方式。
第一提示文本可以采用预设的第一问题模板。将第一目标内容和指示第二目标类型的信息填入预设的第一问题模板中的对应槽位,得到第一提示文本。
例如,第一提示文本对应的第一问题模板可以为:“【t1】的哪个【T2】可能在其中被提到?”
上述第一问题模板中,【t1】对应的槽位可以被填入第一目标内容,【T2】对应的槽位可以被填入第二目标类型的信息。
另外,将待抽取文本和第一提示文本进行拼接时,可以采用诸如“‘给定句子【S】’+第一提示文本”的形式,其中【S】对应的槽位可以被填入待抽取文本。
后续将以情感抽取作为一个具体应用场景为例进行举例描述。
作为其中一种可实现的方式,上述第一问题模板可以是由人工经验设置的模板。可以看出第一问题模板中除了第一目标内容和指示第二目标类型的信息之外,还包含一些上下文来体现出第一目标内容、第二目标类型的信息以及待抽取文本之间的语义关系。这些上下文可以由人工经验设置。
除了采用将第一目标内容和指示第二目标类型的信息填入预设的第一问题模板中的对应槽位,得到第一提示文本之外,本申请也不限于可以采用其他方式来得到第一提示文本。例如采用特定的话术对第一目标内容和指示第二目标类型的信息进行拼接,得到第一提示文本,等等。
本申请实施例通过提示文本的加入,将原本的信息抽取任务转化为问答任务。其中问答处理模型采用的是Seq2Seq(SequencetoSequence,序列到序列)模型。其结构可以如图3中所示,包括编码网络(Encoder)和解码网络(Decoder)。
其中,编码网络用以对输入的文本序列(此时是第一文本序列)中的各元素Token进行特征编码,得到各Token的特征表示。
其中,编码网络可以首先对输入的文本序列中的各Token进行Embedding(嵌入)处理。文本序列的各Token指的是构成文本序列的元素。对于文本序列而言,将文本序列切分为字符或者词语序列,则文本序列中的字符或者词语、以及起始符、分隔符均为Token。
上述Embedding处理可以至少包括:词Embedding和位置Embedding。词Embedding,即将各Token进行词向量编码,得到词向量表示。位置Embedding,即将各Token在待预测文本序列中的位置进行编码,得到位置的表示。
解码网络用以利用各Token的特征表示进行解码处理,输出的也是文本序列,将该输出的文本序列作为答案文本(本步骤输出的是第一答案文本)。其中,第一答案文本包含第二目标类型对应的第二目标内容。
相当于第一文本序列是关于待抽取文本中第二目标类型的提问,问答处理模型输出的是关于待抽取文本中第二目标类型的回答,即第二目标内容。
例如,针对诸如“给定句子【S】,【t1】的哪个【T2】可能在其中被提到?”这种形式的第一文本序列,得到的第一答案文本可以是诸如“句子中提到的t1的T2是t2”。其中,t2为待抽取文本中第二目标类型T2对应的第二目标内容。
在本申请实施例中的上述问答处理模型可以基于预训练语言模型训练得到,采用诸如T5(TransferText-to-TextTransformer,文本到文本转换器)、BERT(BidirectionalEncoder RepresentationfromTransformers,基于转换的双向编码表示)、XLNet(一种通过排列语言模型实现双向上下文信息的自回归模型)、GPT(GenerativePre-Training,生成式预训练)模型等预训练语言模型作为模型框架,在此基础上进行进一步训练。其中,BERT是一种双向预训练语言模型,使用TransformerEncoder(转换编码器)作为模型结构,BERT能够很好地利用上下文信息进行特征学习。XLNet是一个类似BERT的模型,是一种更加泛化的自回归预训练模型。GPT使用TransformerDecoder(转换解码器)结构,并在Transformer Decoder中仅保留了掩码多头注意力。T5仍然是一个由Transformer层堆叠而成的编码器-解码器结构,但Decoder中在自注意力层后还有个标准的注意力层,这个标准的注意力层会将编码器的输出参与到注意力的计算当中。
下面回过头来描述一下步骤202中涉及的获取第一目标内容的第三种方式,即采用类似的方式,将由待抽取文本和第四提示文本拼接得到的第四文本序列输入问答处理模型,第四提示文本包含第一目标类型的信息,从问答处理模型输出的第四答案文本中获取第一目标类型对应的第一目标内容。
例如,采用诸如“给定句子【S】,包含的【T1】是什么?”形式的第四文本序列,其中【S】对应的槽位被填入待抽取文本,【T1】对应的槽位可以被填入第一目标类型的信息。问答处理模型输出的第四答案文本可以是诸如“句子中包含的T1是t1”。其中,t1为待抽取文本中第一目标类型T1对应的第一目标内容。
下面结合实施例对上述步骤206即“将由待抽取文本、第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,第二提示文本包含第一目标内容和第三目标类型的信息;获取问答处理模型输出的第三目标类型对应的第三目标内容的第二答案文本”进行详细描述。
本步骤与上一步骤的过程类似,不同的是在产生第二文本序列时,会将待抽取文本、第一答案文本和第二提示文本进行拼接。
第二提示文本可以采用预设的第二问题模板。将第一目标内容和指示第三目标类型的信息填入预设的第二问题模板中的对应槽位,得到第二提示文本。
例如,第二提示文本对应的第二问题模板可以为:“对于【t1】最可能的【T3】是什么?”
上述第二问题模板中,【t1】对应的槽位可以被填入第一目标内容,【T3】对应的槽位可以被填入第三目标类型的信息。
将待抽取文本、第一答案文本和第一提示文本进行拼接时,可以是诸如“‘给定句子【S】’+第一答案文本+第一提示文本”的形式,其中【S】对应的槽位可以被填入待抽取文本。
接续上例,第二文本序列可以是诸如“给定句子【S】,句子中包含的T1是t1,对于t1最可能的【T3】是什么?”的形式。后续将以情感抽取作为一个具体应用场景为例进行举例描述。
作为其中一种可实现的方式,上述第二问题模板可以是由人工经验设置的模板。可以看出第二问题模板中除了第一目标内容和第三目标类型的信息之外,还包含一些上下文来体现出第一目标内容、第三目标类型的信息以及待抽取文本之间的语义关系。这些上下文可以由人工经验设置。
问答处理模型与步骤204中使用的问答处理模型为同一个问答处理模型,在此不做赘述。
接续上例,问答处理模型产生的第二答案文本可以是诸如“t1很可能是t3的”,或者“t1的T3是t3”之类的,其中t3为第三目标类型T3对应的第三目标内容。
如果在本步骤结束之后已经推理得到了想要目标类型的目标内容,例如想要从待抽取文本中抽取第三目标内容,则可以结束链式推理,从第三答案文本中可以获取第三目标内容。
但在一些情况下,可能尚未推理得到想要的目标类型的目标内容,则可以继续进行链式推理,即将由待抽取文本、第一答案文本、第二答案文本和第三提示文本拼接得到的第三文本序列输入问答处理模型,第三提示文本包含第一目标内容和第四目标类型的信息;获取问答处理模型输出的包含第四目标类型对应的第四目标内容的第三答案文本。以此类推,不做一一穷举。
本申请实施例提供的上述信息抽取方法可以应用于多种应用场景,例如实体关系抽取、事件抽取、情感抽取,等等。在此以情感抽取为例,对上述信息抽取方法进行举例描述。
所谓情感抽取指的是给定一个输入文本S,从S中抽取情感元素。其中情感元素可以是情感对象、观点词和情感极性。
其中,情感对象可以包括情感对象词,情感对象词也称为目标词(target),指的是情感所针对的事务,例如对于文本“这件衣服不好看”,其中的情感对象是一个事务“衣服”。在一些细粒度情感识别上,情感对象除了包括情感对象词之外,还包括方面词(aspect)。方面词可以理解为情感对象的一个属性,即情感所针对的目标的某个属性。例如对于文本“这件衣服的尺码太小”,其中的情感对象是一个事务的一个属性即“衣服的尺码”。
观点词(opinion)也称为情感词、评价词,指的是表达出情感、评价或观点的词语。例如对于“苹果真甜啊”,其中的情感词是“甜的”。
情感极性指的是将情感划分的几种离散的取值,例如,包括积极(也称为正向)、消极(也称为负向)、中性等。情感极性通常是隐式表达,即不会在句子中直接出现情感极性词,而是通过整个文本的语义体现出情感极性。例如,“苹果真甜啊”,其对应的情感极性是“积极”。对于“我的手机刚刚可以放入我的裤兜里”这种隐式表达,其实际上表达的是手机大小很合适,其情感极性也应该为“积极”。
由于情感极性的隐式表达,往往对语义理解具有非常高的要求,依赖于对文本中深层次语义的理解,推理其背后的真实意图。现有技术中无论是字典加规则的方式,还是深度学习的方式都很难准确抽取情感极性。因此,可以采用本申请提供的基于提示学习的链式推理方式。
若采用细粒度的情感识别,则其具体流程可以如图4中所示,包括以下步骤:
步骤402:获取待抽取文本以及待抽取文本中的情感对象词。
本实施例中涉及的待抽取文本可以是从用户设备获取的文本,例如用户希望对文本进行情感抽取,则可以通过用户设备将该文本上传至服务器端的信息抽取装置,由信息抽取装置将该文本作为待抽取文本。
本申请实施例中涉及的待抽取文本也可以是从数据库中获取的文本。例如需要对数据库中批量的文本进行情感抽取,则可以将从数据库获取的各文本分别作为待抽取文本。
待抽取文本可以是句子,也可以是由句子构成的段落、文档等,还可以是更小粒度的文本单位,例如短语等。在本实施例中以句子为例进行描述。
在获取待抽取文本中的情感对象词时,可以采用但不限于以下方式:
第一种方式:获取用户指定的情感对象词。
在进行情感抽取时,情感对象词可以由用户指定,这种情况相当于用户确定想要抽取待抽取文本中针对特定情感对象的情感极性,则可以输入待抽取文本中的情感对象词。例如针对待抽取文本“我的手机刚刚可以放入我的裤兜里”,用户可以指定情感对象词“手机”。
第二种方式:利用信息抽取模型从待抽取文本中抽取情感对象词。
由于通常情感对象词在文本中是显式的、比较容易理解的,现有的信息抽取模型对于情感对象词的识别是比较准确的,因此可以采用现有的信息抽取模型(即事件抽取模型)从待抽取文本中抽取情感对象词。
第三种方式:将由待抽取文本和第四提示文本拼接得到的第四文本序列输入问答处理模型,第四提示文本包含指示情感对象的信息,从问答处理模型输出的第四答案文本中获取情感对象词。
例如,将如下的第四文本序列输入问答处理模型:
“给定句子‘我的手机刚刚可以放入我的裤兜里’,包含的情感对象词是什么?”
问答处理模型针对该第四文本序列,生成的第四答案文本可以是诸如:
“句子中包含的情感对象词是手机”。
步骤404:将由待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,第一提示文本包含情感对象词和指示方面的信息;获取问答处理模型输出的包含方面词的第一答案文本。
接续上例,将如下的第一文本序列输入问答处理模型:
“给定句子‘我的手机刚刚可以放入我的裤兜里’,手机的哪个具体方面可能在其中被提到?”
问答处理模型针对该第一文本序列,生成的第一答案文本可以是诸如:
“句子中提到的手机的具体方面是尺寸或便携性”。
在此需要说明的是,若采用粗粒度的情感抽取,则可以不抽取方面词,即不执行本步骤,而是在下一步骤中直接将待抽取文本与包含情感词对象词和指示观点词的类型信息的第二提示文本拼接得到第二文本序列,将第二文本序列输入处理模型。
步骤406:将由待抽取文本、第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,第二提示文本包含情感对象词和指示观点词的类型信息;获取问答处理模型输出的包含观点词的第二答案文本。
接续上例,将如下的第二文本序列输入问答处理模型:
“给定句子‘我的手机刚刚可以放入我的裤兜里’,句子中提到的手机的具体方面是尺寸或便携性。针对该手机的具体方面的评价词是什么,为什么?”
问答处理模型针对该第二文本序列,生成的第二答案文本可以是诸如:
“针对该手机的具体方面,该句子的意思是手机足够小,很适合说话者的口袋。通常来说,说话者表达的观点是便携性很好,因为说话者很容易携带手机并将其放入口袋,并且发现手机很方便和容易使用”。
步骤408:将由待抽取文本、第一答案文本、第二答案文本和第三提示文本拼接得到的第三文本序列输入问答处理模型,第三提示文本包含情感对象词和指示情感极性的信息;获取问答处理模型输出的包含情感极性的第三答案文本。
接续上例,将如下的第三文本序列输入问答处理模型:
“给定句子‘我的手机刚刚可以放入我的裤兜里’,句子中提到的手机的具体方面是尺寸或便携性。针对该手机的具体方面,该句子的意思是手机足够小,很适合说话者的口袋。通常来说,说话者表达的观点是便携性很好,因为说话者很容易携带手机并将其放入口袋,并且发现手机很方便和容易使用。基于这样的观点,针对该手机的情感极性是什么?”
问答处理模型针对该第三文本序列,生成的第三答案文本可以是诸如:
“针对该手机的情感极性是积极。说话者觉得手机方便携带和使用,表达了对该手机的喜爱。”
步骤410:从第三答案文本中获取情感极性。
接续上例,可以从上述第三答案文本中获取情感极性为“积极”。可以将该情感极性的信息反馈给用户,或者将该情感极性的信息与待抽取文本进行关联存储以便后续查询或使用。
从上述流程可以看出,本申请首先基于提示机制使用问答处理模型推理出句子所针对的情感对象的方面词,然后进一步基于提示机制使用问答处理模型推理出针对该方面词的观点词,最后基于提示机制使用问答处理模型推理出情感极性。使用三个渐进式的推理步骤,充分利用语言模型的理解能力,逐渐理解句子的深层语义,从而准确地提取出隐式表达的情感极性。
本申请实施例中使用的问答处理模型基于预训练语言模型实现。作为其中一种可实现的方式,问答处理模型可以采用目前已有的问答处理模型。
作为另一种可实现的方式,问答处理模型可以在目前已有的问答处理模型的基础上,使用少量情感相关文本进行微调。训练方式可以采用预训练语言模型常用的MLM(Masked LanguageModel,掩码语言建模)方式,即掩码掉文本样本中的部分Token,构建提示文本,该提示文本是对该Token部分内容的提问。将文本样本和提示文本拼接后作为输入序列样本训练问答处理模型,问答处理模型回答上述提问,得到的答案文本包含被掩码部分的内容,训练目标是:最小化问答处理模型得到的被掩码部分的内容与文本样本中被掩码部分的实际内容之间的差异。
作为再一种可实现的方式,问答处理模型可以在预训练语言模型的基础上,使用针对信息抽取特别构建的训练数据来训练问答处理模型。该训练过程可以如图5中所示,该训练过程可以由图1所示系统架构中的模型训练装置执行。如图5中所示,该方法可以包括以下步骤:
步骤502:获取包括多个训练样本的训练数据,训练样本包括文本样本以及该文本样本被标注的第三目标类型对应的第三目标内容标签。
本步骤中获取的训练样本可以采用人工标注的方式,即人工识别文本样本中的第三目标类型对应的第三目标内容并标注标签,例如在针对情感抽取场景时,针对文本样本标注情感极性标签。
更进一步地,上述训练样本还可以包括文本样本被标注的第二目标类型对应的第二目标内容标签,例如在针对情感抽取场景时,针对文本样本标注评价词标签,和/或,方面词标签。
步骤504:利用训练数据训练基于预训练语言模型的问答处理模型,其中,获取文本样本中第一目标类型对应的第一目标内容,将由文本样本和第一提示文本拼接得到的第一文本序列输入问答处理模型,第一提示文本包含第一目标内容和第二目标类型的信息;获取问答处理模型输出的包含第二目标类型对应的第二目标内容的第一答案文本;将由文本样本、第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,第二提示文本包含第一目标内容和第三目标类型的信息;获取问答处理模型输出的包含第三目标类型对应的第三目标内容的第二答案文本;训练的目标包括:最小化第二答案文本包含的第三目标内容与对应第三目标内容标签之间的差异。
更进一步地,上述的训练目标还可以包括:最小化第一答案文本包含的第二目标内容与对应第二目标内容标签之间的差异。
作为其中一种可实现的方式,问答处理模型可以利用上述训练的目标构建损失函数,将预训练语言模型的参数作为初始参数,在此基础上在每一轮迭代中利用损失函数的取值,采用诸如梯度下降等方式更新问答处理模型的模型参数,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
例如,可以依据训练的目标构建的损失函数Loss的值,可以由第一损失函数Loss1的值和第二损失函数Loss2的值得到。例如:
Loss=αLoss1×βLoss2
其中,α和β为预设的加权系数。第一损失函数Loss1的值可以依据第一答案文本包含的第二目标内容与对应第二目标内容标签之间的差异得到,第二损失函数Loss2的可以依据第二答案文本包含的第三目标内容与对应第三目标内容标签之间的差异得到,Loss1和Loss2均可以采用诸如交叉熵损失函数等来实现。这种损失函数Loss能够综合考量第二目标内容和第三目标内容的准确性。
上述的第一训练结束条件可以采用诸如损失函数的取值小于或等于预设的第一损失函数阈值,迭代次数达到预设的第一迭代次数阈值,等等。
上述对本申请提供的方法实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种信息抽取装置。图6示出根据一个实施例的信息抽取装置的示意性框图。如图6所示,该装置600包括:文本获取单元601、第一目标获取单元602、第二目标获取单元603和第三目标获取单元604,还可以进一步包括第四目标获取单元605。其中各组成单元的主要功能如下:
文本获取单元601,被配置为获取待抽取文本。
第一目标获取单元602,被配置为获取待抽取文本中第一目标类型对应的第一目标内容。
第二目标获取单元603,被配置为将由待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,第一提示文本包含第一目标内容和第二目标类型的信息;获取问答处理模型输出的包含第二目标类型对应的第二目标内容的第一答案文本。
第三目标获取单元604,被配置为将由待抽取文本、第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,第二提示文本包含第一目标内容和第三目标类型的信息;获取问答处理模型输出的包含第三目标类型对应的第三目标内容的第二答案文本。
其中上述问答处理模型是基于预训练语言模型预先训练得到的。
其中,第一目标获取单元602可以采用但不限于以下方式获取待抽取文本中第一目标类型对应的第一目标内容:
第一种方式:获取用户指定的第一目标内容。
第二种方式:利用信息抽取模型从待抽取文本中抽取第一目标类型对应的第一目标内容。
第三种方式:将由待抽取文本和第四提示文本拼接得到的第四文本序列输入问答处理模型,第四提示文本包含第一目标类型的信息,从问答处理模型输出的第四答案文本中获取第一目标类型对应的第一目标内容。
更进一步地,第四目标获取单元605,可以被配置为将由待抽取文本、第一答案文本、第二答案文本和第三提示文本拼接得到的第三文本序列输入问答处理模型,第三提示文本包含第一目标内容和第四目标类型的信息;获取问答处理模型输出的包含第四目标类型对应的第四目标内容的第三答案文本。
作为其中一种可实现的方式,第一提示文本是将第一目标内容和第二目标类型的信息填入预设的第一问题模板中对应的槽位后得到的。
第二提示文本是将第一目标内容和第三目标类型的信息填入预设的第二问题模板中对应的槽位后得到的。
其中上述问答处理模型是基于预训练语言模型预先训练得到的。问答处理模型的相关原理和结构可以参见方法实施例中的相关记载,在此不做赘述。
根据另一方面的实施例,提供了一种训练问答处理模型的装置,该装置对应于图1所示系统架构中的模型训练装置。图7为本申请实施例提供的训练信息问答处理模型的装置示意性框图。如图7所示,该装置700包括:样本获取单元701和模型训练单元702。其中各组成单元的主要功能如下:
样本获取单元701,被配置为获取包括多个训练样本的训练数据,训练样本包括文本样本以及该文本样本被标注的第三目标类型对应的第三目标内容标签;
模型训练单元702,被配置为利用训练数据训练基于预训练语言模型的问答处理模型,其中,获取文本样本中第一目标类型对应的第一目标内容,将由文本样本和第一提示文本拼接得到的第一文本序列输入问答处理模型,第一提示文本包含第一目标内容和第二目标类型的信息;获取问答处理模型输出的包含第二目标类型对应的第二目标内容的第一答案文本;将由文本样本、第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,第二提示文本包含第一目标内容和第三目标类型的信息;获取问答处理模型输出的包含第三目标类型对应的第三目标内容的第二答案文本;训练的目标包括:最小化第二答案文本包含的第三目标内容与对应第三目标内容标签之间的差异。
更进一步地,上述训练样本还包括文本样本被标注的第二目标类型对应的第二目标内容标签。
相应地,训练的目标还包括:最小化第一答案文本包含的第二目标内容与对应第二目标内容标签之间的差异。
作为其中一种可实现的方式,第一提示文本是将第一目标内容和第二目标类型的信息填入预设的第一问题模板中对应的槽位后得到的。
第二提示文本是将第一目标内容和第三目标类型的信息填入预设的第二问题模板中对应的槽位后得到的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
其中,图8示例性的展示出了电子设备的架构,具体可以包括处理器810,视频显示适配器811,磁盘驱动器812,输入/输出接口813,网络接口814,以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,与存储器820之间可以通过通信总线830进行通信连接。
其中,处理器810可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器820可以采用ROM(ReadOnlyMemory,只读存储器)、RAM(RandomAccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作系统821,用于控制电子设备800的低级别操作的基本输入输出系统(BIOS)822。另外,还可以存储网页浏览器823,数据存储管理系统824,以及信息抽取装置/模型训练装置825等等。上述信息抽取装置/模型训练装置825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器820中,并由处理器810来调用执行。
输入/输出接口813用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口814用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线830包括一通路,在设备的各个组件(例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,与存储器820)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,存储器820,总线830等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来,该计算机程序产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
Claims (14)
1.一种信息抽取的方法,其特征在于,所述方法包括:
获取待抽取文本以及所述待抽取文本中第一目标类型对应的第一目标内容;
将由所述待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,所述第一提示文本包含第一目标内容和第二目标类型的信息;获取所述问答处理模型输出的包含所述第二目标类型对应的第二目标内容的第一答案文本;
将由所述待抽取文本、所述第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,所述第二提示文本包含第一目标内容和第三目标类型的信息;获取所述问答处理模型输出的包含所述第三目标类型对应的第三目标内容的第二答案文本;
其中所述问答处理模型是基于预训练语言模型预先训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述待抽取文本中第一目标类型对应的第一目标内容采用如下方式获取:
获取用户指定的第一目标内容;或者,
利用信息抽取模型从所述待抽取文本中抽取第一目标类型对应的第一目标内容;或者,
将由所述待抽取文本和第四提示文本拼接得到的第四文本序列输入问答处理模型,所述第四提示文本包含所述第一目标类型的信息,从所述问答处理模型输出的第四答案文本中获取所述第一目标类型对应的第一目标内容。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将由所述待抽取文本、所述第一答案文本、所述第二答案文本和第三提示文本拼接得到的第三文本序列输入问答处理模型,所述第三提示文本包含所述第一目标内容和第四目标类型的信息;获取所述问答处理模型输出的包含所述第四目标类型对应的第四目标内容的第三答案文本。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述第一提示文本是将所述第一目标内容和所述第二目标类型的信息填入预设的第一问题模板中对应的槽位后得到的;
所述第二提示文本是将所述第一目标内容和所述第三目标类型的信息填入预设的第二问题模板中对应的槽位后得到的。
5.一种信息抽取的方法,所述方法由云端服务器执行,其特征在于,所述方法包括:
获取来自于用户终端的待抽取文本,以及获取所述待抽取文本中第一目标类型对应的第一目标内容;
将由所述待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,所述第一提示文本包含第一目标内容和第二目标类型的信息;获取所述问答处理模型输出的包含所述第二目标类型对应的第二目标内容的第一答案文本;
将由所述待抽取文本、所述第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,所述第二提示文本包含第一目标内容和第三目标类型的信息;获取所述问答处理模型输出的包含所述第三目标类型对应的第三目标内容的第二答案文本;
利用所述第三目标内容生成抽取结果,将所述抽取结果返回给所述用户终端。
6.一种情感抽取方法,其特征在于,所述方法包括:
获取待抽取文本以及所述待抽取文本中的情感对象词;
将由所述待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,所述第一提示文本包含所述情感对象词和指示观点词的信息;获取所述问答处理模型输出的包含观点词的第一答案文本;
将由所述待抽取文本、所述第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,所述第二提示文本包含所述情感对象词和指示情感极性的信息;获取所述问答处理模型输出的包含情感极性的第二答案文本;
从所述第二答案文本中获取所述情感极性。
7.一种情感抽取方法,其特征在于,所述方法包括:
获取待抽取文本以及所述待抽取文本中的情感对象词;
将由所述待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,所述第一提示文本包含所述情感对象词和指示方面的信息;获取所述问答处理模型输出的包含方面词的第一答案文本;
将由所述待抽取文本、所述第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,所述第二提示文本包含所述情感对象词和指示观点词的类型信息;获取所述问答处理模型输出的包含观点词的第二答案文本;
将由所述待抽取文本、所述第一答案文本、第二答案文本和第三提示文本拼接得到的第三文本序列输入问答处理模型,所述第三提示文本包含所述情感对象词和指示情感极性的信息;获取所述问答处理模型输出的包含情感极性的第三答案文本;
从所述第三答案文本中获取所述情感极性。
8.一种训练问答处理模型的方法,其特征在于,所述方法包括:
获取包括多个训练样本的训练数据,所述训练样本包括文本样本以及该文本样本被标注的第三目标类型对应的第三目标内容标签;
利用所述训练数据训练基于预训练语言模型的问答处理模型,其中,获取所述文本样本中第一目标类型对应的第一目标内容,将由所述文本样本和第一提示文本拼接得到的第一文本序列输入问答处理模型,所述第一提示文本包含第一目标内容和第二目标类型的信息;获取所述问答处理模型输出的包含所述第二目标类型对应的第二目标内容的第一答案文本;将由所述文本样本、所述第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,所述第二提示文本包含第一目标内容和第三目标类型的信息;获取所述问答处理模型输出的包含所述第三目标类型对应的第三目标内容的第二答案文本;
所述训练的目标包括:最小化所述第二答案文本包含的第三目标内容与对应第三目标内容标签之间的差异。
9.根据权利要求8所述的方法,其特征在于,所述训练样本还包括所述文本样本被标注的第二目标类型对应的第二目标内容标签;
所述训练的目标还包括:最小化所述第一答案文本包含的第二目标内容与对应第二目标内容标签之间的差异。
10.根据权利要求8所述的方法,其特征在于,所述第一提示文本是将所述第一目标内容和所述第二目标类型的信息填入预设的第一问题模板中对应的槽位后得到的;
所述第二提示文本是将所述第一目标内容和所述第三目标类型的信息填入预设的第二问题模板中对应的槽位后得到的。
11.一种信息抽取装置,其特征在于,所述装置包括:
文本获取单元,被配置为获取待抽取文本;
第一目标获取单元,被配置为获取所述待抽取文本中第一目标类型对应的第一目标内容;
第二目标获取单元,被配置为将由所述待抽取文本和第一提示文本拼接得到的第一文本序列输入问答处理模型,所述第一提示文本包含第一目标内容和第二目标类型的信息;获取所述问答处理模型输出的包含所述第二目标类型对应的第二目标内容的第一答案文本;
第三目标获取单元,被配置为将由所述待抽取文本、所述第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,所述第二提示文本包含第一目标内容和第三目标类型的信息;获取所述问答处理模型输出的包含所述第三目标类型对应的第三目标内容的第二答案文本;
其中所述问答处理模型是基于预训练语言模型预先训练得到的。
12.一种训练问答处理模型的装置,其特征在于,所述装置包括:
样本获取单元,被配置为获取包括多个训练样本的训练数据,所述训练样本包括文本样本以及该文本样本被标注的第三目标类型对应的第三目标内容标签;
模型训练单元,被配置为利用所述训练数据训练基于预训练语言模型的问答处理模型,其中,获取所述文本样本中第一目标类型对应的第一目标内容,将由所述文本样本和第一提示文本拼接得到的第一文本序列输入问答处理模型,所述第一提示文本包含第一目标内容和第二目标类型的信息;获取所述问答处理模型输出的包含所述第二目标类型对应的第二目标内容的第一答案文本;将由所述文本样本、所述第一答案文本和第二提示文本拼接得到的第二文本序列输入问答处理模型,所述第二提示文本包含第一目标内容和第三目标类型的信息;获取所述问答处理模型输出的包含所述第三目标类型对应的第三目标内容的第二答案文本;所述训练的目标包括:最小化所述第二答案文本包含的第三目标内容与对应第三目标内容标签之间的差异。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10任一项所述的方法的步骤。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至10任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310485688.6A CN116662496A (zh) | 2023-04-28 | 2023-04-28 | 信息抽取方法、训练问答处理模型的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310485688.6A CN116662496A (zh) | 2023-04-28 | 2023-04-28 | 信息抽取方法、训练问答处理模型的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116662496A true CN116662496A (zh) | 2023-08-29 |
Family
ID=87708735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310485688.6A Pending CN116662496A (zh) | 2023-04-28 | 2023-04-28 | 信息抽取方法、训练问答处理模型的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116662496A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217315A (zh) * | 2023-09-22 | 2023-12-12 | 深圳智现未来工业软件有限公司 | 一种利用大语言模型生成高质量问答数据的方法及装置 |
CN117764062A (zh) * | 2023-12-07 | 2024-03-26 | 北京中科闻歌科技股份有限公司 | 一种基于大语言模型的统一信息抽取方法、介质及设备 |
-
2023
- 2023-04-28 CN CN202310485688.6A patent/CN116662496A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217315A (zh) * | 2023-09-22 | 2023-12-12 | 深圳智现未来工业软件有限公司 | 一种利用大语言模型生成高质量问答数据的方法及装置 |
CN117217315B (zh) * | 2023-09-22 | 2024-08-06 | 深圳智现未来工业软件有限公司 | 一种利用大语言模型生成高质量问答数据的方法及装置 |
CN117764062A (zh) * | 2023-12-07 | 2024-03-26 | 北京中科闻歌科技股份有限公司 | 一种基于大语言模型的统一信息抽取方法、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019200923A1 (zh) | 基于拼音的语义识别方法、装置以及人机对话系统 | |
CN117521675A (zh) | 基于大语言模型的信息处理方法、装置、设备及存储介质 | |
CN116662496A (zh) | 信息抽取方法、训练问答处理模型的方法及装置 | |
CN115309877B (zh) | 对话生成方法、对话模型训练方法及装置 | |
CN112527962A (zh) | 基于多模态融合的智能应答方法、装置、机器可读介质及设备 | |
CN111382261B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
EP4113357A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN111428023B (zh) | 话术推荐方法、装置和电子设备 | |
CN112699686A (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN116050425A (zh) | 建立预训练语言模型的方法、文本预测方法及装置 | |
US20230121838A1 (en) | Video question answering method, electronic device and storage medium | |
CN112668333A (zh) | 命名实体的识别方法和设备、以及计算机可读存储介质 | |
CN111414453A (zh) | 结构化文本生成方法、装置、电子设备及计算机可读存储介质 | |
CN111104516A (zh) | 一种文本分类方法、装置及电子设备 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN115640815A (zh) | 翻译方法、装置、可读介质及电子设备 | |
CN116432646A (zh) | 预训练语言模型的训练方法、实体信息识别方法及装置 | |
CN112182167A (zh) | 一种文本匹配方法、装置、终端设备和存储介质 | |
CN116662495A (zh) | 问答处理方法、训练问答处理模型的方法及装置 | |
CN118349849A (zh) | 一种生成式模型的训练方法及装置 | |
CN114676705B (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
CN117851613A (zh) | 预训练语言模型的编辑方法及装置 | |
CN117349515A (zh) | 搜索处理方法、电子设备和存储介质 | |
CN109002498B (zh) | 人机对话方法、装置、设备及存储介质 | |
CN116468038A (zh) | 信息抽取方法、训练信息抽取模型的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |