CN117195915B - 会话内容的信息提取方法、装置、计算机设备及存储介质 - Google Patents

会话内容的信息提取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN117195915B
CN117195915B CN202311464211.6A CN202311464211A CN117195915B CN 117195915 B CN117195915 B CN 117195915B CN 202311464211 A CN202311464211 A CN 202311464211A CN 117195915 B CN117195915 B CN 117195915B
Authority
CN
China
Prior art keywords
sample
key information
question
information extraction
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311464211.6A
Other languages
English (en)
Other versions
CN117195915A (zh
Inventor
梁鑫
邵纪春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN202311464211.6A priority Critical patent/CN117195915B/zh
Publication of CN117195915A publication Critical patent/CN117195915A/zh
Application granted granted Critical
Publication of CN117195915B publication Critical patent/CN117195915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种会话内容的信息提取方法、装置、计算机设备及存储介质,涉及人工智能领域。包括:基于第一提示信息,通过样本生成模型生成陈述语料对应的样本问答语料,样本问答语料中包括提问和回答;基于第二提示信息,通过样本生成模型提取样本问答语料的样本关键信息;基于样本问答语料和样本关键信息构建得到的训练样本,训练关键信息提取模型;通过训练得到的关键信息提取模型,从会话内容中提取关键信息。采用本申请实施例的方法,可以降低获取训练数据的成本、提高关键信息的提取质量。

Description

会话内容的信息提取方法、装置、计算机设备及存储介质
技术领域
本申请实施例涉及人工智能领域,特别涉及一种会话内容的信息提取方法、装置、计算机设备及存储介质。
背景技术
关键信息提取是指从文本中提取出与特定领域匹配的关键信息。例如,在人机交互对话过程中,需要从对话文本中提取出包含关键信息的文本。
相关技术中,可以采用基于预训练模型的有监督学习方法,通过采集特定领域的带标注的训练数据,对预训练模型进行微调,以实现对特定领域的信息提取。
然而,采用上述方法往往需要高昂的成本以获取带标注的训练数据。
发明内容
本申请实施例提供了一种会话内容的信息提取方法、装置、计算机设备及存储介质。所述技术方案如下:
一方面,本申请实施例提供了一种会话内容的信息提取方法,所述方法包括:
基于第一提示信息,通过样本生成模型生成陈述语料对应的样本问答语料,所述样本问答语料中包括提问和回答;
基于第二提示信息,通过所述样本生成模型提取所述样本问答语料的样本关键信息;
基于所述样本问答语料和所述样本关键信息构建得到的训练样本,训练关键信息提取模型;
通过训练得到的所述关键信息提取模型,从会话内容中提取关键信息。
另一方面,本申请实施例提供了一种会话内容的信息提取装置,所述装置包括:
语料生成模块,用于基于第一提示信息,通过样本生成模型生成陈述语料对应的样本问答语料,所述样本问答语料中包括提问和回答;
所述语料生成模块,还用于基于第二提示信息,通过所述样本生成模型提取所述样本问答语料的样本关键信息;
模型训练模块,用于基于所述样本问答语料和所述样本关键信息构建得到的训练样本,训练关键信息提取模型;
信息提取模块,用于通过训练得到的所述关键信息提取模型,从会话内容中提取关键信息。
另一方面,本申请实施例提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行,以实现如上述方面所述的会话内容的信息提取方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如上述方面所述的会话内容的信息提取方法。
另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如上述方面所述的会话内容的信息提取方法。
本申请实施例中,通过样本生成模型生成陈述语料对应的样本问答语料,并从样本问答语料中提取出样本关键信息,可以基于样本问答语料和样本关键信息构建用于训练关键信息提取模型的训练样本,从而大大减小了采集和标注训练样本带来的高昂成本;同时,通过训练得到的关键信息提取模型,可以从会话内容中提取出较为准确的关键信息。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的会话内容的信息提取方法的流程图;
图2是本申请一个示例性实施例提供的基于样本生成模型构建训练样本的示意图;
图3是本申请一个示例性实施例提供的对训练样本中的噪声样本进行过滤得到干净样本,并基于干净样本训练关键信息提取模型的流程图;
图4是本申请一个示例性实施例提供的高斯混合模型的示意图;
图5是本申请一个示例性实施例提供的关键信息提取模型的训练过程的示意图;
图6是本申请一个示例性实施例提供的关键信息提取模型的应用过程的示意图;
图7是本申请另一个示例性实施例提供的关键信息提取模型的训练过程的示意图;
图8是本申请一个示例性实施例提供的关键信息提取流程的示意图;
图9是本申请另一个示例性实施例提供的关键信息提取模型的应用过程的示意图;
图10是本申请一个示例性实施例提供的会话内容的信息提取装置的结构框图;
图11是本申请一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
关键信息提取是指从文本中提取出与特定领域匹配的关键信息。本申请以人机交互对话过程中的关键信息提取为例进行说明。在人机交互对话的场景下,可能需要从对话文本中提取用户基本信息、对特定问题的回答等信息。例如,用户可以基于终端,通过语音或文字的形式回答终端提出的一系列问题,在人机交互对话过程中实现数据的采集。
在人机交互对话过程中,终端可以依照会话顺序逻辑,依次显示预先定义好的多轮问题。例如第一轮问题询问基本信息,第二轮问题询问针对A信息的相关问题,第三轮问题询问针对B信息的相关问题等。
相关技术中,可以采用基于预训练模型的有监督学习方法,通过采集特定领域的带标注的训练数据,对预训练模型进行微调,以实现对特定领域的信息提取。然而,采用上述方法往往需要高昂的成本以获取带标注的训练数据。在人机交互对话的场景下,包含多轮会话内容及训练标签的训练样本数量较少,采集训练数据的成本较高。
需要说明的是,本申请以人机交互对话场景下的关键信息提取为例进行说明,但不构成对具体使用场景的任何限定,本申请提出的会话内容的信息提取方法可以应用于各种会话内容场景,例如人口普查、市场调研、用户研究或访谈中。
需要说明的是,本申请在收集用户的相关数据(如针对提问的回答)的过程中,可以显示提示界面、弹窗或输出语音提示信息,该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据,使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后,才开始执行获取用户相关数据的相关步骤,否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时),结束获取用户相关数据的相关步骤,即不获取用户的相关数据。换句话说,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息、用户的实时位置)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的用户的出行地点等都是在充分授权的情况下获取的。
为减少训练样本获取的成本,本申请实施例中采用预训练的生成式模型生成训练样本,以实现对关键信息提取模型的训练,训练得到的关键信息提取模型可以用于实际会话的关键信息提取任务中。
参见图1,图1是本申请一个示例性实施例提供的会话内容的信息提取方法的流程图。该流程图包括以下步骤。
步骤101,基于第一提示信息,通过样本生成模型生成陈述语料对应的样本问答语料,样本问答语料中包括提问和回答。
陈述语料是用于生成样本问答语料的数据。例如,在人机交互对话场景下,陈述语料可以是通过新闻媒体、公众号、资讯平台等多种渠道收集到的与人机交互对话相关的内容文本。
仅作示例的,一条陈述语料可以为“小王10点30分从广州南站乘坐地铁到达白云机场”。
样本问答语料是基于陈述语料生成的包含提问和回答的语料。其中,提问是针对陈述语料进行的提问,回答是基于陈述语料生成的回答。
在一些实施例中,回答可以为陈述语料,也可以为基于陈述语料生成的其他内容。
仅作示例的,一条样本问答语料可以为“小王几点出发(问题)-小王10点30分从广州南站乘坐地铁到达白云机场(回答)”,也可以为“小王几点出发(问题)-小王10点30分出发(回答)”。
样本生成模型是预训练的生成式模型,用于生成训练关键信息提取模型的训练样本。
在一些实施例中,样本生成模型可以为LLaMA模型(Large Language Model MetaAI,Meta AI 发布的大型基础语言模型)及其子孙模型、T5模型(Text-to-Text TransferTransformer,文本转文本编码器)、GPT模型(Generative Pre-training Transformer,生成式预训练变换器)及其子孙模型,或是其他开源预训练的大语言模型等。
Prompt(提示信息)是指自然语言处理领域中对预训练的大语言模型进行提示的输入信息,用于提供给模型输入文本,以指导模型生成合适的回答。
第一提示信息用于提示样本生成模型基于陈述语料生成对应的样本问答语料。
在一些实施例中,第一提示信息可以用于提示样本生成模型生成陈述语料对应的提问。
仅作示例的,第一提示信息可以为“以上这句话的内容为回答,生成该回答对应的问句形式”,以提示样本生成模型生成陈述语料对应的提问。
步骤102,基于第二提示信息,通过样本生成模型提取样本问答语料的样本关键信息。
样本关键信息是从样本问答语料中提取出的关键信息。
在一些实施例中,提取关键信息可以包括提取实体、实体关系或事件等任务。
仅作示例的,样本问答语料“请问你的出行地点是什么(问题)-昨天上午8点从广州南站出发(回答)”,从中提取出的样本关键信息为“地点:广州南站”,其中,该样本关键信息为实体信息。
第二提示信息用于提示样本生成模型基于样本问答语料生成对应的样本关键信息。
在一些实施例中,第二提示信息可以包含与样本问答语料的提问类型匹配的正确类型提示信息,以提示样本生成模型生成该提问类型的答案。
在一些实施例中,第二提示信息还可以包含与样本问答语料的提问类型不匹配的错误类型提示信息,以提升样本生成模型的预测能力。
仅作示例的,对于样本问答语料“请问你的出行地点是什么(问题)-昨天上午8点从广州南站出发(回答)”,第二提示信息可以为“以上对话中的“地点,籍贯,年龄”实体类型的有哪些”,其中,“地点”为与样本问答语料的提问类型匹配的正确类型提示信息,“籍贯”和“年龄”为与样本问答语料的提问类型不匹配的错误类型提示信息。
步骤103,基于样本问答语料和样本关键信息构建得到的训练样本,训练关键信息提取模型。
关键信息提取模型是预训练的生成式模型,用于从会话内容中提取关键信息。
在一些实施例中,关键信息提取模型可以为T5模型。
在一些实施例中,关键信息提取模型可以包括UIE模型(Universal InformationExtraction,统一信息提取模型),用于对实体、实体关系以及事件提取任务进行统一提取。
在一些实施例中,可以将样本问答语料作为关键信息提取模型的输入,将样本关键信息作为监督,对关键信息提取模型进行训练。
由于训练样本中的样本问答语料和样本关键信息都是样本生成模型基于陈述语料生成的,因此,不需要人工进行训练样本的采集、标注等操作,大大减少了训练数据采集的成本。
在一些实施例中,由于样本生成模型生成的训练样本中可能存在噪声样本,因此,还可以对训练样本进行过滤,得到干净样本,再基于干净样本训练样本生成模型,以使得训练得到的关键信息提取模型的预测结果更加准确。关于对训练样本进行过滤的更多内容参见图3、图4及其相关描述,在此不再赘述。
步骤104,通过训练得到的关键信息提取模型,从会话内容中提取关键信息。
会话内容包括提问内容和回答内容。
在一些实施例中,会话内容可以包含按照顺序进行的多轮会话内容。例如,在人机交互对话场景下,会话内容可以包括第一轮对基础信息的提问内容和回答内容“你的年龄为多少岁(问题)-40岁(回答)”,第二轮针对A信息的提问内容和回答内容“你对A信息的了解程度如何(问题)-不太了解(回答)”……等等。
在一些实施例中,在会话内容包含按照顺序进行的多轮会话内容的情况下,可以基于当前轮会话内容和从前轮会话内容中提取出的前轮关键信息,通过关键信息提取模型进行提取,以更好地结合前轮会话中的上文信息进行预测,从而提升关键信息的提取质量。关于在多轮会话内容下结合前轮关键信息进行关键信息提取的更多内容参见图9及其相关描述,在此不再赘述。
综上所述,通过样本生成模型生成陈述语料对应的样本问答语料,并从样本问答语料中提取出样本关键信息,可以基于样本问答语料和样本关键信息构建用于训练关键信息提取模型的训练样本,从而大大减小了采集和标注训练样本带来的高昂成本;同时,通过训练得到的关键信息提取模型,可以从会话内容中提取出较为准确的关键信息。
在通过样本生成模型,基于陈述语料生成样本问答语料之前,可以利用少量有监督的样本对预训练的样本生成模型进行微调(fine-tune),以提升样本生成模型从提问-回答形式的会话数据中进行学习的能力。
参见图2,图2是本申请一个示例性实施例提供的基于样本生成模型构建训练样本的示意图。
如图2所示,关于基于样本生成模型构建训练样本的过程,包括以下4个步骤。
步骤S1,微调。通过少量的样本监督语料201和第二提示信息212,对预训练的样本生成模型220进行训练。
其中,样本监督语料包括提问、回答和关键信息标注。样本监督语料的数量相对较少,因此关键信息标注可以采用人工标注获取。
示例性的,一条样本监督语料可以为“请问你的出行地点是什么(问题)-昨天上午8点从广州南站出发(回答)-出行地点:广州南站(关键信息标注)”。
其中,第二提示信息212用于提示样本生成模型基于样本问答语料生成对应的样本关键信息。例如,第二提示信息212可以为“会话中实体类型为出发地点的有哪些”在一些实施例中,第二提示信息还可以包含正确类型提示信息和错误类型提示信息。
示例性的,以下是实体提取任务对应的一条样本监督语料:
{“token”:“”“请问你的出发地点是什么”/>n“从广州南站出发”/>n“关键字:出发、地点/>n”/>n以上对话中的“地点,籍贯,年龄”/>“实体类型的有哪些/>n”,“target_token”:“广州南站|地点”}。
示例性的,以下是实体关系提取任务对应的一条样本监督语料:
{“token”:“”“请问你的出发地点是什么”/>n“从广州南站出发”/>n“关键字:出发、地点/>n”/>n以上对话中的“出发地,工作地,亲属成员”/>“实体类型的有哪些/>n”,“target_token”:“广州南站|出发地”}。
示例性的,以下是事件提取任务对应的一条样本监督语料:
{“token”:“”“请问你的出发地点是什么”/>n“从广州南站出发”/>n“关键字:出发、地点/>n”/>n以上对话中的“出发事件,出发,亲属成员”/>“实体关系类型的有哪些/>n”,“target_token”:“广州南站|出发事件”}。
在一些实施例中,可以将第二提示信息212、样本监督语料201中的提问以及回答作为样本生成模型220的输入,将样本监督语料201中的关键信息标注作为监督,训练样本生成模型220。
通过少量有监督的样本监督语料对样本生成模型做微调,可以使得样本生成模型从问题-回答-关键信息形式的会话内容中进行学习,以更好地在后续过程中生成样本问答语料。
步骤S2,生成原始提问。
在一些实施例中,可以基于第一提示信息211,通过样本生成模型220生成陈述语料202对应的原始提问231。
其中,第一提示信息211用于提示样本生成模型基于陈述语料生成对应的原始提问。例如,第一提示信息211可以为“以上这句话的内容为回答,生成该回答对应的问句形式”。
示例性的,陈述语料202为“小王10点30分从广州南站乘坐地铁到达白云机场”,第一提示信息211为“以上这句话的内容为回答,生成该回答对应的问句形式”,生成的原始提问231为“从哪里出发”。
在人机交互对话的场景下,会话内容中的提问内容可能为预先设置好的标准问题,而样本生成模型生成的原始提问可能不同于标准提问。
因此,还可以基于标准提问与原始提问的相似度对原始提问进行转换。
步骤S3,生成样本问答语料。
在一种可能的实现方式中,可以为参与人机交互对话的用户设置预先定义好的标准问题。示例性的,标准问题可以包括“出行地点在哪里”等。
在通过样本生成模型基于陈述语料生成样本问答语料的过程中,为了对样本问答语料中的提问进行标准化,可以基于标准提问对原始提问进行相似度匹配。
在原始提问231与至少一个标准提问的相似度大于相似度阈值的情况下,基于相似度最高的标准提问232和陈述语料202,生成样本问答语料241。
示例性的,原始提问231为“从哪里出发”,相似度最高的标准提问232为“出行地点在哪里”,则可以基于标准提问232和陈述语料202,生成样本问答语料241。
在一些实施例中,陈述语料可以直接作为标准提问232对应的回答。如样本问答语料241可以为“出行地点在哪里(问题)-小王10点30分从广州南站乘坐地铁到达白云机场(回答)”。
在一些实施例中,样本生成模型可以基于陈述语料生成标准提问232对应的回答。如样本问答语料241可以为“出行地点在哪里(问题)-出行地点为广州南站(回答)”。
以下是生成样本问答语料的一个示例性说明。
陈述语料:“昨天上午8点从广州南站出发”;
第一提示信息:“以上这句话的内容为回复,生成该回复对应的问句形式”;
样本生成模型生成的原始提问:“你是在什么时间、从哪里出发”;
基于原始提问和标准提问进行关键字标签相似度匹配,得到匹配的关键字:时间、出发、地点;
与原始提问相似度最高的标准提问:“请问你的出行时间是什么”,“请问你的出发地点是什么”;
生成的样本问答语料1:“请问你的出行时间是什么(问题)-昨天上午8点从广州南站出发(回答)”;
生成的样本问答语料2:“请问你的出发地点是什么(问题)-昨天上午8点从广州南站出发(回答)”。
步骤S4,提取样本问答语料的样本关键信息。
在一些实施例中,可以基于第二提示信息212,通过样本生成模型220提取样本问答语料241的样本关键信息251。
示例性的,输入样本生成模型220的样本问答语料241为“出行地点在哪里(问题)-出行地点为广州南站(回答)”,第二提示信息212为“会话中实体类型为出发地点的有哪些”,样本生成模型220输出的样本关键信息251为“出发地点:广州南站”。
以下是以实体提取任务为例,对提取样本关键信息的一个示例性说明。
样本生成模型的输入(包含样本问答语料和第二提示信息):
{“token”:“以下对话中的实体有哪些n对话:/>”“请问你的出发地点是什么”“昨天上午8点从广州南站出发”/>n候选类型:/>“籍贯,地点,性别,亲属/>”,/>n答案};
样本生成模型的输出(包含提取出的样本关键信息):
{“token”:“以下对话中的实体有哪些n对话:/>”“请问你的出发地点是什么”“昨天上午8点从广州南站出发”/>n候选类型:/>“籍贯,地点,性别,亲属/>”,/>n答案,“target_token”:“广州南站|地点”}。
至此,已经获取到了样本问答语料以及对应的样本关键信息,因此可以基于样本问答语料和样本关键信息构建得到训练样本。
步骤S5,基于样本问答语料241和样本关键信息251构建训练样本261。
示例性的,一条训练样本可以为“出行地点在哪里(问题)-出行地点为广州南站(回答)-出发地点:广州南站(关键信息)”。
本实施例中,通过少量有监督的样本监督语料对样本生成模型进行微调,可以使得样本生成模型从问题-回答-关键信息形式的会话内容中进行学习,以更好地在后续过程中生成样本问答语料;基于第一提示信息和陈述语料,可以通过样本生成模型生成陈述语料对应的原始提问;为了对原始提问进行标准化,可以基于标准提问对原始提问进行相似度匹配,以生成包含标准提问的样本问答语料;将样本问答语料和第二提示信息输入样本生成模型,可以提取样本问答语料中的样本关键信息,从而基于样本问答语料和样本关键信息构建得到训练样本,用于后续过程中训练关键信息提取模型。
由于训练样本是基于样本生成模型生成出来的,而不是人工标注得来的,一方面,可以大大减小关键信息提取模型的训练数据采集和标注成本;另一方面,也导致了生成的训练样本中可能存在不准确的噪声样本,因此,为提升训练样本的质量,在一些实施例中,可以基于样本问答语料和样本关键信息构建得到训练样本,过滤训练样本中的噪声样本,得到干净样本,并基于干净样本训练关键信息提取模型。
其中,噪声样本中的样本关键信息不准确。示例性的,一条噪声样本可能为“出行地点在哪里(问题)-小王10点30分从广州南站乘坐地铁到达白云机场(回答)-到达地点:广州南站(样本关键信息)”,其中,样本关键信息的提取有误。
参见图3,图3是本申请一个示例性实施例提供对训练样本中的噪声样本进行过滤得到干净样本,并基于干净样本训练关键信息提取模型的流程图。该流程图包括以下步骤。
步骤310,基于样本问答语料和样本关键信息构建得到训练样本。
示例性的,样本问答语料为“出行地点在哪里(问题)-出行地点为广州南站(回答)”,样本关键信息为“出发地点:广州南站”,则可以将样本问答语料和样本关键信息拼接为训练样本“出行地点在哪里(问题)-出行地点为广州南站(回答)-出发地点:广州南站(关键信息)”。
步骤320,对训练样本中的噪声样本进行过滤,得到干净样本。
关于对噪声样本进行过滤的方法,本申请实施例提供以下三种方式中的至少一种或其组合以对噪声样本进行过滤。
步骤321,基于信息提取损失,通过高斯混合模型过滤噪声样本。
高斯混合模型(Gaussian Mixture Models,GMM)是一种用于聚类和密度估计的统计模型,它假设数据集是由多个高斯分布组成的混合物。这些高斯分布在数据集中随机出现,并且每个高斯分布都有自己的均值和方差。
对于神经网络的研究表明,神经网络在早期训练阶段先拟合干净样本,再过拟合噪声样本。因此,神经网络对于干净样本和噪声样本会表现出不同的损失值,噪声样本对应的损失值通常更大。因此,可以通过不同训练样本在关键信息提取模型上对应的信息提取损失将训练样本确定为干净样本或噪声样本。
在一些实施例中,可以假设干净样本和噪声样本的损失服从高斯分布,干净样本和噪声样本的损失具有分布不同均值和方差。
在一些实施例中,可以将样本问答语料输入至关键信息提取模型,得到关键信息提取结果,并基于关键信息提取结果和样本关键信息的差异,确定信息提取损失。
可选的,信息提取损失可以为各种类型的损失,如均方误差损失或交叉熵损失等,本申请对损失函数的具体形式不作任何限制。
在一些实施例中,可以基于信息提取损失,通过高斯混合模型,确定训练样本属于第一高斯分布的概率。
其中,高斯混合模型混合第一高斯分布和第二高斯分布,第二高斯分布表征噪声样本对应的信息提取损失的分布,第一高斯分布表征干净样本对应的信息提取损失的分布。
关于高斯混合模型混合第一高斯分布和第二高斯分布,可以通过以下公式表示:
其中,表示第一高斯分布或第二高斯分布的概率密度,/>表示混合系数,表示高斯混合模型的概率密度;
关于确定训练样本属于第一高斯分布的概率的方式,可以通过如下公式进行计算:
其中,表征第i个训练样本为干净样本的概率,/>代表第i个训练样本在关键信息提取模型上对应的信息提取损失,p代表概率密度。
参见图4,图4是本申请一个示例性实施例提供的高斯混合模型的示意图。
如图4所示,高斯混合模型中包含第一高斯分布410和第二高斯分布420,其中,第一高斯分布410对应于相对更小的信息提取损失,表征干净样本对应的信息提取损失分布,第二高斯分布420对应于相对更大的信息提取损失,表征噪声样本对应的信息提取损失分布。
在概率高于概率阈值的情况下,可以将训练样本确定为干净样本。
仅作示例的,概率阈值可以为0.5。即,则>0.5的训练样本属于干净样本的概率比较大,因此选取这部分样本作为干净样本来对关键信息提取模型进行训练。
在训练关键信息提取模型的过程中,从训练前期到训练后期,关键信息提取模型的预测能力逐渐提升,因此,可以基于训练后期的关键信息提取模型重新确定训练样本的信息提取损失,从而用于对关键信息提取模型后续更进一步的训练,以起到更好的训练效果。
在一些实施例中,可以基于第k轮训练得到的关键信息提取模型对训练样本的关键信息提取结果,过滤训练样本中的噪声样本,得到第k+1轮干净样本,并基于第k+1轮干净样本对关键信息提取模型进行第k+1轮训练。
本实施例中,基于信息提取损失,通过高斯混合模型过滤噪声样本,可以用属于干净样本的概率较大的训练样本来训练关键信息提取模型,使得关键信息提取模型可以具有更高的预测精度;通过多轮训练中第k轮训练得到的关键信息提取结果过滤训练样本中的噪声样本,得到第k+1轮干净样本,以对关键信息提取模型进行第k+1轮训练,可以不断提升关键信息提取模型的预测精度,起到更好的训练效果。
步骤322,在一些实施例中,可以基于不同的第二提示信息,过滤噪声样本。
为基于样本生成模型从样本问答语料中提取样本关键信息,可以将第二提示信息输入样本生成模型,第二提示信息用于提示生成对应的样本关键信息。
在一些实施例中,第二提示信息可以包括与样本问答语料的提问类型匹配的正确类型提示信息,以及与样本问答语料的提问类型不匹配的错误类型提示信息。
示例性的,以实体关系提取任务为例,样本问答语料为“请问你的出发地点是什么(问题)-从广州南站出发(回答)”,第二提示信息为“以上对话中是实体关系类型“出发地,工作地,亲属成员”的有哪些”,其中,“出发地”是正确类型提示信息,“工作地”和“亲属成员”为错误类型提示信息。
在一些实施例中,可以确定与样本问答语料的提问类型匹配的正确类型提示信息。
例如,与样本问答语料“请问你的出发地点是什么(问题)-从广州南站出发(回答)”的提问类型匹配的正确类型提示信息为“出发地”。
在一些实施例中,可以确定不同于正确类型提示信息的错误类型提示信息。
例如,可以从不同标准提问对应的提问类型库中随机选择其他提问类型对应的提示信息作为错误类型提示信息。
在一些实施例中,可以基于包含正确类型提示信息和第一错误类型提示信息的第二提示信息,通过样本生成模型提取样本问答语料的第一样本关键信息;基于包含正确类型提示信息和第二错误类型提示信息的第二提示信息,通过样本生成模型提取样本问答语料的第二样本关键信息;在第一样本关键信息和第二样本关键信息不一致的情况下,将训练样本作为噪声样本进行过滤,得到干净样本。
例如,基于正确类型提示信息“出发地”和第一错误类型提示信息“工作地、亲属成员”通过样本生成模型提取样本问答语料的第一样本关键信息为“出发地:广州南站”;基于正确类型提示信息“出发地”和第二错误类型提示信息“到达地、出行时间”通过样本生成模型提取样本问答语料的第一样本关键信息为“出发地:白云机场”,则第一样本关键信息和第二样本关键信息不一致,说明该条训练样本的稳定性不高,因此将该条训练样本作为噪声样本进行过滤。
本实施例中,基于不同的第二提示信息,可以通过样本生成模型从样本问答语料中提取出第一样本关键信息和第二样本关键信息,在二者不一致的情况下,说明该条训练样本的稳定性不高,将该条训练样本作为噪声样本进行过滤,可以用稳定性更高的干净样本来训练关键信息提取模型,以提升关键信息提取模型的预测效果。
步骤323,基于对样本问答语料的聚类结果,过滤噪声样本。
在一些实施例中,可以通过无监督聚类算法,对样本问答语料进行聚类,得到多个聚类结果,其中,不同聚类结果对应于不同提问类型。
可选的,无监督聚类算法包括但不限于K-Means算法、Agglomerative Clustering算法或Affinity Propagation算法等,本申请实施例对无监督聚类算法的具体类型不作限制。
示例性的,通过无监督聚类算法,可以得到“出发地”提问类型对应的聚类结果、“目的地”提问类型对应的聚类结果、“出行时间”提问类型对应的聚类结果、“同行人员”提问类型对应的聚类结果等多种聚类结果。
在一些实施例中,在样本问答语料所属的聚类结果对应的提问类型,与样本问答语料对应的样本关键信息的提问类型不一致的情况下,将训练样本作为噪声样本进行过滤,得到干净样本。
对于干净样本来说,其样本问答语料所属的聚类结果对应的提问类型,与样本关键信息的提问类型应当保持一致。例如,干净样本对应的样本问答语料为“请问你的出发地点是什么(问题)-从广州南站出发(回答)”,其所属的聚类结果对应的提问类型为出发地,则对应的样本关键信息“出发地:广州南站”的提问类型也为出发地。因此,将样本问答语料所属的聚类结果对应的提问类型,与样本问答语料对应的样本关键信息的提问类型不一致的训练样本,作为噪声样本进行过滤,可以提升训练样本的质量,以后续训练得到预测效果更好的关键信息提取模型。
需要说明的是,上述提出的三种对训练样本中的噪声样本进行过滤的方式仅作示例,本领域技术人员可以理解,还可以通过其他可能的方式进行噪声过滤,本申请实施例对此不作限制。
在对训练样本中的噪声样本进行过滤,得到干净样本之后,可以直接用干净样本训练关键信息提取模型,也可以基于干净样本构建增强训练样本,以进一步对训练样本进行增强。
步骤330,基于干净样本构建增强训练样本。
在一些实施例中,可以采用mixup技术来进行正则化训练。
在一些实施例中,可以对至少两个干净样本对应的样本问答语料进行加权,得到样本加权问答语料;将至少两个干净样本对应的样本关键信息进行加权,得到样本加权关键信息;基于样本加权问答语料和样本加权关键信息,构建增强训练样本。
以对两个干净样本进行加权为例,可以用以下公式表示样本加权问答语料和样本加权关键信息/>
其中,和/>代表两个干净样本的样本问答语料,/>和/>代表两个干净样本的样本关键信息,/>为加权权重。
采用上述mixup技术通过线性插值的方法可以生成增强训练样本。增强训练样本可以用于给关键信息提取模型引入先验知识,以提升关键信息提取模型的泛化能力。
步骤340,基于干净样本和增强训练样本训练关键信息提取模型。
关于对关键信息提取模型进行训练的过程,在一些实施例中,可以将干净样本和增强训练样本的样本问答语料中标准提问对应的提问类型标识符,以及陈述语料输入至关键信息提取模型,得到关键信息提取结果。
其中,提问类型标识符用于标识标准提问对应的提问类型。例如,对于标准提问“出行地在哪里”,可以用标识符“<Q:cx>”表征;对于标准提问 “目的地在哪里”,可以用标识符“<Q:md>”表征。
在一些实施例中,基于关键信息提取结果与样本关键信息的差异,确定信息提取损失,并基于信息提取损失训练关键信息提取模型。
可选的,信息提取损失可以为各种类型的损失,如均方误差损失或交叉熵损失等,本申请对损失函数的具体形式不作任何限制。
在上述训练方式下,关键信息提取模型的推理过程可以基于以下过程进行描述。
在一些实施例中,可以确定会话内容中提问对应的提问类型标识符,并将提问类型标识符以及会话内容中的回答输入至关键信息提取模型,得到关键信息。
本实施例中,对训练样本中的噪声样本进行过滤,可以得到较为准确的干净样本,从而提升关键信息提取模型的预测效果;通过对干净样本采用mixup技术得到增强训练样本,可以给关键信息提取模型引入先验知识,以提升关键信息提取模型的泛化能力。
在一些实施例中,关键信息提取模型为用于对实体提取任务、实体关系提取任务和事件提取任务进行统一提取的模型,例如,关键信息提取模型可以为UIE模型。
参见图5,图5是本申请一个示例性实施例提供的关键信息提取模型的训练过程的示意图。
在一些实施例中,可以对训练样本中的样本关键信息503进行格式转化,得到结构化提取语言SEL格式的样本关键信息540,用于训练过程的监督。
其中,SEL格式(Structured Extraction Language,结构化提取语言)用于对不同类型的关键信息提取任务进行统一编码,关键信息提取任务的类型包括实体提取任务、实体关系提取任务和事件提取任务中的至少一种。
如图6中的关键信息631即是一个SEL格式的结构化数据。
SEL格式由定位(Spotting)和关联(Associating)两部分构成。其中,定位用于定位到目标信息片段,关联用于找出目标信息片段之间的关联关系。
SEL格式可以通过以下形式表征:
(Spot Name:Info Span)
(Asso Name:Info Span)
(Asso Name:Info Span)
其中,Spot Name指目标信息片段的类别,例如在实体提取中指具体的实体类别。Info Span指Spotting操作的输出,即对话文本中的目标信息片段。Asso Name指两个目标信息片段之间的关系类型,也就是Associating操作的输出。
示例性的,对于会话内容“我2022年在A公司上班”进行关系提取、事件提取、命名实体识别就可以统一生成如图6中SEL格式的关键信息631。
对于关键信息提取模型520(UIE模型)的训练过程,在一些实施例中,可以对结构模式指导文本(SSI)501和陈述语料502进行拼接,得到样本拼接文本511。
其中,结构模式指导文本SSI为不同类型的关键信息提取任务的提示信息。SSI(Structural Schema Instructor)又称为结构化模式提示器,属于一种基于schema的prompt机制,用于控制不同的生成需求;SSI中的所有标记都被连接起来,并放在输入的陈述语料之前。在陈述语料前拼接上相应的Schema Prompt,得到相应的SSI结构语言。
不同提取任务的SSI结构语言形式分别可以通过如下方式进行表示:
实体提取任务:[spot] 实体类别 [text];
关系提取任务:[spot] 实体类别 [asso]关系类别 [text];
事件提取任务:[spot] 事件类别 [asso]论元类别 [text]。
如图6中所示的拼接文本611即是对会话内容“我2022年在A公司上班”采用结构模式指导文本SSI进行拼接得到的拼接文本。
在一些实施例中,可以将样本问答语料中标准提问对应的提问类型标识符512,以及样本拼接文本511输入关键信息提取模型520,得到关键信息提取结果530,其中,关键信息提取结果采用SEL格式。
在一些实施例中,可以基于SEL格式的关键信息提取结果530,以及SEL格式的样本关键信息540的差异,确定信息提取损失,并基于信息提取损失训练关键信息提取模型520。
本实施例中,通过对样本关键信息进行格式转换,可以用SEL格式的样本关键信息作为监督训练关键信息提取模型,以实现对于不同类型的关键信息提取任务的统一提取。
基于上述方式训练完成的关键信息提取模型可以用于从会话内容中统一提取出不同类型的关键信息。
参见图6,图6是本申请一个示例性实施例提供的关键信息提取模型的应用过程的示意图。
如图6所示,对结构模式指导文本SSI和会话内容中的回答进行拼接,得到拼接文本611。
示例性的,“[spot]person[asso]work for…”为实体关系提取对应的提示信息,“[spot]organization[asso]employee…”为事件提取对应的提示信息,“[spot]person[spot]organization[spot]time”为实体提取对应的提示信息,“我2022年在A公司上班”为会话内容中的回答。
在一些实施例中,可以将提问类型标识符612,以及拼接文本611输入关键信息提取模型620,得到关键信息631,其中,关键信息631采用SEL格式,用于对不同类型的关键信息提取任务进行统一编码。
在一种可能的场景中,会话内容包括按照顺序进行的多轮会话,因此,当前轮回答可能会与之前轮已经进行的会话内容相关。
示例性的,按照顺序进行的多轮会话中,第三轮会话的提问是“你的上班地点在哪”,回答是“A公司”;第六轮会话的提问是“今天的行程轨迹是什么”,回答是“今天我去公司了”,则需要结合第三轮的相关信息提取第六轮中的关键信息。
然而,如果将前轮的全部会话内容均作为提取当前轮会话内容的输入,则会包含较多的冗杂信息,影响关键信息提取模型的判断和性能。因此,本申请实施例所采用的方式是将前轮会话中提取得到的前轮关键信息作为当前轮的输入,以使得关键信息提取模型能够结合上文的关键信息提取结果进行预测,从而提升提取出的当前轮关键信息的质量。
在样本问答语料中包含按照顺序进行的多轮会话的情况下,关键信息提取模型还可以通过如下方式进行训练。
参见图7,图7是本申请另一个示例性实施例提供的关键信息提取模型的训练过程的示意图。
如图7所示,可以基于会话顺序,确定当前轮样本问答语料711对应的前轮样本问答语料712。
在一种可能的实现方式中,在多轮会话的场景下,多轮会话的会话顺序是预先确定的(例如人机交互对话场景下第一轮提问是对基本信息提问、第二轮提问是针对A信息的相关提问、第三轮提问是针对B信息的相关提问等),因此可以对样本生成模型生成的多个训练样本按照会话顺序进行组合,以确定当前轮样本问答语料711对应的前轮样本问答语料712。
可选的,前轮样本问答语料712可以是当前轮样本问答语料711之前的全部或部分轮次的样本问答语料,例如,可以是前1轮、前3轮或是前面所有轮次的样本问答语料。
在一些实施例中,可以将当前轮样本问答语料711,以及前轮样本问答语料712对应的前轮样本关键信息713输入关键信息提取模型720,得到关键信息提取结果731。
其中,前轮样本关键信息713由关键信息提取模型720提取得到。即,前轮样本关键信息713是之前轮次对应的关键信息提取结果。
在一些实施例中,可以基于关键信息提取结果731和样本关键信息741的差异,确定信息提取损失;并基于信息提取损失训练关键信息提取模型720。
可选的,信息提取损失可以为各种类型的损失,如均方误差损失或交叉熵损失等,本申请对损失函数的具体形式不作任何限制。
采用上述训练方式训练完成的关键信息提取模型,可以用于结合前轮会话内容对当前轮的关键信息进行预测。
在一些实施例中,在会话内容包括按照顺序进行的多轮会话的情况下,可以将会话内容中的第i轮会话内容,以及第i轮会话内容的前轮会话内容对应的前轮关键信息输入至关键信息提取模型,提取得到第i轮会话内容中的第i轮关键信息。
其中,前轮关键信息由关键信息提取模型提取得到,i为大于1的整数。
本实施例中,在关键信息提取模型的训练过程中,将前轮问答语料对应的前轮关键信息作为输入,可以使得关键信息提取模型学习到基于上文的关键信息提取结果进行预测,从而提升关键信息提取的质量,同时,由于仅输入了前轮关键信息而不是输入前轮的全部会话内容,因此可以减少冗杂信息对模型预测结果的干扰。
参见图8,图8是本申请一个示例性实施例提供的关键信息提取流程的示意图。
如图8所示,关键信息提取流程包括三个阶段,分别为训练样本生成阶段810、训练样本过滤和增强阶段820以及关键信息提取模型训练和应用阶段830。
在训练样本生成阶段810中,首先通过少量有监督的样本监督语料对样本生成模型做微调,可以使得样本生成模型从问题-回答-关键信息形式的会话内容中进行学习,以更好地在后续过程中生成样本问答语料。
接着基于陈述语料和第一提示信息,通过微调后的样本生成模型生成样本问答语料,并基于第二提示信息从样本问答语料中提取出样本关键信息,以构建训练样本。
关于训练样本生成阶段的更多内容参见图2及其相关描述,在此不再赘述。
在训练样本过滤和增强阶段820中,通过一种或多种可选的方式对训练样本中的噪声样本进行过滤,以得到干净样本,并基于干净样本构建增强训练样本,以用来更好地训练关键信息提取模型。关于对训练样本过滤和增强阶段的更多内容参见图3、图4及其相关描述,在此不再赘述。
在关键信息提取模型训练和应用阶段830中,通过干净样本和增强训练样本训练关键信息提取模型,可以提升关键信息的提取质量;结合从前轮会话中提取出的前轮关键信息,可以使得关键信息提取模型学习到基于上文的关键信息提取结果进行预测,同时,由于仅输入了前轮关键信息而不是输入前轮的全部会话内容,因此可以减少冗杂信息对模型预测结果的干扰;基于结构模式指导文本SSI对会话内容中的回答进行拼接,可以实现对不同类型的关键信息提取任务进行统一编码,以生成SEL格式的关键信息。关于关键信息提取模型训练阶段的更多内容参见图5、图7及其相关内容,关于关键信息提取模型应用阶段的更多内容参见图6、图9及其相关内容,在此不再赘述。
参见图9,图9是本申请另一个示例性实施例提供的关键信息提取模型的应用过程的示意图。
如图9所示,关键信息提取模型920的输入包括前轮关键信息912、拼接文本915以及提问类型标识符914。
前轮关键信息912是基于前轮会话内容通过关键信息提取模型提取得到的信息。例如,前轮关键信息可以包括从第一轮会话中提取到的关键信息(工作:程序员)、……、从当前会话的前一轮中提取到的关键信息(公司地址:XX大厦)。
拼接文本915是将结构模式指导文本SSI和当前会话中的回答进行拼接得到的文本。其中,结构模式指导文本SSI包括实体提取任务对应的提示信息“[spot]person[spot]organization[spot]time…”,当前会话中的回答为“我今天去公司了”。
提问类型标识符914是表征当前会话内容中对应的提问类型的标识符,例如,提问类型为“出行”,则可以用<Q:cx>作为对应的提问类型标识符。
可选的,关键信息提取模型920的输入还包括CIS分类标识911(classification),CIS分类标志911位于输入文本的首位,是一种用于分类任务中表征整个文本的语义特征向量。
可选的,关键信息提取模型920的输入还包括SEP分隔标识913,用于分开输入文本中的两个句子。
可选的,提问类型标识符914可以有两个,分别位于拼接文本915的前后,以将拼接文本915与其他输入文本分隔开。
关键信息提取模型920的输出为SEL格式的关键信息931。
例如,关键信息931的格式如下:
出行:(
时间:今天
目的地:XX大厦
SEL格式的关键信息931可以实现对不同提取任务进行统一编码。
参见图10,图10是本申请一个示例性实施例提供的会话内容的信息提取装置的结构框图。该装置包括:
语料生成模块1001,用于基于第一提示信息,通过样本生成模型生成陈述语料对应的样本问答语料,所述样本问答语料中包括提问和回答;
所述语料生成模块1001,还用于基于第二提示信息,通过所述样本生成模型提取所述样本问答语料的样本关键信息;
模型训练模块1002,用于基于所述样本问答语料和所述样本关键信息构建得到的训练样本,训练关键信息提取模型;
信息提取模块1003,用于通过训练得到的所述关键信息提取模型,从会话内容中提取关键信息。
可选的,语料生成模块1001,用于:
基于所述第一提示信息,通过所述样本生成模型生成所述陈述语料对应的原始提问;
在所述原始提问与至少一个标准提问的相似度大于相似度阈值的情况下,基于相似度最高的所述标准提问和所述陈述语料,生成所述样本问答语料。
可选的,模型训练模块1002,用于:
将所述样本问答语料中所述标准提问对应的提问类型标识符,以及所述陈述语料输入至所述关键信息提取模型,得到关键信息提取结果;
基于所述关键信息提取结果与所述样本关键信息的差异,确定信息提取损失;
基于所述信息提取损失训练所述关键信息提取模型;
可选的,信息提取模块1003,用于:
确定所述会话内容中提问对应的所述提问类型标识符;
将所述提问类型标识符以及所述会话内容中的回答输入至所述关键信息提取模型,得到所述关键信息。
可选的,模型训练模块1002,用于:
对所述样本关键信息进行格式转化,得到结构化提取语言SEL格式的所述样本关键信息,其中,所述SEL格式用于对不同类型的关键信息提取任务进行统一编码,所述关键信息提取任务的类型包括实体提取任务、实体关系提取任务和事件提取任务中的至少一种;
对结构模式指导文本SSI和所述陈述语料进行拼接,得到样本拼接文本,所述SSI为不同类型的关键信息提取任务的提示信息;
将所述样本问答语料中所述标准提问对应的提问类型标识符,以及所述样本拼接文本输入所述关键信息提取模型,得到所述关键信息提取结果,所述关键信息提取结果采用所述SEL格式;
可选的,信息提取模块1003,用于:
对所述SSI和所述会话内容中的回答进行拼接,得到拼接文本;
将所述提问类型标识符,以及所述拼接文本输入所述关键信息提取模型,得到所述关键信息,所述关键信息采用所述SEL格式。
可选的,在所述样本问答语料中包含按照顺序进行的多轮会话的情况下,模型训练模块1002,用于:
基于会话顺序,确定当前轮样本问答语料对应的前轮样本问答语料;
将所述当前轮样本问答语料,以及所述前轮样本问答语料对应的前轮样本关键信息输入所述关键信息提取模型,得到关键信息提取结果;其中,所述前轮样本关键信息由所述关键信息提取模型提取得到;
基于所述关键信息提取结果和所述样本关键信息的差异,确定信息提取损失;
基于所述信息提取损失训练所述关键信息提取模型;
可选的,在所述会话内容包括按照顺序进行的多轮会话的情况下,信息提取模块1003,用于:
将所述会话内容中的第i轮会话内容,以及所述第i轮会话内容的前轮会话内容对应的前轮关键信息输入至所述关键信息提取模型,提取得到所述第i轮会话内容中的第i轮关键信息,其中,所述前轮关键信息由所述关键信息提取模型提取得到,i为大于1的整数。
可选的,该装置还包括微调模块,用于:
获取样本监督语料,所述样本监督语料包括提问、回答和关键信息标注;
将所述第二提示信息、所述样本监督语料中的提问以及回答作为所述样本生成模型的输入,将所述关键信息标注作为监督,训练所述样本生成模型。
可选的,该装置还包括过滤模块,用于:
基于所述样本问答语料和所述样本关键信息构建得到所述训练样本;
过滤所述训练样本中的噪声样本,得到干净样本,所述噪声样本中的所述样本关键信息不准确;
基于所述干净样本训练所述关键信息提取模型。
可选的,过滤模块,用于:
基于第k轮训练得到的所述关键信息提取模型对所述训练样本的关键信息提取结果,过滤所述训练样本中的噪声样本,得到第k+1轮干净样本;
所述基于所述干净样本训练所述关键信息提取模型,包括:
基于所述第k+1轮干净样本对所述关键信息提取模型进行第k+1轮训练。
可选的,过滤模块,用于:
将所述样本问答语料输入至所述关键信息提取模型,得到所述关键信息提取结果;
基于所述关键信息提取结果和所述样本关键信息的差异,确定所述信息提取损失;
基于所述信息提取损失,通过高斯混合模型,确定所述训练样本属于第一高斯分布的概率,其中,所述高斯混合模型混合所述第一高斯分布和第二高斯分布,所述第二高斯分布表征所述噪声样本对应的所述信息提取损失的分布,所述第一高斯分布表征所述干净样本对应的所述信息提取损失的分布;
在所述概率高于概率阈值的情况下,将所述训练样本确定为所述干净样本。
可选的,过滤模块,用于:
确定与所述样本问答语料的提问类型匹配的正确类型提示信息;
确定不同于所述正确类型提示信息的错误类型提示信息;
基于包含所述正确类型提示信息和第一错误类型提示信息的所述第二提示信息,通过所述样本生成模型提取所述样本问答语料的第一样本关键信息;
基于包含所述正确类型提示信息和第二错误类型提示信息的所述第二提示信息,通过所述样本生成模型提取所述样本问答语料的第二样本关键信息;
所述过滤所述训练样本中的噪声样本,得到干净样本,包括:
在所述第一样本关键信息和所述第二样本关键信息不一致的情况下,将所述训练样本作为所述噪声样本进行过滤,得到所述干净样本。
可选的,过滤模块,用于:
通过无监督聚类算法,对所述样本问答语料进行聚类,得到多个聚类结果,其中,不同聚类结果对应于不同提问类型;
在所述样本问答语料所属的所述聚类结果对应的所述提问类型,与所述样本问答语料对应的所述样本关键信息的提问类型不一致的情况下,将所述训练样本作为所述噪声样本进行过滤,得到所述干净样本。
可选的,该装置还包括增强模块,用于:
对至少两个干净样本对应的所述样本问答语料进行加权,得到样本加权问答语料;
将所述至少两个干净样本对应的所述样本关键信息进行加权,得到样本加权关键信息;
基于所述样本加权问答语料和所述样本加权关键信息,构建增强训练样本;
可选的,模型训练模块1002,用于:
基于所述干净样本和所述增强训练样本训练所述关键信息提取模型。
参见图11,图11是本申请一个示例性实施例提供的计算机设备的结构示意图。
具体来讲:所述计算机设备1100包括中央处理单元(Central Processing Unit,CPU)1101、包括随机存取存储器1102和只读存储器1103的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)1106,和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。
所述基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说,所述大容量存储设备1107可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM,Random Access Memory)、只读存储器(ROM,Read Only Memory)、闪存或其他固态存储其技术,只读光盘(Compact Disc Read-Only Memory,CD-ROM)、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元1101执行,一个或多个程序包含用于实现上述方法的指令,中央处理单元1101执行该一个或多个程序实现上述各个方法实施例提供的方法。
根据本申请的各种实施例,所述计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。
本申请实施例还提供一种计算机可读存储介质,该可读存储介质中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述任一实施例所述的方法。
可选的,该计算机可读存储介质可以包括:ROM、RAM、固态硬盘(SSD,Solid StateDrives)或光盘等。其中,RAM可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例所述的方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的可选的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种会话内容的信息提取方法,其特征在于,所述方法包括:
基于第一提示信息,通过样本生成模型生成陈述语料对应的原始提问;
在所述原始提问与至少一个标准提问的相似度大于相似度阈值的情况下,基于相似度最高的所述标准提问和所述陈述语料,生成样本问答语料,所述样本问答语料中包括提问和回答;
基于第二提示信息,通过所述样本生成模型提取所述样本问答语料的样本关键信息;
基于所述样本问答语料和所述样本关键信息构建得到训练样本;
通过无监督聚类算法,对所述样本问答语料进行聚类,得到多个聚类结果,其中,不同聚类结果对应于不同提问类型;
在所述样本问答语料所属的所述聚类结果对应的所述提问类型,与所述样本问答语料对应的所述样本关键信息的提问类型不一致的情况下,将所述训练样本作为噪声样本进行过滤,得到干净样本,其中,所述噪声样本中的所述样本关键信息不准确;
将所述干净样本的所述样本问答语料中所述标准提问对应的提问类型标识符,以及所述陈述语料输入至关键信息提取模型,得到关键信息提取结果;
基于所述关键信息提取结果与所述样本关键信息的差异,确定信息提取损失;
基于所述信息提取损失训练所述关键信息提取模型;
确定会话内容中提问对应的所述提问类型标识符;
将所述提问类型标识符以及所述会话内容中的回答输入至所述关键信息提取模型,得到关键信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述样本关键信息进行格式转化,得到结构化提取语言SEL格式的所述样本关键信息,其中,所述SEL格式用于对不同类型的关键信息提取任务进行统一编码,所述关键信息提取任务的类型包括实体提取任务、实体关系提取任务和事件提取任务中的至少一种;
所述将所述干净样本的所述样本问答语料中所述标准提问对应的提问类型标识符,以及所述陈述语料输入至关键信息提取模型,得到关键信息提取结果,包括:对结构模式指导文本SSI和所述陈述语料进行拼接,得到样本拼接文本,所述SSI为不同类型的关键信息提取任务的提示信息;
将所述干净样本的所述样本问答语料中所述标准提问对应的所述提问类型标识符,以及所述样本拼接文本输入所述关键信息提取模型,得到所述关键信息提取结果,所述关键信息提取结果采用所述SEL格式;
所述将所述提问类型标识符以及所述会话内容中的回答输入至所述关键信息提取模型,得到关键信息,包括:
对所述SSI和所述会话内容中的回答进行拼接,得到拼接文本;
将所述提问类型标识符,以及所述拼接文本输入所述关键信息提取模型,得到所述关键信息,所述关键信息采用所述SEL格式。
3.根据权利要求1至2任一所述的方法,其特征在于,在所述样本问答语料中包含按照顺序进行的多轮会话的情况下,所述将所述干净样本的所述样本问答语料中所述标准提问对应的提问类型标识符,以及所述陈述语料输入至关键信息提取模型,得到关键信息提取结果,包括:
基于会话顺序,确定当前轮样本问答语料对应的前轮样本问答语料;
将所述干净样本中所述当前轮样本问答语料对应的所述提问类型标识符和所述陈述语料,以及所述前轮样本问答语料对应的前轮样本关键信息输入所述关键信息提取模型,得到关键信息提取结果;其中,所述前轮样本关键信息由所述关键信息提取模型提取得到;
在所述会话内容包括按照顺序进行的多轮会话的情况下,所述将所述提问类型标识符以及所述会话内容中的回答输入至所述关键信息提取模型,得到关键信息,包括:
将所述会话内容中的第i轮会话内容对应的所述提问类型标识符和所述回答,以及所述第i轮会话内容的前轮会话内容对应的前轮关键信息输入至所述关键信息提取模型,提取得到所述第i轮会话内容中的第i轮关键信息,其中,所述前轮关键信息由所述关键信息提取模型提取得到,i为大于1的整数。
4.根据权利要求1至2任一所述的方法,其特征在于,所述方法还包括:
获取样本监督语料,所述样本监督语料包括提问、回答和关键信息标注;
将所述第二提示信息、所述样本监督语料中的提问以及回答作为所述样本生成模型的输入,将所述关键信息标注作为监督,训练所述样本生成模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于第k轮训练得到的所述关键信息提取模型对所述训练样本的关键信息提取结果,过滤所述训练样本中的噪声样本,得到第k+1轮干净样本;
所述基于所述信息提取损失训练所述关键信息提取模型,包括:
基于所述第k+1轮干净样本对应的所述信息提取损失对所述关键信息提取模型进行第k+1轮训练。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对至少两个所述干净样本对应的所述样本问答语料进行加权,得到样本加权问答语料;
将所述至少两个所述干净样本对应的所述样本关键信息进行加权,得到样本加权关键信息;
基于所述样本加权问答语料和所述样本加权关键信息,构建增强训练样本;
所述基于所述信息提取损失训练所述关键信息提取模型,包括:
基于所述干净样本和所述增强训练样本对应的所述信息提取损失训练所述关键信息提取模型。
7.一种会话内容的信息提取装置,其特征在于,所述装置包括:
语料生成模块,用于基于第一提示信息,通过样本生成模型生成陈述语料对应的原始提问;
在所述原始提问与至少一个标准提问的相似度大于相似度阈值的情况下,基于相似度最高的所述标准提问和所述陈述语料,生成样本问答语料,所述样本问答语料中包括提问和回答;
所述语料生成模块,还用于基于第二提示信息,通过所述样本生成模型提取所述样本问答语料的样本关键信息;
过滤模块,用于基于所述样本问答语料和所述样本关键信息构建得到训练样本;
通过无监督聚类算法,对所述样本问答语料进行聚类,得到多个聚类结果,其中,不同聚类结果对应于不同提问类型;
在所述样本问答语料所属的所述聚类结果对应的所述提问类型,与所述样本问答语料对应的所述样本关键信息的提问类型不一致的情况下,将所述训练样本作为噪声样本进行过滤,得到干净样本,其中,所述噪声样本中的所述样本关键信息不准确;
模型训练模块,用于将所述干净样本的所述样本问答语料中所述标准提问对应的提问类型标识符,以及所述陈述语料输入至关键信息提取模型,得到关键信息提取结果;
基于所述关键信息提取结果与所述样本关键信息的差异,确定信息提取损失;
基于所述信息提取损失训练所述关键信息提取模型;
信息提取模块,用于确定会话内容中提问对应的所述提问类型标识符;
将所述提问类型标识符以及所述会话内容中的回答输入至所述关键信息提取模型,得到关键信息。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如权利要求1至6任一所述的会话内容的信息提取方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至6任一所述的会话内容的信息提取方法。
CN202311464211.6A 2023-11-06 2023-11-06 会话内容的信息提取方法、装置、计算机设备及存储介质 Active CN117195915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311464211.6A CN117195915B (zh) 2023-11-06 2023-11-06 会话内容的信息提取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311464211.6A CN117195915B (zh) 2023-11-06 2023-11-06 会话内容的信息提取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN117195915A CN117195915A (zh) 2023-12-08
CN117195915B true CN117195915B (zh) 2024-02-23

Family

ID=88990952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311464211.6A Active CN117195915B (zh) 2023-11-06 2023-11-06 会话内容的信息提取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN117195915B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955765A (zh) * 2019-11-22 2020-04-03 中国南方电网有限责任公司 智能助理的语料构建方法、装置、计算机设备和存储介质
CN113571196A (zh) * 2021-01-13 2021-10-29 腾讯科技(深圳)有限公司 构建医疗训练样本的方法及装置、医疗文本的检索方法
US11295062B1 (en) * 2019-02-05 2022-04-05 DateWise, Ltd. User configurable electronic medical records browser
CN114547271A (zh) * 2022-02-25 2022-05-27 北京智源人工智能研究院 对话数据增广方法、电子设备和存储介质
CN116860921A (zh) * 2023-03-15 2023-10-10 上海数字大脑科技研究院有限公司 对话预标注方法、系统、计算机设备和存储介质
CN116910224A (zh) * 2023-09-13 2023-10-20 四川金信石信息技术有限公司 一种基于大语言模型提取倒闸操作信息的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11295062B1 (en) * 2019-02-05 2022-04-05 DateWise, Ltd. User configurable electronic medical records browser
CN110955765A (zh) * 2019-11-22 2020-04-03 中国南方电网有限责任公司 智能助理的语料构建方法、装置、计算机设备和存储介质
CN113571196A (zh) * 2021-01-13 2021-10-29 腾讯科技(深圳)有限公司 构建医疗训练样本的方法及装置、医疗文本的检索方法
CN114547271A (zh) * 2022-02-25 2022-05-27 北京智源人工智能研究院 对话数据增广方法、电子设备和存储介质
CN116860921A (zh) * 2023-03-15 2023-10-10 上海数字大脑科技研究院有限公司 对话预标注方法、系统、计算机设备和存储介质
CN116910224A (zh) * 2023-09-13 2023-10-20 四川金信石信息技术有限公司 一种基于大语言模型提取倒闸操作信息的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Unified Structure Generation for Universal Information Extraction;Yaojie Lu et al.;arXiv:2203.12277v1;第1-9页 *

Also Published As

Publication number Publication date
CN117195915A (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN108959627B (zh) 基于智能机器人的问答交互方法及系统
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN111897941A (zh) 对话生成方法、网络训练方法、装置、存储介质及设备
CN112101045B (zh) 一种多模态语义完整性识别方法、装置及电子设备
CN110321564B (zh) 一种多轮对话意图识别方法
CN112417134B (zh) 基于语音文本深度融合特征的摘要自动生成系统及方法
CN113672708A (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN112101044B (zh) 一种意图识别方法、装置及电子设备
CN112905772B (zh) 语义相关性分析方法、装置及相关产品
CN112069781B (zh) 一种评语生成方法、装置、终端设备及存储介质
CN113268610A (zh) 基于知识图谱的意图跳转方法、装置、设备及存储介质
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN115495563A (zh) 基于表格数据检索的智能会话方法及服务器
CN113627196A (zh) 一种基于语境和Transformer的多语言对话机器人系统及其对话方法
CN112199486A (zh) 一种办公场景的任务型多轮对话方法及系统
CN116166688A (zh) 基于自然语言交互的业务数据检索方法、系统及处理设备
Xu et al. A comprehensive survey of automated audio captioning
CN111460118A (zh) 一种人工智能冲突语义识别方法及装置
CN117438047A (zh) 心理咨询模型训练和心理咨询处理方法、装置及电子设备
CN117149977A (zh) 一种基于机器人流程自动化的智能催收机器人
CN117195915B (zh) 会话内容的信息提取方法、装置、计算机设备及存储介质
CN114625759A (zh) 模型训练方法、智能问答方法、设备、介质及程序产品
CN115273856A (zh) 语音识别方法、装置、电子设备及存储介质
CN115408500A (zh) 问答一致性的评估方法、装置、电子设备及介质
CN114492396A (zh) 用于汽车专有名词的文本错误纠正方法及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40099438

Country of ref document: HK