CN115965018A - 信息生成模型的训练方法、信息生成方法和装置 - Google Patents
信息生成模型的训练方法、信息生成方法和装置 Download PDFInfo
- Publication number
- CN115965018A CN115965018A CN202310010489.XA CN202310010489A CN115965018A CN 115965018 A CN115965018 A CN 115965018A CN 202310010489 A CN202310010489 A CN 202310010489A CN 115965018 A CN115965018 A CN 115965018A
- Authority
- CN
- China
- Prior art keywords
- sentence
- training
- information
- word slot
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 340
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000013136 deep learning model Methods 0.000 claims abstract description 34
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本公开提供了一种信息生成模型的训练方法、信息生成方法和装置,涉及人工智能领域,具体为自然语言处理、深度学习等领域。具体实现方案为:获取第一训练文本,第一训练文本包括初始训练语句以及初始训练语句对应的词槽标签;基于第一训练文本中的初始训练语句,确定与初始训练语句相关联的参考语句信息;根据第一训练文本和参考语句信息,确定第二训练文本;以及利用第二训练文本对深度学习模型进行训练,得到初始信息生成模型。
Description
技术领域
本公开涉及计算机技术领域,具体为自然语言处理、深度学习等人工智能技术领域,具体涉及一种信息生成模型的训练方法和装置、一种信息生成方法和装置、电子设备、存储介质和计算机程序产品。
背景技术
随着人工智能技术的发展,在许多场景下会采用对话式的人机交互方式,以提升用户的体验,例如订票、订酒店等。目前通常采用对话意图信息和词槽信息来表示用户对话的语义信息。基于深度学习模型可以通过进行分类和序列标注任务,实现对话语句中的对话意图信息和词槽信息的识别。
但是,相关技术中需要通过人工方式来大量标注词槽名或者词槽描述,才能使模型能够较好地识别某个对话的词槽信息。上述方式不仅人工成本较高、训练效率低,而且模型的效果也会受到词槽标注质量的影响。
发明内容
本公开提供了一种信息生成模型的训练方法和装置、一种信息生成方法和装置、电子设备、存储介质和计算机程序产品。
根据本公开的一方面,提供了一种信息生成模型的训练方法,包括:获取第一训练文本,第一训练文本包括初始训练语句以及初始训练语句对应的词槽标签;基于第一训练文本中的初始训练语句,确定与初始训练语句相关联的参考语句信息;根据第一训练文本和参考语句信息,确定第二训练文本;以及利用第二训练文本对深度学习模型进行训练,得到初始信息生成模型。
根据本公开的另一方面,提供了一种信息生成方法,包括:获取待识别语句;基于待识别语句,确定与待识别语句相关联的参考语句信息;基于待识别语句和参考语句信息,确定第一目标识别语句;以及将第一目标识别语句输入目标信息生成模型,生成针对待识别语句的词槽信息;其中,目标信息生成模型是根据以上所述的信息生成模型的训练方法训练得到的。
根据本公开的另一方面,提供了一种信息生成模型的训练装置,包括:第一获取模块,用于获取第一训练文本,第一训练文本包括初始训练语句以及初始训练语句对应的词槽标签;第一确定模块,用于基于第一训练文本中的初始训练语句,确定与初始训练语句相关联的参考语句信息;第二确定模块,用于根据第一训练文本和参考语句信息,确定第二训练文本;以及第一训练模块,用于利用第二训练文本对深度学习模型进行训练,得到初始信息生成模型。
根据本公开的另一方面,提供了一种信息生成装置,包括:第二获取模块,用于获取待识别语句;第四确定模块,用于基于待识别语句,确定与待识别语句相关联的参考语句信息;第五确定模块,用于基于待识别语句和参考语句信息,确定第一目标识别语句;以及第一生成模块,用于将第一目标识别语句输入目标信息生成模型,生成针对待识别语句的词槽信息;其中,目标信息生成模型是根据以上所述的信息生成模型的训练装置训练得到的。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的可以应用信息生成模型的训练方法和装置、信息生成方法和装置的示例性系统架构示意图;
图2是根据本公开实施例的信息生成模型的训练方法的流程图;
图3是根据本公开实施例的信息生成模型的训练方法的示意图;
图4是根据本公开实施例的信息生成方法的流程图;
图5是根据本公开实施例的信息生成模型的训练装置的框图;
图6是根据本公开实施例的信息生成装置的框图;以及
图7是用来实现本公开实施例的信息生成模型的训练方法和信息生成方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开的实施例的可以应用信息生成模型的训练方法和装置、信息生成方法和装置的示例性系统架构示意图。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用。例如,知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或分布式系统,还可以是提供云服务、云计算、网络服务、中间件服务等基础云计算服务的云服务器。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的各种应用提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
例如,服务器105可以通过网络104获取来自终端设备101、102、103的第一训练文本,第一训练文本包括初始训练语句以及与初始训练语句对应的词槽标签。之后,基于第一训练文本中的初始训练语句,确定与初始训练语句相关联的参考语句信息,并根据第一训练文本和参考语句信息,确定第二训练文本。然后,利用第二训练文本对深度学习模型进行训练,得到信息生成模型。
在一些示例中,服务器105在完成对深度学习模型的训练之后,还可以利用训练后的深度学习模型(例如信息生成模型)进行词槽信息抽取。在一些示例中,服务器105还可以将训练后的深度学习模型(例如信息生成模型)发送给终端设备101、102、103。这样,用户可以应用终端设备中的信息生成模型进行词槽信息抽取。
需要说明的是,本公开实施例所提供的信息生成模型的训练方法一般可以由服务器105执行。相应地,本公开实施例所提供的信息生成模型的训练装置一般可以设置于服务器105中。本公开实施例所提供的信息生成模型的训练方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的信息生成模型的训练装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
需要说明的是,本公开实施例所提供的信息生成方法一般可以由服务器105执行。相应地,本公开实施例所提供的信息生成装置一般可以设置于服务器105中。本公开实施例所提供的信息生成方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的信息生成装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
备选地,本公开实施例所提供的信息生成方法一般也可以由终端设备101、102或103执行。相应地,本公开实施例所提供的信息生成装置也可以设置于终端设备101、102或103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
图2是根据本公开的实施例的信息生成模型的训练方法的流程图。
如图2所示,信息生成模型的训练方法200例如可以包括操作S210~S240。
在操作S210,获取第一训练文本。
在操作S220,基于第一训练文本中的初始训练语句,确定与初始训练语句相关联的参考语句信息。
在操作S230,根据第一训练文本和参考语句信息,确定第二训练文本。
在操作S240,利用第二训练文本对深度学习模型进行训练,得到初始信息生成模型。
根据本公开的实施例,第一训练文本包括初始训练语句以及与初始训练语句对应的词槽标签。
初始训练语句例如可以是用户输入的文本信息,也可以是将用户输入的语音信息进行转换得到的文本信息。该初始训练语句可以是一个输入语句(user),也可以是由至少一个输入语句及其对应的应答语句(system)构成的对话文本信息(user-system pairs)。
初始训练语句中可以包括至少一个词槽信息。该词槽信息是初始训练语句中与相应槽位对应的字、词语或者短语等。示例性地,若初始训练语句为“我下午从杭州出发去厦门”,则该初始训练语句中的词槽信息可以为“下午”、“杭州”和“厦门”。需要说明的是,本公开对初始训练语句的长短、类型等不做限定。
在本公开实施例中,各个词槽信息对应各自的槽位,每个词槽信息对应唯一的槽位。与初始训练语句对应的词槽标签与词槽信息一一对应。为初始训练语句添加标签可以用于表征初始训练语句中各个词槽信息的真伪程度。后续可以利用词槽标签来计算模型训练过程中的损失值,以便利用损失值来调整模型的参数,从而使得模型收敛。
根据本公开的实施例,基于初始训练语句,可以确定与初始训练语句相关联的参考语句信息。该参考语句信息例如可以包括第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识。
第一对话类型标识可以用于指示当前训练所采用的初始训练语句的用途,例如用于训练深度学习模型,使得模型能够识别语句中的词槽信息。
多个参考语句例如可以是与初始训练语句属于同一目标领域的语句。每个参考语句例如可以是一个输入语句,也可以是由至少一个输入语句及其对应的应答语句构成的对话文本信息。
与初始训练语句类似,每个参考语句中可以包括至少一个参考词槽信息。该参考词槽信息是参考语句中与相应槽位对应的字、词语或者短语等。参考词槽标识用于表征各个参考词槽信息在各个参考语句中的位置信息,即各个参考词槽信息对应的槽位。
在本公开实施例中,由于参考语句信息中的参考词槽信息和参考词槽标识已经确定。因此,可以将参考语句信息中的参考词槽信息和参考词槽标识作为参考来训练深度学习模型,使得模型能够基于参考语句信息来学习和识别初始训练语句中对应的词槽信息,从而实现模型训练目的。
为了实现上述目的,可以根据第一训练文本和参考语句信息,确定第二训练文本,并利用第二训练文本对深度学习模型进行训练,得到初始信息生成模型。
根据本公开的实施例,上述深度学习模型例如可以包括预训练生成模型。通过利用第二训练文本对预训练生成模型进行训练,可以得到初始信息生成模型。该初始信息生成模型可以用于对待识别语句中的词槽信息进行预测和识别。
根据本公开的实施例,通过利用第一训练文本中的初始训练语句,确定与初始训练语句相关联的参考语句信息,并根据第一训练文本和参考语句信息,确定第二训练文本。之后,利用第二训练文本来对深度学习模型进行训练。由于参考语句信息中的参考词槽信息和参考词槽标识已经确定。因此,可以将参考语句信息中的参考词槽信息和参考词槽标识作为参考来训练深度学习模型,使得模型能够基于参考语句信息来学习和识别初始训练语句中对应的词槽信息,从而实现模型训练目的。
相比于相关技术中需要采用人工方式预先标注好词槽信息或者词槽描述的方案,本公开的方案无需对训练语句进行词槽标注,由此降低了人工词槽标注量,提高了词槽信息的生成效率。同时,由于避免了因采用人工标注方式导致的标注质量差的问题,使得模型预测结果与训练语句更加一致,从而提高了模型的准确性。
根据本公开的实施例,在上述操作S230中,根据第一训练文本和参考语句信息,确定第二训练文本例如包括如下操作。
例如,可以根据第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及第一训练文本中的初始训练语句,确定第一目标训练语句。之后,根据第一目标训练语句和词槽标签,确定第二训练文本。
在一个示例中,可以对第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及第一训练文本中的初始训练语句执行拼接操作,得到第一目标训练语句。
示例性地,可以采用如下形式将上述第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及第一训练文本中的初始训练语句拼接在一起,得到第一目标训练语句。
P1=B1:[ex]u1[slot]v1[x1];...;[ex]un[slot]vn[xn];T。 (1)
在上式(1)中,P1表示第一目标训练语句,B1表示第一对话类型标识,ui(i=1,2,...,n)表示参考语句信息中第i个参考语句,vi表示参考语句信息中第i个参考语句对应的参考词槽信息,[ex]、[slot]和[xi]表示与第i个参考语句对应的参考词槽标识,T表示初始训练语句,n为正整数。
根据上式(1)可知,各个参考语句对应的参考词槽信息和参考词槽标识是相互独立的,这样各个参考语句之间就不会相互干扰,从而保证了各个参考词槽信息和参考词槽标识的准确性。由此,通过将参考语句信息中的参考词槽信息和参考词槽标识作为参考来训练深度学习模型,可以提高模型的训练的准确性。
根据本公开的实施例,在上述操作S220中,基于第一训练文本中的初始训练语句,确定与初始训练语句相关联的参考语句信息例如可以包括如下操作。
首先,可以基于第一训练文本中的初始训练语句,确定初始训练语句所属的目标领域。
可以理解,由于初始训练语句是以语句的形式呈现的,因此,可以初始训练语句对应的语义信息,确定初始训练语句所属的目标领域。例如,若初始训练语句为“买一张明天去南京的火车票”。根据该初始训练语句可知,该初始训练语句所属的目标领域为“订票”。
接下来,根据目标领域,确定与初始训练语句相关联的多个参考语句。
确定初始训练语句所属的目标领域之后,可以根据上述目标领域,确定与初始训练语句相关联的多个参考语句。例如,多个参考语句是与“订票”相关联的多个语句。基于目标领域来确定多个参考语句,可以使得多个参考语句和初始训练语句属于同一目标领域,由此,可以使得多个参考语句中的参考词槽信息与初始语句中的词槽信息更贴合,从而在利用第二训练文本训练模型时,保证模型训练的准确性。
接下来,针对多个参考语句中的每一个,根据参考语句,确定与该参考语句对应的参考词槽信息和参考词槽标识。
针对每一个参考语句,可以根据参考语句,确定该与该参考语句对应的参考词槽信息和参考词槽标识。
在本公开实施例中,根据各个参考语句,确定与该参考语句对应的参考词槽信息和参考词槽标识可以采用任何合适的方式进行,本公开对此不做限定。
接下来,根据多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及第一对话类型标识,确定参考语句信息。
需要说明的是,在确定各个参考语句对应的参考词槽信息和参考词槽标识时,如果一个参考语句中包括多个参考词槽信息,此时可以将各个参考词槽信息和参考词槽标识分别与参考语句进行拼接,从而得到参考语句信息。这样,可以避免同一参考语句中的多个参考词槽信息之间的干扰,从而保证了各个参考词槽信息和参考词槽标识的准确性。由此,通过将参考语句信息中的参考词槽信息和参考词槽标识作为参考来训练深度学习模型,可以提高模型的训练的准确性。
在一些实施例中,可能存在无法根据参考语句,获取与之对应的参考词槽信息和参考词槽标识的情况。针对这种情况,可以采用以下操作来确定各个参考语句对应的参考词槽信息和参考词槽标识。
例如,响应于根据参考语句,未得到与该参考语句对应的参考词槽信息和参考词槽标识,接收用户输入的配置信息。之后,根据配置信息,确定与参考语句对应的参考词槽信息和参考词槽标识。
在本公开实施例中,当无法根据参考语句,得到与该参考语句对应的参考词槽信息和参考词槽标识时,可以接收用户输入的配置信息。该配置信息中包括与该参考语句对应的参考词槽信息和参考词槽标识,此时可以将该参考词槽信息和参考词槽标识作为参考语句对应的参考词槽信息和参考词槽标识。
在一个示例中,例如,当参考语句为“user:从五棵松去天安门有地铁直达吗?system:可以地铁直达的,需要乘坐1号线。user:好的”时,参考语句中“能否地铁直达地点”对应的参考词槽信息是“是的”,但是,此时根据参考语句中的上下文,无法得到该参考词槽信息。针对这种情况,可以接收用户输入的配置信息,例如配置信息包括“是的”,并根据该配置信息来确定参考词槽信息对应的参考词槽信息和参考词槽标识。
根据本公开的实施例,在上述操作S240中,利用第二训练文本对深度学习模型进行训练,得到初始信息生成模型可以包括如下操作。
首先,可以将第一目标训练语句输入深度学习模型,得到针对初始训练语句的词槽识别结果。
可以理解,由于参考语句信息中的参考词槽信息和参考词槽标识已经确定。因此,利用参考语句信息中的参考词槽信息和参考词槽标识作为参考来训练深度学习模型时,可以从针对初始训练语句的词槽识别结果中获取与初始训练语句中各个槽位对应的词槽信息。
例如,可以采用如下方式来描述针对初始训练语句的词槽识别结果。
[x1]v’1;[x2]v’;;...,[xn]v’n (2)
在上式(2)中,[xi]表示与第i个参考语句对应的参考词槽标识,v’i表示初始训练语句中与第i个参考词槽标识对应的词槽信息,i=1,2,...,n,n为正整数。
接下来,根据词槽识别结果和词槽标签,确定第一损失值。
可以利用词槽识别结果中各个词槽信息以及词槽标签,确定第一损失值。在本公开实施例中,例如可以将词槽识别结果中各个词槽信息以及词槽标签之间的交叉熵损失值确定为第一损失值。
接下来,根据第一损失值调整深度学习模型的参数,得到初始信息生成模型。
确定第一损失值之后,可以利用第一损失值来调整深度学习模型的参数,直至模型收敛,以便得到初始信息生成模型。该初始信息生成模型可以用于对待识别语句中的词槽信息进行预测和识别。
在一些实施例中,还可以对初始信息生成模型进行进一步训练,以便训练后的初始信息生成模型能够对对话意图信息和词槽信息同时进行预测。
例如,可以根据初始训练语句和第二对话类型标识,确定第二目标训练语句。之后,根据第二目标训练语句和初始训练语句对应的对话意图标签来训练初始信息生成模型,得到目标信息生成模型。其中,第二对话类型标识可以用于指示当前训练所采用的训练语句的用途,例如用于训练初始信息生成模型,使得训练后的初始信息生成模型能够识别语句中的对话意图信息。
在本公开实施例中,可以采用如下方式来确定第二目标训练语句的形式。
P2=B2:T。 (3)
在上式(3)中,P2表示第二目标训练语句,B2表示第二对话类型标识,T表示初始训练语句,n为正整数。
根据上述式(3)可知,可以将第二对话类型标识和初始训练语句进行拼接,得到第二目标训练语句。之后,利用第二目标训练语句和初始训练语句对应的对话意图标签来训练初始信息生成模型,得到目标信息生成模型。
例如,可以将第二目标训练语句输入初始信息生成模型,得到针对初始训练语句的对话意图识别结果。之后,根据对话意图标签和对话意图识别结果,确定第二损失值。之后,根据第二损失值调整初始信息生成模型的参数,得到目标信息生成模型。
根据本公开的实施例,可以根据对话意图标签和对话意图识别结果之间的交叉熵损失值确定为第二损失值。然后,利用第二损失值调整初始信息生成模型的参数,直至模型收敛,得到目标信息生成模型。该目标信息生成模型可以用于对待识别语句的对话意图信息和词槽信息中的至少一个进行预测和识别。
图3是根据本公开实施例的信息生成模型的训练方法的示意图。下面参考图3对本公开的模型训练方法进行示例说明。
如图3所示,获取第一训练文本,第一训练文本包括初始训练语句301和初始训练语句对应的词槽标签。
根据初始训练语句301,确定初始训练语句301所属的目标领域,例如目标领域为“订票”。根据该目标领域,确定与初始训练语句301相关联的多个参考语句302(如图3所示)。
针对多个参考语句302中的每一个,根据参考语句,确定与该参考语句对应的参考词槽信息和参考词槽标识。之后,根据多个参考语句302、与多个参考语句302分别对应的参考词槽信息和参考词槽标识以及第一对话类型标识(例如“对话词槽”),确定参考语句信息。
之后,将参考语句信息和初始训练语句301进行拼接,得到第一目标训练语句303。然后,将第一目标训练语句303输入深度学习模型(例如预训练生成模型)304中,得到针对初始训练语句301的词槽识别结果305。
之后,利用针对初始训练语句301的词槽识别结果305和词槽标签,确定第一损失值,并利用第一损失值调整深度学习模型的参数,得到初始信息生成模型。
接下来,将初始训练语句301和第二对话类型标识(例如“对话意图”)进行拼接,得到第二目标训练语句307。之后,将第二目标训练语句307输入初始信息生成模型304,得到针对初始训练语句301的对话意图识别结果306。然后,根据对话意图识别结果306和初始训练语句301对应的对话意图标签来训练初始信息生成模型,得到目标信息生成模型。例如,可以利用对话意图识别结果306和初始训练语句301,确定第二损失值,并利用第二损失值调整初始信息生成模型的参数,得到目标信息生成模型。该目标信息生成模型可以用于对待识别语句的对话意图信息和词槽信息中的至少一个进行预测和识别。
图4是根据本公开实施例的信息生成方法的流程图。
如图4所示,信息生成方法400包括操作S410~S440。
在操作S410,获取待识别语句。
在操作S420,基于待识别语句,确定与待识别语句相关联的参考语句信息。
在操作S430,基于待识别语句和参考语句信息,确定第一目标识别语句。
在操作S440,将第一目标识别语句输入目标信息生成模型,生成针对待识别语句的词槽信息。
根据本公开的实施例,在操作S420中,上述参考语句信息可以采用如下操作获取。
首先,可以基于待识别语句,确定待识别语句所属的目标领域。接下来,可以根据目标领域,确定与待识别语句相关联的多个参考语句。之后,可以针对多个参考语句中的每一个,根据参考语句,确定与该参考语句对应的参考词槽信息和参考词槽标识。之后,根据多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及第一对话类型标识,确定参考语句信息。
根据本公开的实施例,根据待识别语句确定参考语句信息的过程与上述根据初始训练语句确定参考语句信息的过程类似,这里不再赘述。
根据本公开的实施例,参考语句信息包括第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识。
在上述操作S430中,基于待识别语句和参考语句信息,确定第一目标识别语句可以包括如下操作:根据第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及待识别语句,确定第一目标识别语句。
在本公开实施例中,根据第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及待识别语句,可以是通过对第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及待识别语句执行拼接操作,得到第一目标识别语句。其中,确定第一目标识别语句的过程与以上确定第一目标训练语句的过程类似,可以将初始训练语句替换为待识别语句,得到第一目标识别语句。详细的过程这里不再赘述。
根据本公开的实施例,在确定第一目标识别语句之后,可以将第一目标识别语句输入目标信息生成模型,生成针对待识别语句的词槽信息。目标信息生成模型是利用以上实施例中的信息生成模型的训练方法训练得到的,这里不再赘述。
在一些实施例中,还可以利用目标信息生成模型来确定针对待识别语句的对话意图信息。
例如,可以根据待识别语句和第二对话类型标识,确定第二目标识别语句。之后,将第二目标识别语句输入目标信息生成模型,生成针对待识别语句的对话意图信息。
在本公开实施例中,确定第二目标识别语句的过程与上述确定第二目标训练语句的过程类似,这里不再赘述。
根据本公开的实施例,由于参考语句信息中的参考词槽信息和参考词槽标识已经确定。因此,可以将参考语句信息中的参考词槽信息和参考词槽标识作为参考来识别待识别语句中对应的词槽信息和对话意图信息,可以提高模型输出的准确性。
图5是根据本公开的实施例的信息生成模型的训练装置的框图。
如图5所示,信息生成模型的训练装置500包括:第一获取模块510、第一确定模块520、第二确定模块530和第一训练模块540。
第一获取模块510用于获取第一训练文本,第一训练文本包括初始训练语句以及初始训练语句对应的词槽标签。
第一确定模块520用于基于第一训练文本中的初始训练语句,确定与初始训练语句相关联的参考语句信息。
第二确定模块530用于根据第一训练文本和参考语句信息,确定第二训练文本。
第一训练模块540用于利用第二训练文本对深度学习模型进行训练,得到初始信息生成模型。
根据本公开的实施例,上述参考语句信息包括第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识;第二确定模块530包括:第一确定单元和第二确定单元。第一确定单元用于根据第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及第一训练文本中的初始训练语句,确定第一目标训练语句;以及第二确定单元用于根据第一目标训练语句和词槽标签,确定第二训练文本。
根据本公开的实施例,第一确定单元包括:第一确定子单元。第一确定子单元用于对第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及第一训练文本中的初始训练语句执行拼接操作,得到第一目标训练语句。
根据本公开的实施例,第一确定模块520包括:第三确定单元、第四确定单元、第五确定单元和第六确定单元。第三确定单元用于基于第一训练文本中的初始训练语句,确定初始训练语句所属的目标领域;第四确定单元用于根据目标领域,确定与初始训练语句相关联的多个参考语句;第五确定单元用于针对多个参考语句中的每一个,根据参考语句,确定与该参考语句对应的参考词槽信息和参考词槽标识;以及第六确定单元用于根据多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及第一对话类型标识,确定参考语句信息。
根据本公开的实施例,第五确定单元包括:接收子单元和第二确定子单元。接收子单元用于响应于根据参考语句,未得到与该参考语句对应的参考词槽信息和参考词槽标识,接收用户输入的配置信息;以及第二确定子单元用于根据配置信息,确定与参考语句对应的参考词槽信息和参考词槽标识。
根据本公开的实施例,第一训练模块540包括:第一训练单元、第七确定单元和第一调整单元。第一训练单元用于将第一目标训练语句输入深度学习模型,得到针对初始训练语句的词槽识别结果;第七确定单元用于根据词槽识别结果和词槽标签,确定第一损失值;以及第一调整单元用于根据第一损失值调整深度学习模型的参数,得到初始信息生成模型。
根据本公开的实施例,上述装置500还包括:第三确定模块和第二训练模块。第三确定模块用于根据初始训练语句和第二对话类型标识,确定第二目标训练语句;以及第二训练模块用于根据第二目标训练语句和初始训练语句对应的对话意图标签来训练初始信息生成模型,得到目标信息生成模型。
根据本公开的实施例,第二训练模块包括:第二训练单元、第八确定单元和第二调整单元。第二训练单元用于将第二目标训练语句输入初始信息生成模型,得到针对初始训练语句的对话意图识别结果;第八确定单元用于根据对话意图标签和对话意图识别结果,确定第二损失值;以及第二调整单元用于根据第二损失值调整初始信息生成模型的参数,得到目标信息生成模型。
图6是根据本公开的实施例的信息生成装置的框图。
如图6所示,信息生成装置600包括:第二获取模块610、第四确定模块620、第五确定模块630和第一生成模块640。
第二获取模块610用于获取待识别语句。
第四确定模块620用于基于待识别语句,确定与待识别语句相关联的参考语句信息。
第五确定模块630用于基于待识别语句和参考语句信息,确定第一目标识别语句。
第一生成模块640用于将第一目标识别语句输入目标信息生成模型,生成针对待识别语句的词槽信息,其中,目标信息生成模型是利用上述实施例中的信息生成模型的训练装置训练得到的。
根据本公开的实施例,参考语句信息包括第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识;第五确定模块630包括:第九确定单元。第九确定单元用于根据第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及待识别语句,确定第一目标识别语句。
根据本公开的实施例,第九确定单元包括:第三确定子单元。第三确定子单元用于对第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及待识别语句执行拼接操作,得到第一目标识别语句。
根据本公开的实施例,第四确定模块620包括:第十确定单元、第十一确定单元、第十二确定单元和第十三确定单元。第十确定单元用于基于待识别语句,确定待识别语句所属的目标领域;第十一确定单元用于根据目标领域,确定与待识别语句相关联的多个参考语句;第十二确定单元用于针对多个参考语句中的每一个,根据参考语句,确定与该参考语句对应的参考词槽信息和参考词槽标识;以及第十三确定单元用于根据多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及第一对话类型标识,确定参考语句信息。
根据本公开的实施例,信息生成装置600还包括:第六确定模块、第二生成模块。第六确定模块用于根据待识别语句和第二对话类型标识,确定第二目标识别语句;以及第二生成模块用于将第二目标识别语句输入目标信息生成模型,生成针对待识别语句的对话意图信息。
需要说明的是,装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开实施例的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开实施例的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开实施例的方法。
图7是用来实现本公开实施例的信息生成模型的训练方法和信息生成方法的电子设备的框图。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如信息生成模型的训练方法和信息生成方法。例如,在一些实施例中,信息生成模型的训练方法和信息生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的信息生成模型的训练方法和信息生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行信息生成模型的训练方法和信息生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (29)
1.一种信息生成模型的训练方法,包括:
获取第一训练文本,所述第一训练文本包括初始训练语句以及所述初始训练语句对应的词槽标签;
基于所述第一训练文本中的初始训练语句,确定与所述初始训练语句相关联的参考语句信息;
根据所述第一训练文本和所述参考语句信息,确定第二训练文本;以及
利用所述第二训练文本对深度学习模型进行训练,得到初始信息生成模型。
2.根据权利要求1所述的方法,其中,所述参考语句信息包括第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识;
所述根据所述第一训练文本和所述参考语句信息,确定第二训练文本包括:
根据所述第一对话类型标识、所述多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及所述第一训练文本中的初始训练语句,确定第一目标训练语句;以及
根据所述第一目标训练语句和所述词槽标签,确定所述第二训练文本。
3.根据权利要求2所述的方法,其中,所述根据所述第一对话类型标识、所述多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及所述第一训练文本中的初始训练语句,确定第一目标训练语句包括:
对所述第一对话类型标识、所述多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及所述第一训练文本中的初始训练语句执行拼接操作,得到所述第一目标训练语句。
4.根据权利要求2至3中任一项所述的方法,其中,所述基于所述第一训练文本中的初始训练语句,确定与所述初始训练语句相关联的参考语句信息包括:
基于所述第一训练文本中的初始训练语句,确定所述初始训练语句所属的目标领域;
根据所述目标领域,确定与所述初始训练语句相关联的多个参考语句;
针对所述多个参考语句中的每一个,根据所述参考语句,确定与该参考语句对应的参考词槽信息和参考词槽标识;以及
根据所述多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及所述第一对话类型标识,确定所述参考语句信息。
5.根据权利要求4所述的方法,其中,所述根据所述参考语句,确定与该参考语句对应的参考词槽信息和参考词槽标识包括:
响应于根据所述参考语句,未得到与该参考语句对应的参考词槽信息和参考词槽标识,接收用户输入的配置信息;以及
根据所述配置信息,确定与所述参考语句对应的参考词槽信息和参考词槽标识。
6.根据权利要求2至5中任一项所述的方法,其中,所述利用所述第二训练文本对深度学习模型进行训练,得到初始信息生成模型包括:
将所述第一目标训练语句输入所述深度学习模型,得到针对所述初始训练语句的词槽识别结果;
根据所述词槽识别结果和所述词槽标签,确定第一损失值;以及
根据所述第一损失值调整所述深度学习模型的参数,得到所述初始信息生成模型。
7.根据权利要求1至6中任一项所述的方法,还包括:
根据所述初始训练语句和第二对话类型标识,确定第二目标训练语句;以及
根据所述第二目标训练语句和所述初始训练语句对应的对话意图标签来训练所述初始信息生成模型,得到目标信息生成模型。
8.根据权利要求7所述的方法,其中,所述根据所述第二目标训练语句和所述初始训练语句对应的对话意图标签来训练所述初始信息生成模型,得到目标信息生成模型包括:
将所述第二目标训练语句输入所述初始信息生成模型,得到针对所述初始训练语句的对话意图识别结果;
根据所述对话意图标签和所述对话意图识别结果,确定第二损失值;以及
根据所述第二损失值调整所述初始信息生成模型的参数,得到所述目标信息生成模型。
9.一种信息生成方法,包括:
获取待识别语句;
基于所述待识别语句,确定与所述待识别语句相关联的参考语句信息;
基于所述待识别语句和所述参考语句信息,确定第一目标识别语句;以及
将所述第一目标识别语句输入目标信息生成模型,生成针对所述待识别语句的词槽信息;
其中,所述目标信息生成模型是根据权利要求7或8所述的方法训练得到的。
10.根据权利要求9所述的方法,其中,所述参考语句信息包括第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识;
所述基于所述待识别语句和所述参考语句信息,确定第一目标识别语句包括:
根据所述第一对话类型标识、所述多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及所述待识别语句,确定第一目标识别语句。
11.根据权利要求10所述的方法,其中,根据所述第一对话类型标识、所述多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及所述待识别语句,确定第一目标识别语句包括:
对所述第一对话类型标识、所述多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及所述待识别语句执行拼接操作,得到所述第一目标识别语句。
12.根据权利要求10至11中任一项所述的方法,其中,基于所述待识别语句,确定与所述待识别语句相关联的参考语句信息包括:
基于所述待识别语句,确定所述待识别语句所属的目标领域;
根据所述目标领域,确定与所述待识别语句相关联的多个参考语句;
针对所述多个参考语句中的每一个,根据所述参考语句,确定与该参考语句对应的参考词槽信息和参考词槽标识;以及
根据所述多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及所述第一对话类型标识,确定所述参考语句信息。
13.根据权利要求9至12中任一项所述的方法,还包括:
根据所述待识别语句和第二对话类型标识,确定第二目标识别语句;以及
将所述第二目标识别语句输入所述目标信息生成模型,生成针对所述待识别语句的对话意图信息。
14.一种信息生成模型的训练装置,包括:
第一获取模块,用于获取第一训练文本,所述第一训练文本包括初始训练语句以及所述初始训练语句对应的词槽标签;
第一确定模块,用于基于所述第一训练文本中的初始训练语句,确定与所述初始训练语句相关联的参考语句信息;
第二确定模块,用于根据所述第一训练文本和所述参考语句信息,确定第二训练文本;以及
第一训练模块,用于利用所述第二训练文本对深度学习模型进行训练,得到初始信息生成模型。
15.根据权利要求14所述的装置,其中,所述参考语句信息包括第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识;所述第二确定模块包括:
第一确定单元,用于根据所述第一对话类型标识、所述多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及所述第一训练文本中的初始训练语句,确定第一目标训练语句;以及
第二确定单元,用于根据所述第一目标训练语句和所述词槽标签,确定所述第二训练文本。
16.根据权利要求15所述的装置,其中,所述第一确定单元包括:
第一确定子单元,用于对所述第一对话类型标识、所述多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及所述第一训练文本中的初始训练语句执行拼接操作,得到所述第一目标训练语句。
17.根据权利要求15至16中任一项所述的装置,其中,所述第一确定模块包括:
第三确定单元,用于基于所述第一训练文本中的初始训练语句,确定所述初始训练语句所属的目标领域;
第四确定单元,用于根据所述目标领域,确定与所述初始训练语句相关联的多个参考语句;
第五确定单元,用于针对所述多个参考语句中的每一个,根据所述参考语句,确定与该参考语句对应的参考词槽信息和参考词槽标识;以及
第六确定单元,用于根据所述多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及所述第一对话类型标识,确定所述参考语句信息。
18.根据权利要求17所述的装置,其中,所述第五确定单元包括:
接收子单元,用于响应于根据所述参考语句,未得到与该参考语句对应的参考词槽信息和参考词槽标识,接收用户输入的配置信息;以及
第二确定子单元,用于根据所述配置信息,确定与所述参考语句对应的参考词槽信息和参考词槽标识。
19.根据权利要求15至18中任一项所述的装置,其中,所述第一训练模块包括:
第一训练单元,用于将所述第一目标训练语句输入所述深度学习模型,得到针对所述初始训练语句的词槽识别结果;
第七确定单元,用于根据所述词槽识别结果和所述词槽标签,确定第一损失值;以及
第一调整单元,用于根据所述第一损失值调整所述深度学习模型的参数,得到所述初始信息生成模型。
20.根据权利要求14至19中任一项所述的装置,还包括:
第三确定模块,用于根据所述初始训练语句和第二对话类型标识,确定第二目标训练语句;以及
第二训练模块,用于根据所述第二目标训练语句和所述初始训练语句对应的对话意图标签来训练所述初始信息生成模型,得到目标信息生成模型。
21.根据权利要求20所述的装置,其中,所述第二训练模块包括:
第二训练单元,用于将所述第二目标训练语句输入所述初始信息生成模型,得到针对所述初始训练语句的对话意图识别结果;
第八确定单元,用于根据所述对话意图标签和所述对话意图识别结果,确定第二损失值;以及
第二调整单元,用于根据所述第二损失值调整所述初始信息生成模型的参数,得到所述目标信息生成模型。
22.一种信息生成装置,包括:
第二获取模块,用于获取待识别语句;
第四确定模块,用于基于所述待识别语句,确定与所述待识别语句相关联的参考语句信息;
第五确定模块,用于基于所述待识别语句和所述参考语句信息,确定第一目标识别语句;以及
第一生成模块,用于将所述第一目标识别语句输入目标信息生成模型,生成针对所述待识别语句的词槽信息;
其中,所述目标信息生成模型是根据权利要求20或21所述的装置训练得到的。
23.根据权利要求22所述的装置,其中,所述参考语句信息包括第一对话类型标识、多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识;所述第五确定模块包括:
第九确定单元,用于根据所述第一对话类型标识、所述多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及所述待识别语句,确定第一目标识别语句。
24.根据权利要求23所述的装置,其中,所述第九确定单元包括:
第三确定子单元,用于对所述第一对话类型标识、所述多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及所述待识别语句执行拼接操作,得到所述第一目标识别语句。
25.根据权利要求23至24中任一项所述的装置,其中,所述第四确定模块包括:
第十确定单元,用于基于所述待识别语句,确定所述待识别语句所属的目标领域;
第十一确定单元,用于根据所述目标领域,确定与所述待识别语句相关联的多个参考语句;
第十二确定单元,用于针对所述多个参考语句中的每一个,根据所述参考语句,确定与该参考语句对应的参考词槽信息和参考词槽标识;以及
第十三确定单元,用于根据所述多个参考语句、与多个参考语句分别对应的参考词槽信息和参考词槽标识以及所述第一对话类型标识,确定所述参考语句信息。
26.根据权利要求22至25中任一项所述的装置,还包括:
第六确定模块,用于根据所述待识别语句和第二对话类型标识,确定第二目标识别语句;以及
第二生成模块,用于将所述第二目标识别语句输入所述目标信息生成模型,生成针对所述待识别语句的对话意图信息。
27.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至13中任一项所述的方法。
28.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至13中任一项所述的方法。
29.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至13中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310010489.XA CN115965018B (zh) | 2023-01-04 | 2023-01-04 | 信息生成模型的训练方法、信息生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310010489.XA CN115965018B (zh) | 2023-01-04 | 2023-01-04 | 信息生成模型的训练方法、信息生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115965018A true CN115965018A (zh) | 2023-04-14 |
CN115965018B CN115965018B (zh) | 2024-04-26 |
Family
ID=87361301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310010489.XA Active CN115965018B (zh) | 2023-01-04 | 2023-01-04 | 信息生成模型的训练方法、信息生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115965018B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8527543B1 (en) * | 2010-09-16 | 2013-09-03 | Quest Software, Inc. | System for categorizing database statements for performance tuning |
CN104679826A (zh) * | 2015-01-09 | 2015-06-03 | 北京京东尚科信息技术有限公司 | 基于分类模型的上下文识别的方法和系统 |
CN109918673A (zh) * | 2019-03-14 | 2019-06-21 | 湖北亿咖通科技有限公司 | 语义仲裁方法、装置、电子设备和计算机可读存储介质 |
CN110008319A (zh) * | 2019-02-27 | 2019-07-12 | 百度在线网络技术(北京)有限公司 | 基于对话模板的模型训练方法和装置 |
CN111625634A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 词槽识别方法及装置、计算机可读存储介质、电子设备 |
CN111681647A (zh) * | 2020-06-10 | 2020-09-18 | 北京百度网讯科技有限公司 | 用于识别词槽的方法、装置、设备以及存储介质 |
CN112632987A (zh) * | 2020-12-25 | 2021-04-09 | 北京百度网讯科技有限公司 | 词槽的识别方法、装置及电子设备 |
US20210256417A1 (en) * | 2020-02-14 | 2021-08-19 | Nice Ltd. | System and method for creating data to train a conversational bot |
CN113849624A (zh) * | 2021-10-15 | 2021-12-28 | 上海大参林医疗健康科技有限公司 | 一种多轮对话的词槽抽取装置和方法 |
CN113934833A (zh) * | 2021-11-01 | 2022-01-14 | 阳光保险集团股份有限公司 | 训练数据的获取方法、装置、系统及存储介质 |
CN114254658A (zh) * | 2021-12-14 | 2022-03-29 | 上海流利说信息技术有限公司 | 翻译评测训练数据的生成方法及装置、设备和存储介质 |
-
2023
- 2023-01-04 CN CN202310010489.XA patent/CN115965018B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8527543B1 (en) * | 2010-09-16 | 2013-09-03 | Quest Software, Inc. | System for categorizing database statements for performance tuning |
CN104679826A (zh) * | 2015-01-09 | 2015-06-03 | 北京京东尚科信息技术有限公司 | 基于分类模型的上下文识别的方法和系统 |
CN110008319A (zh) * | 2019-02-27 | 2019-07-12 | 百度在线网络技术(北京)有限公司 | 基于对话模板的模型训练方法和装置 |
CN109918673A (zh) * | 2019-03-14 | 2019-06-21 | 湖北亿咖通科技有限公司 | 语义仲裁方法、装置、电子设备和计算机可读存储介质 |
US20210256417A1 (en) * | 2020-02-14 | 2021-08-19 | Nice Ltd. | System and method for creating data to train a conversational bot |
CN111625634A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 词槽识别方法及装置、计算机可读存储介质、电子设备 |
CN111681647A (zh) * | 2020-06-10 | 2020-09-18 | 北京百度网讯科技有限公司 | 用于识别词槽的方法、装置、设备以及存储介质 |
CN112632987A (zh) * | 2020-12-25 | 2021-04-09 | 北京百度网讯科技有限公司 | 词槽的识别方法、装置及电子设备 |
CN113849624A (zh) * | 2021-10-15 | 2021-12-28 | 上海大参林医疗健康科技有限公司 | 一种多轮对话的词槽抽取装置和方法 |
CN113934833A (zh) * | 2021-11-01 | 2022-01-14 | 阳光保险集团股份有限公司 | 训练数据的获取方法、装置、系统及存储介质 |
CN114254658A (zh) * | 2021-12-14 | 2022-03-29 | 上海流利说信息技术有限公司 | 翻译评测训练数据的生成方法及装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115965018B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4113357A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN114841274B (zh) | 语言模型的训练方法、装置、电子设备和存储介质 | |
CN113836925A (zh) | 预训练语言模型的训练方法、装置、电子设备及存储介质 | |
CN113221565A (zh) | 实体识别模型的训练方法、装置、电子设备及存储介质 | |
US20230005283A1 (en) | Information extraction method and apparatus, electronic device and readable storage medium | |
CN113657395A (zh) | 文本识别方法、视觉特征提取模型的训练方法及装置 | |
CN114021548A (zh) | 敏感信息检测方法、训练方法、装置、设备以及存储介质 | |
CN113806522A (zh) | 摘要生成方法、装置、设备以及存储介质 | |
CN110705271B (zh) | 一种提供自然语言处理服务的系统及方法 | |
CN112906368A (zh) | 行业文本增量方法、相关装置及计算机程序产品 | |
CN114461665B (zh) | 用于生成语句转换模型的方法、装置及计算机程序产品 | |
CN116302218A (zh) | 函数信息的添加方法、装置、设备以及存储介质 | |
CN115965018B (zh) | 信息生成模型的训练方法、信息生成方法和装置 | |
CN113204613B (zh) | 地址生成方法、装置、设备和存储介质 | |
CN114297380A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN113961672A (zh) | 信息标注方法、装置、电子设备和存储介质 | |
CN114218431A (zh) | 视频搜索方法、装置、电子设备以及存储介质 | |
CN113850072A (zh) | 文本情感分析方法、情感分析模型训练方法、装置、设备及介质 | |
CN116069914B (zh) | 训练数据的生成方法、模型训练方法以及装置 | |
CN113705206B (zh) | 情感预测模型的训练方法、装置、设备及存储介质 | |
CN114492456B (zh) | 文本生成方法、模型的训练方法、装置、电子设备及介质 | |
CN113032540B (zh) | 人机交互方法、装置、设备和存储介质 | |
CN114491040B (zh) | 信息挖掘方法及装置 | |
CN112989797B (zh) | 模型训练、文本扩展方法,装置,设备以及存储介质 | |
CN108038230B (zh) | 基于人工智能的信息生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |