CN110427627B - 基于语义表示模型的任务处理方法和装置 - Google Patents

基于语义表示模型的任务处理方法和装置 Download PDF

Info

Publication number
CN110427627B
CN110427627B CN201910713555.3A CN201910713555A CN110427627B CN 110427627 B CN110427627 B CN 110427627B CN 201910713555 A CN201910713555 A CN 201910713555A CN 110427627 B CN110427627 B CN 110427627B
Authority
CN
China
Prior art keywords
training
task
semantic representation
representation model
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910713555.3A
Other languages
English (en)
Other versions
CN110427627A (zh
Inventor
王硕寰
孙宇
李宇琨
冯仕堃
李芝
�田�浩
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910713555.3A priority Critical patent/CN110427627B/zh
Publication of CN110427627A publication Critical patent/CN110427627A/zh
Application granted granted Critical
Publication of CN110427627B publication Critical patent/CN110427627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了基于语义表示模型的任务处理方法和装置,涉及NLP领域。具体实现方案为:通过获取包含有待处理任务的任务处理请求。根据任务处理请求,获取与待处理任务相关的待表示数据。由于目标语义表示模型为通用的语义表示模型,所学习到的任务是基于使用海量无标注的训练语料构建支持词汇、语法、语义等层次的自定义预训练任务,且预配置的语义表示模型为根据与待处理任务相同类型的应用数据对目标语义表示模型进行调整训练得到的,因此,采用预配置的语义表示模型,对与待表示数据进行语义分析,获取待表示数据的语义表示,可以适用于各种具体NLP任务,提高了模型的适用性能和使用性能。

Description

基于语义表示模型的任务处理方法和装置
技术领域
本申请涉及计算机技术领域中的自然语言处理(natural language processing,NLP)领域,尤其设计一种基于语义表示模型的任务处理方法和装置。
背景技术
目前,传统的语义表示模型包括:上下文无关的语义表示模型,如Word2Vec和Glove等模型,以及上下文相关的语义表示模型,如ELMo、BERT和XLNet等模型。
上下文相关的语义表示模型可以通过自监督的训练方法,建模出词在具体语境环境下的语义表示,相对于上下文无关的语义表示模型具有明显的效果提升。例如,BERT模型通过掩码语言模型和下一句预测任务进行训练。例如,对于乒[mask]球,清明上[mask]图,[mask]颜六色这些词,BERT模型通过字的搭配,很容易推测出掩码的字信息。XLNet模型构建了全排列的语言模型,并通过自回归的方式进行预训练。
然而,由于BERT、XLNet等上下文相关的语义表示模型主要通过词或者句子的共现信息学习,因此,上下文相关的语义表示模型的任务目标单一,难以充分地利用无监督训练语料中的各种数据,构建出通用的语义表示模型能力受限。
发明内容
本申请提供一种基于语义表示模型的任务处理方法和装置,以解决传统的语义表示模型中无法充分利用无监督训练语料中的各种数据而导致模型能力受限的问题。
第一方面,本申请提供一种基于语义表示模型的任务处理方法,包括:获取任务处理请求,所述任务处理请求包括待处理任务;根据所述任务处理请求,获取与所述待处理任务相关的待表示数据;采用预配置的语义表示模型,对与所述待表示数据进行语义分析,以获取所述待表示数据的语义表示,所述预配置的语义表示模型为根据与所述待处理任务相同类型的应用数据,对目标语义表示模型进行调整训练得到的,所述目标语义表示模型为学习训练语料中的词法、语法和语义的模型。
通过第一方面提供的基于语义表示模型的任务处理方法,通过获取任务处理请求。其中,任务处理请求包括待处理任务。根据任务处理请求,获取与待处理任务相关的待表示数据。再采用预配置的语义表示模型,对与待表示数据进行语义分析,从而获取待表示数据的语义表示。本申请中,由于目标语义表示模型为学习训练语料中的词法、语法和语义的模型,目标语义表示模型学习到的任务是基于使用海量无标注的训练语料构建支持词汇、语法、语义等层次的自定义预训练任务,且预配置的语义表示模型为根据与待处理任务相同类型的应用数据,对目标语义表示模型进行调整训练得到的,故预配置的语义表示模型可以适用于各种具体NLP任务,解决了传统的语义表示模型中无法充分利用无监督训练语料中的各种数据而导致模型能力受限的问题,提高了模型的适用性能和使用性能。
可选地,所述预配置的语义表示模型的获取方式包括:获取与所述待处理任务相同类型的应用数据;根据所述应用数据,对目标语义表示模型进行调整训练,得到与所述待处理任务相同类型的目标语义表示模型;将与所述待处理任务相同类型的目标语义表示模型确定为所述预配置的语义表示模型。
可选地,所述待处理任务的类型包括如下至少一种:语义匹配类型、情感分析类型、机器翻译类型、对话理解类型和信息抽取类型。
可选地,所述目标语义表示模型的获取方式包括:获取所述训练语料;根据所述训练语料中的数据,得到至少一个第一预训练任务,所述至少一个第一预训练任务用于学习所述数据的词法、语法和语义中的至少一种;根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型。
通过该实施方式提供的基于语义表示模型的任务处理方法,通过获取训练语料,并根据训练语料中的数据,得到至少一个第一预训练任务,其中,至少一个第一预训练任务用于学习所述数据的词法、语法和语义中的至少一种。再根据至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型。本申请中,通过使用海量无标注的训练语料,可以构建支持词汇、语法、语义等层次的自定义预训练任务,实现无监督自主的学习,能够捕捉训练语料中的词法、语法、语义等潜在信息,从而得到一个通用的语义表示模型,不仅充分利用训练语料中的数据,还提高了通用语言表示的性能。
可选地,所述根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型,包括:针对所述至少一个第一预训练任务中的任意一个第一预训练任务,获取所述第一预训练任务的词表示、段表示、位置表示和任务表示;将所第一述预训练任务的词表示、段表示、位置表示和任务表示输入到所述初始语义表示模型的编码器中进行编码计算,得到所述第一预训练任务的上下文表示;将所述第一预训练任务的上下文表示输入到所述初始语义表示模型的分类器中进行学习训练,得到所述第一预训练任务的学习损失值;若所述第一预训练任务的学习损失值满足预设损失阈值,则得到所述目标语义表示模型。
通过该实施方式提供的基于语义表示模型的任务处理方法,针对至少一个第一预训练任务中的任意一个第一预训练任务,获取该第一预训练任务的词表示、段表示、位置表示和任务表示,与传统的语义表示模型相比,本申请新增了任务表示,以便细化建模过程中的各种任务。并将该第一预训练任务的词表示、段表示、位置表示和任务表示输入到初始语义表示模型的编码器中进行编码计算,可以得到该第一预训练任务的上下文表示,其中,该上下文表示可以用于指示该第一预训练任务的类型。再将该第一预训练任务的上下文表示输入到初始语义表示模型的分类器中进行学习训练,可以得到该第一预训练任务的学习损失值。然后,通过判断该第一预训练任务的学习损失值是否满足预设损失阈值,以确定初始语义表示模型是否完成学习该第一预训练任务的过程。在该第一预训练任务的学习损失值满足预设损失阈值时,可以确定初始语义表示模型已学习到该第一预训练任务,从训练语料中的数据里捕捉到词汇、句法和语义等信息,即初始语义表示模型的模型参数已经训练好,从而可以得到更加通用的目标语义表示模型。
可选地,所述方法还包括:根据所述至少一个第一预训练任务中每个第一预训练任务的学习损失值和类型,确定预训练任务的类型比例;根据所述训练语料中的数据,得到满足所述类型比例的多个第二预训练任务,所述多个第二预训练任务用于学习所述数据的词法、语法和语义中的至少一种,所述多个第二预训练任务的类型与所述至少一个第一预训练任务的类型部分不同;根据所述多个第二预训练任务,对所述目标语义表示模型进行学习训练,得到学习训练后的目标语义表示模型。
通过该实施方式提供的基于语义表示模型的任务处理方法,通过新类型的预训练任务的学习训练,提高语义表示模型的能力,同时在学习新类型的预训练任务时保持学习之前类型的预训练任务的学习训练,避免语义表示模型遗忘之前学习训练到的能力,从而不断优化语义表示模型的语义表达能力,持续提高语义表示模型的模型效果。
可选地,所述根据所述至少一个第一预训练任务中每个第一预训练任务的学习损失值和类型,确定预训练任务的类型比例,包括:根据所述至少一个第一预训练任务中每个第一预训练任务的学习损失值,确定满足所述预设损失阈值的第一预训练任务的第一类型;根据所述第一类型和预训练任务的全部类型,确定所述类型比例,从而,通过获知目标语义表示模型已学习到的预训练任务的类型,来调整预训练任务的之前类型和新增类型的比例。
可选地,在所述根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型之后,还包括:将所述初始语义表示模型替换为所述目标语义表示模型,并重复执行获取训练语料、根据所述训练语料中的数据,得到至少一个第一预训练任务以及根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型的过程。
通过该实施方式提供的基于语义表示模型的任务处理方法,在获得目标语义表示模型时,还可以持续学习预训练任务,已更新目标语义表示模型。此时服务器需将初始语义表示模型替换为学习训练得到的目标语义表示模型,并重复执行获取训练语料、根据所述训练语料中的数据,得到至少一个第一预训练任务以及根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型的过程,得到可持续学习的新的目标语义表示模型,不断循环重复,以便持续理解学习训练语料中的数据,进一步增强通用语言表示的能力。
为了自定义构建预训练任务,本申请可以从词汇、语法、语义这三个层面学习训练语料中的数据,故预训练任务的类型可以包括:词法级别任务、语法级别任务和语义级别任务。
可选地,当预训练任务的类型为词法级别任务时,预训练任务包括如下至少一种:学习目标信息是否为大写和预测目标片段中的目标信息在其他片段中是否出现;
或者,
当预训练任务的类型为语法级别任务时,预训练任务包括如下至少一种:预测目标片段的顺序类别和判断目标语句对的位置类型;
或者,
当预训练任务的类型为语义级别任务时,预训练任务包括如下至少一种:学习目标相邻语句对的逻辑关系和学习目标语句对的检索相关关系。
需要说明的是,本申请不限于上述类型。
第二方面,本申请提供一种基于语义表示模型的任务处理装置,包括:获取模块,用于获取任务处理请求,所述任务处理请求包括待处理任务;所述获取模块,还用于根据所述任务处理请求,获取与所述待处理任务相关的待表示数据;处理模块,用于采用预配置的语义表示模型,对与所述待表示数据进行语义分析,以获取所述待表示数据的语义表示,所述预配置的语义表示模型为根据与所述待处理任务相同类型的应用数据,对目标语义表示模型进行调整训练得到的,所述目标语义表示模型为学习训练语料中的词法、语法和语义的模型。
可选地,所述获取模块,还用于获取所述预配置的语义表示模型,具体的获取方式包括:获取与所述待处理任务相同类型的应用数据;根据所述应用数据,对目标语义表示模型进行调整训练,得到与所述待处理任务相同类型的目标语义表示模型;将与所述待处理任务相同类型的目标语义表示模型确定为所述预配置的语义表示模型。
可选地,所述待处理任务的类型包括如下至少一种:语义匹配类型、情感分析类型、机器翻译类型、对话理解类型和信息抽取类型。
可选地,所述获取模块,还用于获取所述目标语义表示模型,具体的获取方式包括:获取训练语料;根据所述训练语料中的数据,得到至少一个第一预训练任务,所述至少一个第一预训练任务用于学习所述数据的词法、语法和语义中的至少一种;根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型。
可选地,所述获取模块,具体用于针对所述至少一个第一预训练任务中的任意一个第一预训练任务,获取所述第一预训练任务的词表示、段表示、位置表示和任务表示;将所述第一预训练任务的词表示、段表示、位置表示和任务表示输入到所述初始语义表示模型的编码器中进行编码计算,得到所述第一预训练任务的上下文表示;将所述第一预训练任务的上下文表示输入到所述初始语义表示模型的分类器中进行学习训练,得到所述第一预训练任务的学习损失值;若所述第一预训练任务的学习损失值满足预设损失阈值,则得到所述目标语义表示模型。
可选地,所述获取模块,还用于根据所述至少一个第一预训练任务中每个第一预训练任务的学习损失值和类型,确定预训练任务的类型比例;根据所述训练语料中的数据,得到满足所述类型比例的多个第二预训练任务,所述多个第二预训练任务用于学习所述数据的词法、语法和语义中的至少一种,所述多个第二预训练任务的类型与所述至少一个第一预训练任务的类型部分不同;根据所述多个第二预训练任务,对所述目标语义表示模型进行学习训练,得到学习训练后的目标语义表示模型。
可选地,所述获取模块,具体用于根据所述至少一个第一预训练任务中每个第一预训练任务的学习损失值,确定满足所述预设损失阈值的第一预训练任务的第一类型;根据所述第一类型和预训练任务的全部类型,确定所述类型比例。
可选地,所述获取,还在根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型之后,将所述初始语义表示模型替换为所述目标语义表示模型;并重复执行获取训练语料、根据所述训练语料中的数据,得到至少一个第一预训练任务以及根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型的过程。
可选地,当预训练任务的类型为词法级别任务时,预训练任务包括如下至少一种:学习目标信息是否为大写和预测目标片段中的目标信息在其他片段中是否出现;
或者,
当预训练任务的类型为语法级别任务时,预训练任务包括如下至少一种:预测目标片段的顺序类别和判断目标语句对的位置类型;
或者,
当预训练任务的类型为语义级别任务时,预训练任务包括如下至少一种:学习目标相邻语句对的逻辑关系和学习目标语句对的检索相关关系。
上述第二方面以及上述第二方面的各可能的设计中所提供的基于语义表示模型的任务处理装置,其有益效果可以参见上述第一方面和第一方面的各可能的实施方式所带来的有益效果,在此不再赘述。
第三方面,本申请提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面以及上述第一方面的各可能的设计中所提供的基于语义表示模型的任务处理方法。
第四方面,本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述第一方面以及上述第一方面的各可能的设计中所提供的基于语义表示模型的任务处理方法。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请实施例的应用与学习训练的整体结构示意图;
图3是根据本申请第二实施例的示意图;
图4是本申请实施例的目标语义表示模型的结构示意图;
图5是根据本申请第三实施例的示意图;
图6是根据本申请第四实施例的示意图;
图7是用来实现本申请实施例的基于语义表示模型的任务处理方法的基于语义表示模型的任务处理装置的结构示意图;
图8是用来实现本申请实施例的基于语义表示模型的任务处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请提供一种基于语义表示模型的任务处理方法、装置、设备及存储介质,可适用于情感分析、语义匹配、机器翻译、对话理解等各种自然语言处理(natural languageprocessing,NLP)任务场合中,本申请提供的基于语义表示模型的任务处理方法可以由服务器执行,也可以由终端设备执行,本申请对此不做限定。
下面,以服务器作为执行主体,通过具体实施例,对基于语义表示模型的任务处理方法的具体实现过程进行详细说明。
图1是根据本申请第一实施例的示意图,如图1所示,本申请的基于语义表示模型的任务处理方法可以包括:
S001、获取任务处理请求,任务处理请求包括待处理任务。
本申请中,服务器可以从其他设备接收任务处理请求,也可以自动生成任务处理请求,本申请对此不做限定。
其中,本申请对任务处理请求中包括的待处理任务的具体数量和具体类型不做限定。且待处理任务可以包括但不限于文本、图片、视频等各种形式。
其中,待处理任务的类型可以为各种自然语言理解类型,可选地,待处理任务的类型可以包括如下至少一种:语义匹配类型、情感分析类型、机器翻译类型、对话理解类型和信息抽取类型。例如,该待处理任务的类型可以为“饭店A值得来”对应的情感分析类型,也可以为“哈尔滨是黑龙江的首都”对应的语义匹配类型等。
S002、根据任务处理请求,获取与待处理任务相关的待表示数据。
本申请中,服务器在从任务处理请求中获取待处理任务时,可以获得与待处理任务相关的待表示数据。
其中,与待处理任务相关的待表示数据可以从待处理任务转换得到,如图片转换得到文本,也可以为待处理任务直接得到,如文本直接得到文本,本申请对此不做限定。且待表示数据可以采用各种语言的表现形式,本申请对此不做限定。
S003、采用预配置的语义表示模型,对与待表示数据进行语义分析,以获取待表示数据的语义表示,预配置的语音表示模型为根据与待处理任务相同类型的应用数据,对目标语义表示模型进行调整训练得到的,目标语义表示模型为学习训练语料中的词法、语法和语义的模型。
由于目标语义表示模型为通用的语义表示模型,能够捕捉训练语料中的词法、语法、语义等潜在信息,且目标语义表示模型学习到的任务是基于使用海量无标注的训练语料构建支持词汇、语法、语义等层次的自定义预训练任务,因此,在模型具体应用过程时,服务器可以借助少量应用数据去微调目标语义表示模型,使得目标语义表示模型变成可以处理待处理任务相同类型对应的实际NLP任务。
其中,本申请对训练语料的具体内容不做限定。例如,训练语料中的数据不仅包括语言共现信息,如人名、地名、机构名等词语概念信息,还包括词法、语法和语义等潜在信息,如多个语句的顺序关系和距离关系等结构信息以及文本语义相似度和语言逻辑关系等语义信息。
基于前述描述,服务器可以根据与待处理任务相同类型的应用数据,对目标语义表示模型进行调整训练,得到预配置的语义表示模型,使得预配置的语义表示模型可以实现各种具体NLP任务的语义表示。
可选地,一种可行的获取预配置的语义表示模型的方式中,服务器可以获取与待处理任务相同类型的应用数据,并根据该应用数据对目标语义表示模型进行调整训练,得到与待处理任务相同类型的目标语义表示模型,从而可以将与待处理任务相同类型的目标语义表示模型确定为预配置的语义表示模型。
进一步地,服务器可以采用预配置的语义表示模型,对与待表示数据进行语义分析,从而获得待表示数据的语义表示。其中,该语义表示可以表示该待表示数据的情感、意图等各种语义理解,用于指示下一步的响应和操作,如搜索、对话、推荐、匹配及翻译等。例如,该待表示数据的语义表示可以为“饭店A值得来的比例大小”,用于评价饭店A的环境、菜品、服务等各个维度的好坏、“哈尔滨是黑龙江的省会的比例大小”用于确定文章中是否出现笔误等。
下面,以情感分析类型对应的实际场景为例,采用本申请基于语义表示模型的任务处理方法的具体实现过程如下:
步骤1、用户通过设备输入“饭店A值得来”中英混合文本语言,即向设备发起任务处理请求,该任务处理请求中的待处理任务为用户输入的“饭店A值得来”的中英混合文本语言。
步骤2、设备在接收到“饭店A值得来”中英混合文本语言时,可以获得“饭店A值得来”中英混合文本语言,并确定该待处理任务的类型为情感分析类型。
步骤3、由于设备中包含有目标语义表示模型,该目标语义表示模型为学习训练语料中的词法、语法和语义的模型,且该目标语义表示模型为通用的语义表示模型,可以适用于语义匹配类型、情感分析类型、机器翻译类型、对话理解类型和信息抽取类型等各种NLP任务。因此,设备可以根据少量的情感分析类型的应用数据,对目标语义表示模型进行调整训练,以得到预配置的语义表示模型。
步骤4、设备采用预配置的语义表示模型,对“饭店A值得来”中英混合文本语言进行语义分析,得到“饭店A值得来”的正向概率为0.87,“饭店A值得来”的负向概率为0.13。
需要说明的是,相比训练语料而言,与待处理任务相同类型的应用数据为少量的,本申请对应用数据的具体数量不做限定。另外,待处理任务的类型可以为一种,也可以同时为多种,本申请对此不做限定。且上述过程仅为待处理任务的类型为一种的示意性示例,待处理任务的类型为多种的具体内容可参考一种的内容,此处不做赘述。
本申请提供的基于语义表示模型的任务处理方法,通过获取任务处理请求。其中,任务处理请求包括待处理任务。再根据任务处理请求,获取与待处理任务相关的待表示数据。再采用预配置的语义表示模型,对与待表示数据进行语义分析,从而获取待表示数据的语义表示。本申请中,由于目标语义表示模型为学习训练语料中的词法、语法和语义的模型,目标语义表示模型学习到的任务是基于使用海量无标注的训练语料构建支持词汇、语法、语义等层次的自定义预训练任务,且预配置的语义表示模型为根据与待处理任务相同类型的应用数据,对目标语义表示模型进行调整训练得到的,故预配置的语义表示模型可以适用于各种具体NLP任务,解决了传统的语义表示模型中无法充分利用无监督训练语料中的各种数据而导致模型能力受限的问题,提高了模型的适用性能和使用性能。
本申请中,要想使用预配置的语义表示模型,需要先得到目标语义表示模型。因此,目标语义表示模型的生成过程至关重要。
下面,结合图2所示应用与学习训练的整体结构示意图,结合具体实施例对目标语义表示模型的生成过程进行描述。
图3是根据本申请第二实施例的示意图。如图3所示,本申请的基于语义表示模型的任务处理方法可以包括:
S101、获取训练语料。
本申请中,服务器可以通过从中外百科书籍、中外文学书籍、中外资讯杂志、中外字典、中外论文、中外电子文档、中外论坛对话数据等各种方式收集海量的数据以及先验知识,来获得训练语料。
其中,服务器可以事先在服务器中存储训练语料,也可以借助其他设备获得到训练语料,本申请对此不做限定。且本申请对训练语料的具体内容、容量大小和存储形式均不做限定。
S102、根据训练语料中的数据,得到至少一个第一预训练任务,至少一个第一预训练任务用于学习数据的词法、语法和语义中的至少一种。
由于训练语料中的数据不仅包括语言共现信息,如人名、地名、机构名等词语概念信息,还包括词法、语法和语义等潜在信息,如多个语句的顺序关系和距离关系等结构信息以及文本语义相似度和语言逻辑关系等语义信息。因此,本申请中,服务器根据训练语料中的数据,可以自定义得到一个第一预训练任务或者多个第一预训练任务(如图2所示的任务1、任务2、…、任务N,N为正整数),以便学习前述数据的词法、语法、语义和语言共现信息等一种内容或者多种内容。
其中,本申请对服务器得到的第一预训练任务的总数量不做限定。且本申请对每个第一预训练任务的具体类型以及每种类型的第一预训练任务的具体数据也不做限定。
下面,为了自定义构建预训练任务,本申请可以从词汇(lexical)、语法(syntactic)、语义(semantic)这三个层面学习训练语料中的数据,故预训练任务的类型可以包括:词法级别任务、语法级别任务和语义级别任务。
一方面,当第一预训练任务的类型为词法级别任务时,第一预训练任务可以包括如下至少一种:学习目标信息是否为大写和预测目标片段中的目标信息在其他片段中是否出现。
举例来说,针对如Apple、China和Harry Potter等英文单词而言,这些英文单词的首写字母大写,所包含的语言信息特殊。故,服务器可以构造一个去学习目标信息是否为大写的词法级别任务。
其中,目标信息可以为中文字,也可以为外文单词,也可以为中英文词根,本申请对此不做限定。另外,该词法级别任务可以限定在预设语境下学习目标信息是否为大写。
举例来说,针对训练语料中某文章的任意一个片段而言,该片段中出现的词汇,可能在该文章的其他片段中出现,也可能在该文章的其他片段中未出现。从而,基于前述过程可以预测出该词汇是否为该文章的中心思想。故,服务器可以构造一个预测目标片段中的目标信息在其他片段中是否出现的词法级别任务。
其中,目标信息可以为中外词汇,也可以为中文字,也可以为外文单词,也可以为中英文词根,本申请对此不做限定。
另外,第一预训练任务还可以基于知识增强的掩码策略,对目标语句中的词、短语、实体进行完整的掩码后进行预测的词法级别任务。相较于传统的字粒度或者字替换(subword)粒度的掩码,该任务可以学习到训练语料中的语义信息,并更好的捕捉数据中全局的语义信息。
另一方面,当第一预训练任务的类型为语法级别任务时,第一预训练任务包括如下至少一种:预测目标片段的顺序类别和判断目标语句对的位置类型。
举例来说,针对一个切分为M(M为正整数)个片段的段落而言,随机打乱M个片段的顺序,可以组合出M*(M-1)种顺序类别。故,服务器可以构造一个预测目标片段的顺序类别的语法级别任务,以便学习到各个片段之间的排序和因果关系。
举例来说,针对某个语句而言,该语句可以与其他语句可以存在三种位置关系,分别为:该语句与其他语句为邻近语句,该语句与其他语句为同一文章中的非邻近句子,该语句与其他语句为不同文章中的句子。故,服务器可以构造一个判断目标语句对的位置类型的语法级别任务,以便更好的利用文章信息学习语义相关性。
另一方面,当第一预训练任务的类型为语义级别任务时,第一预训练任务包括如下至少一种:学习目标相邻语句对的逻辑关系和学习目标语句对的检索相关关系。
举例来说,针对相邻的两个语句而言,这两个语句之间会出现的连词可以表示假设、递进、转折等各种强度逻辑关系,例如,如果、而且、虽然、但是等。故,服务器可以构造一个判断学习目标相邻语句对的逻辑关系的语义级别任务,以便学习相邻两个语句之间更为精细的逻辑关系。
举例来说,针对两个随机的短句而言,利用任意类型的搜索引擎,对其中一个短句进行搜索(Query),得到网页标题(Title)。若用户点击网页Title包含有另一个短句,则这两个短句为强相关关系;若网页Title中包含有另一个短句,但用户未点击,则这两个短句为弱相关关系;若网页Title中不包含有另一个短句,则这两个短句为不相关关系。故,服务器可以构造一个判断学习目标语句对的检索相关关系的语义级别任务,以便学习检索中短句对的相关性信息。
需要说明的是,服务器根据训练语料中的数据,除了自定义得到上述类型的第一预训练任务,还可以不断新增如无监督或者弱监督等类型的预训练任务,本申请对此不做限定,以便进一步提高语义表示模型的性能。
S103、根据至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型。
由于一个第一预训练任务或者多个预训练任务用于学习数据的词法、语法和语义中的至少一种,因此,本申请中,服务器可以根据一个第一预训练任务或者多个预训练任务,对初始语义表示模型进行学习训练,使得初始语义表示模型可以全面捕捉到训练语料中的词法、语法和语义等各种信息,得到适用于各种类型的NLP任务的目标语义表示模型。
与传统的语义表示模型比较,本申请的目标语义表示模型并不是在少量的预训练任务上完成的,而是通过不断引入大量的预训练任务,帮助模型高效地学习词汇、句法和语义等信息,不仅可以充分利用无监督训练语料中的数据,还学习到无监督训练语料中词法、语法、语义等多个维度的信息,增强了通用语言表示的能力。
其中,本申请对初始语义表示模型的具体实现形式不做限定,可以为现有的语义表示模型,也可以为新增的语义表示模型。
本申请提供的基于语义表示模型的任务处理方法,通过获取训练语料,并根据训练语料中的数据,得到至少一个第一预训练任务,其中,至少一个第一预训练任务用于学习数据的词法、语法和语义中的至少一种。再根据至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型。本申请中,通过使用海量无标注的训练语料,可以构建支持词汇、语法、语义等层次的自定义预训练任务,实现无监督自主的学习,能够捕捉训练语料中的词法、语法、语义等潜在信息,从而得到一个通用的语义表示模型,不仅充分利用训练语料中的数据,还提高了通用语言表示的性能。
需要说明的是,服务器在获得目标语义表示模型时,还可以持续学习预训练任务,已更新目标语义表示模型。此时服务器需将初始语义表示模型替换为学习训练得到的目标语义表示模型,再根据前述S101、S102和S103的执行过程,得到可持续学习的新的目标语义表示模型,不断循环重复,以便持续理解学习训练语料中的数据,进一步增强通用语言表示的能力。
在上述实施例的基础上,对本申请的基于语义表示模型的任务处理方法的具体实现过程进行进一步描述。
本申请中,服务器可以采用多种方式执行S103。下面,以至少一个第一预训练任务中的任意一个第一预训练任务为例,结合图4和图5,对本申请的服务器根据至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型的一种可行的实现方式进行描述。
图4是本申请实施例的目标语义表示模型的结构示意图,图5是根据本申请第三实施例的示意图。如图5所示,本申请的基于语义表示模型的任务处理方法可以包括:
S201、获取第一预训练任务的词表示、段表示、位置表示和任务表示。
本申请中,服务器除了可以获取词表示(Token Embedding)、段表示(SentenceEmbedding)和位置表示(Positional Embedding)之外,同时获取任务表示(TaskEmbedding),用于与传统语义表示模型区分开来以及精细化地建模时表示不同的任务。
其中,一般情况下,不同的任务利用使用从0到N的ID进行表示,N为自然数。如图4中,由于当前预训练任务中的每个词均为相同任务,因此,每个词可以采用数字3进行任务表示。
另外,词表示、段表示和位置表示可参见传统语义表示模型的实现过程,此处不做赘述。
例如,结合图4,词表示中,服务器可以将如[CLS]等特殊标识或者唯一标识作为第一待训练任务的起始标识,以建模出整体语义。对于第一待训练任务中多个片段的输入,服务器可以使用如[SEP]等特殊标识或者唯一标识对各个片段进行分割。服务器其他词可以使用如[tokenP],P为正整数对每个片段中的此进行词表示。
又如,结合图4,段表示中,服务器可以采用不同的ID表示第一待训练任务中不同片段,采用相同的ID表示第一待训练任务中相同片段。如图4中,有三个片段,分别采用A、B和C进行段表示。
又如,结合图4,位置表示中,服务器可以采用从0到N的ID对第一待训练任务中每个词进行表示。如图4中,有13个词,分别采用0至12个数字进行位置表示。
需要说明的是,词表示、段表示、位置表示和任务表示的具体实现方式可以包括但不限于数字、字母、符号、二级制数等各种表现方式。
S202、将第一预训练任务的词表示、段表示、位置表示和任务表示输入到初始语义表示模型的编码器中进行编码计算,得到第一预训练任务的上下文表示。
本申请中,结合图4,服务器可以使用Transformer模型作为编码器(Encoder)的结构。进而,在将第一预训练任务的词表示、段表示、位置表示和任务表示输入到该编码器的底层之后,该编码器的顶层可以利用Transformer模型的多层注意力(Attention)机制,计算得到第一预训练任务中每个词的上下文表示。其中,该上下文表示通常为对应词的特征向量,用于指示第一预训练任务的类型。
S203、将第一预训练任务的上下文表示输入到初始语义表示模型的分类器中进行学习训练,得到第一预训练任务的学习损失值。
本申请中,初始语义表示模型中包括多种类型的分类器,为了便于任务的学习训练,本申请中服务器可以将分类器的类型分为两种,一种为序列(Sequence)整体级别的分类器,用于理解学习语法级别任务和语义级别任务,另一种为Token级别的分类器,用于理解学习词法级别任务,如图4所示。
进一步地,服务器可以根据分类器的类型以及第一预训任务的类型,事先设置前述编码器的输出,以便第一预训练任务的上下文表示输入到对应的分类器中。
在第一预训练任务的类型为语法级别任务或者语义级别任务时,该编码器可以将第一预训练任务的上下文表示输入到Sequence整体级别的分类器中进行学习训练,以便根据训练结果得到第一预训练任务的学习损失值。
在第一预训练任务的类型为词法级别任务时,该编码器可以将第一预训练任务的上下文表示输入到Token级别的分类器中进行学习训练,以便根据训练结果得到第一预训练任务的学习损失值。
S204、若第一预训练任务的学习损失值满足预设损失阈值,则得到目标语义表示模型。
本申请中,服务器可以事先设置预设损失阈值,用于表示允许初始语义表示模型未捕捉到训练语料中的数据的程度范围。由于第一预训练任务的学习损失值可以表示出初始语义表示模型的学习训练程度(即指标收敛程度),因此,服务器可以判断第一预训练任务的学习损失值是否满足预设损失阈值,以确定初始语义表示模型是否达到捕捉到训练语料中的数据的程度范围。
在第一预训练任务的学习损失值满足预设损失阈值时,服务器可以得到目标语义表示模型。在第一预训练任务的学习损失值不满足预设损失阈值时,服务器可以继续执行S101、S102和S103的过程,直至初始语义表示模型达到学习训练训练语料中的数据的程度范围为止,以得到目标语义表示模型。
其中,本申请对预设损失阈值的具体大小不做限定。
本申请中,针对至少一个第一预训练任务中的任意一个第一预训练任务,获取该第一预训练任务的词表示、段表示、位置表示和任务表示,与传统的语义表示模型相比,本申请新增了任务表示,以便细化建模过程中的各种任务。并将该第一预训练任务的词表示、段表示、位置表示和任务表示输入到初始语义表示模型的编码器中进行编码计算,可以得到该第一预训练任务的上下文表示,其中,该上下文表示可以用于指示该第一预训练任务的类型。再将该第一预训练任务的上下文表示输入到初始语义表示模型的分类器中进行学习训练,可以得到该第一预训练任务的学习损失值。然后,通过判断该第一预训练任务的学习损失值是否满足预设损失阈值,以确定初始语义表示模型是否完成学习该第一预训练任务的过程。在该第一预训练任务的学习损失值满足预设损失阈值时,可以确定初始语义表示模型已学习到该第一预训练任务,从训练语料中的数据里捕捉到词汇、句法和语义等信息,即初始语义表示模型的模型参数已经训练好,从而可以得到更加通用的目标语义表示模型。
为了持续更新目标语义表示模型,本申请中,服务器需要不断加入新类型的预训练任务,且为了避免语义表示模型遗忘之前学习训练到的能力,服务器在添加新类型的预训练任务的基础上,还需要保持一定概率学习之前类型的预训练任务。
下面,在图3所示实施例的基础上,结合图6,对前述实现过程的具体内容进行描述。
图6是根据本申请第四实施例的示意图,如图6所示,本申请的基于语义表示模型的任务处理方法可以包括:
S301、获取训练语料。
S302、根据训练语料中的数据,得到至少一个第一预训练任务,至少一个第一预训练任务用于学习数据的词法、语法和语义中的至少一种。
S303、根据至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型。
其中,S301、S302和S303分别与图3实施例中的S101、S102和S103实现方式类似,本申请此处不再赘述。
S304、根据至少一个第一预训练任务中每个第一预训练任务的学习损失值和类型,确定预训练任务的类型比例。
由于目标语义表示模型已学习到预训练任务的某些类型,具备捕捉到训练语料中词汇、句法和语义等各种信息,但学习到预训练任务的不同类型的程度各有不同。因此,本申请中,服务器根据至少一个第一预训练任务中每个第一预训练任务的学习损失值和每个第一预训练任务的类型,得到每个第一预训练任务的类型的学习程度。
一般情况下,学习程度较高的第一预训练任务的类型对应的比例可以较小,学习程度较低的第一预训练任务的类型对应的比例可以较大。基于前述描述,服务器可以确定预训练任务的类型比例。
其中,预训练任务的类型比例可以为预训练任务的全部类型(本申请提及的预训练任务的全部类型指的是:第一预训练任务的类型和第二预训练任务的类型之总和)的类型比例,也可以为学习程度较低的预训练任务的类型的比例,也可以为学习程度较高的预训练任务的类型的比例,本申请对此不做限定。
基于前述描述,服务器可以采用多种方式确定预训练任务的类型比例。可选地,服务器根据至少一个第一预训练任务中每个第一预训练任务的学习损失值,可以确定满足预设损失阈值的第一预训练任务的第一类型,即可以确定目标语义模型已学习到类型为第一类型的第一预训练任务。进而,服务器可以减少类型为第一类型的预训练任务,进而根据第一类型和预训练任务的全部类型,可以确定满足条件为第一类型所占比例较小的类型比例。例如,该类型比例为1:100,其中1/100为类型为第一类型的预训练任务,99/100为类型为新增类型的预训练任务。
需要说明的是,本申请除了上述方式之外,还可以事先设置满足预设损失阈值的第一预训练任务的比例大小,本申请对此不做限定。
S305、根据训练语料中的数据,得到满足类型比例的多个第二预训练任务,多个第二预训练任务用于学习数据的词法、语法和语义中的至少一种,多个第二预训练任务的类型与至少一个第一预训练任务的类型部分不同。
本申请中,服务器根据预训练任务的类型比例,从训练语料中的数据内,可以得到满足该类型比例的多个第二预训练任务。由于需要保留之前类型的预训练任务,因此,在多个第二预训练任务和至少第一预训练任务中,存在相同类型的预训练任务。又由于需要引入新类型的预训练任务,因此,在多个第二预训练任务和至少第一预训练任务中,存在不同类型的预训练任务。因此,多个第二预训练任务的类型与至少一个第一预训练任务的类型部分不同。
其中,本申请对多个第二预训练任务的类型与至少一个第一预训练任务的类型部分不同的具体数量和具体类型不做限定。另外,第二预训练任务的类型可参照第一预训练任务的类型的内容,此处不做限定。
S306、根据多个第二预训练任务,对目标语义表示模型进行学习训练,得到学习训练后的目标语义表示模型。
本申请中,在每一次新增加预训练任务的学习时,服务器会使用之前预训练任务学习训练的模型参数,有助于语义表示模型的模型参数不断优化,提高语义表示模型的能力。
基于前述描述,服务器可以根据多个第二预训练任务,对目标语义表示模型进行学习训练,从而得到学习训练后的目标语义表示模型。
本申请中,通过新类型的预训练任务的学习训练,提高语义表示模型的能力,同时在学习新类型的预训练任务时保持学习之前类型的预训练任务的学习训练,避免语义表示模型遗忘之前学习训练到的能力,从而不断优化语义表示模型的语义表达能力,持续提高语义表示模型的模型效果。
根据本申请的实施例,本申请还提供一种基于语义表示模型的任务处理装置。
如图7所示,是根据本申请实施例的基于语义表示模型的任务处理方法的基于语义表示模型的任务处理装置的结构示意图。如图7所示,本申请的基于语义表示模型的任务处理装置700可以包括:获取模块701和处理模块702。
获取模块701,用于获取任务处理请求,任务处理请求包括待处理任务;
获取模块701,还用于根据任务处理请求,获取与待处理任务相关的待表示数据。处理模块702,用于采用预配置的语义表示模型,对与待表示数据进行语义分析,以获取待表示数据的语义表示,预配置的语义表示模型为根据与待处理任务相同类型的应用数据,对目标语义表示模型进行调整训练得到的,目标语义表示模型为学习训练语料中的词法、语法和语义的模型。
可选地,获取模块701,还用于获取预配置的语义表示模型,具体的获取方式包括:获取与待处理任务相同类型的应用数据。根据应用数据,对目标语义表示模型进行调整训练,得到与待处理任务相同类型的目标语义表示模型。将与待处理任务相同类型的目标语义表示模型确定为预配置的语义表示模型。
可选地,待处理任务的类型包括如下至少一种:语义匹配类型、情感分析类型、机器翻译类型、对话理解类型和信息抽取类型。
可选地,获取模块701,还用于获取目标语义表示模型,具体的获取方式包括:获取训练语料。根据训练语料中的数据,得到至少一个预训练任务,至少一个预训练任务用于学习数据的词法、语法和语义中的至少一种。根据至少一个预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型。
可选地,获取模块701,具体用于针对至少一个预训练任务中的任意一个预训练任务,获取预训练任务的词表示、段表示、位置表示和任务表示;将预训练任务的词表示、段表示、位置表示和任务表示输入到初始语义表示模型的编码器中进行编码计算,得到预训练任务的上下文表示;将预训练任务的上下文表示输入到初始语义表示模型的分类器中进行学习训练,得到预训练任务的学习损失值;若预训练任务的学习损失值满足预设损失阈值,则得到目标语义表示模型。
可选地,获取模块701,还用于根据至少一个第一预训练任务中每个第一预训练任务的学习损失值和类型,确定预训练任务的类型比例;根据训练语料中的数据,得到满足类型比例的多个第二预训练任务,多个第二预训练任务用于学习数据的词法、语法和语义中的至少一种,多个第二预训练任务的类型与至少一个第一预训练任务的类型部分不同;根据多个第二预训练任务,对目标语义表示模型进行学习训练,得到学习训练后的目标语义表示模型。
可选地,获取模块701,具体用于根据至少一个第一预训练任务中每个第一预训练任务的学习损失值,确定满足预设损失阈值的第一预训练任务的第一类型;根据第一类型和预训练任务的全部类型,确定类型比例。
可选地,获取模块701,还用于在根据至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型之后,将初始语义表示模型替换为目标语义表示模型;并重复执行获取训练语料、根据训练语料中的数据,得到至少一个第一预训练任务以及根据至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型的过程。
可选地,当预训练任务的类型为词法级别任务时,预训练任务包括如下至少一种:学习目标信息是否为大写和预测目标片段中的目标信息在其他片段中是否出现;
或者,
当预训练任务的类型为语法级别任务时,预训练任务包括如下至少一种:预测目标片段的顺序类别和判断目标语句对的位置类型;
或者,
当预训练任务的类型为语义级别任务时,预训练任务包括如下至少一种:学习目标相邻语句对的逻辑关系和学习目标语句对的检索相关关系。
本申请的基于语义表示模型的任务处理装置,可以用于执行图1-图6所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明中可以根据上述方法示例对基于语义表示模型的任务处理装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明各实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图8所示,是根据本申请实施例的基于语义表示模型的任务处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图8所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的基于语义表示模型的任务处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的基于语义表示模型的任务处理方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的基于语义表示模型的任务处理方法对应的程序指令/模块(例如,附图7所示的获取模块701和处理模块702)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的基于语义表示模型的任务处理方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据基于语义表示模型的任务处理方法的电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至基于语义表示模型的任务处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
基于语义表示模型的任务处理方法的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与基于语义表示模型的任务处理方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过使用海量无标注的训练语料,可以构建支持词汇、语法、语义等层次的自定义预训练任务,实现无监督自主的学习,能够捕捉训练语料中的词法、语法、语义等潜在信息,从而得到一个通用的语义表示模型,不仅充分利用训练语料中的数据,还提高了通用语言表示的性能。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (18)

1.一种基于语义表示模型的任务处理方法,其特征在于,包括:
获取任务处理请求,所述任务处理请求包括待处理任务;
根据所述任务处理请求,获取与所述待处理任务相关的待表示数据;
采用预配置的语义表示模型,对所述待表示数据进行语义分析,以获取所述待表示数据的语义表示,所述预配置的语义表示模型为根据与所述待处理任务相同类型的应用数据,对目标语义表示模型进行调整训练得到的,所述目标语义表示模型为学习训练语料中的词法、语法和语义的模型;
所述目标语义表示模型的获取方式包括:
获取所述训练语料;
根据所述训练语料中的数据,得到至少一个第一预训练任务,所述至少一个第一预训练任务用于学习所述数据的词法、语法和语义中的至少一种;
根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型。
2.根据权利要求1所述的方法,其特征在于,所述预配置的语义表示模型的获取方式包括:
获取与所述待处理任务相同类型的应用数据;
根据所述应用数据,对目标语义表示模型进行调整训练,得到与所述待处理任务相同类型的目标语义表示模型;
将与所述待处理任务相同类型的目标语义表示模型确定为所述预配置的语义表示模型。
3.根据权利要求2所述的方法,其特征在于,所述待处理任务的类型包括如下至少一种:语义匹配类型、情感分析类型、机器翻译类型、对话理解类型和信息抽取类型。
4.根据权利要求2所述的方法,其特征在于,所述根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型,包括:
针对所述至少一个第一预训练任务中的任意一个第一预训练任务,获取所述第一预训练任务的词表示、段表示、位置表示和任务表示;
将所述第一预训练任务的词表示、段表示、位置表示和任务表示输入到所述初始语义表示模型的编码器中进行编码计算,得到所述第一预训练任务的上下文表示;
将所述第一预训练任务的上下文表示输入到所述初始语义表示模型的分类器中进行学习训练,得到所述第一预训练任务的学习损失值;
若所述第一预训练任务的学习损失值满足预设损失阈值,则得到所述目标语义表示模型。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述至少一个第一预训练任务中每个第一预训练任务的学习损失值和类型,确定预训练任务的类型比例;
根据所述训练语料中的数据,得到满足所述类型比例的多个第二预训练任务,所述多个第二预训练任务用于学习所述数据的词法、语法和语义中的至少一种,所述多个第二预训练任务的类型与所述至少一个第一预训练任务的类型部分不同;
根据所述多个第二预训练任务,对所述目标语义表示模型进行学习训练,得到学习训练后的目标语义表示模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述至少一个第一预训练任务中每个第一预训练任务的学习损失值和类型,确定预训练任务的类型比例,包括:
根据所述至少一个第一预训练任务中每个第一预训练任务的学习损失值,确定满足所述预设损失阈值的第一预训练任务的第一类型;
根据所述第一类型和预训练任务的全部类型,确定所述类型比例。
7.根据权利要求2所述的方法,其特征在于,在所述根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型之后,还包括:
将所述初始语义表示模型替换为所述目标语义表示模型,并重复执行获取训练语料、根据所述训练语料中的数据,得到至少一个第一预训练任务以及根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型的过程。
8.根据权利要求2-7任一项所述的方法,其特征在于,
当预训练任务的类型为词法级别任务时,预训练任务包括如下至少一种:学习目标信息是否为大写和预测目标片段中的目标信息在其他片段中是否出现;
或者,
当预训练任务的类型为语法级别任务时,预训练任务包括如下至少一种:预测目标片段的顺序类别和判断目标语句对的位置类型;
或者,
当预训练任务的类型为语义级别任务时,预训练任务包括如下至少一种:学习目标相邻语句对的逻辑关系和学习目标语句对的检索相关关系。
9.一种基于语义表示模型的任务处理装置,其特征在于,包括:
获取模块,用于获取任务处理请求,所述任务处理请求包括待处理任务;
所述获取模块,还用于根据所述任务处理请求,获取与所述待处理任务相关的待表示数据;
处理模块,用于采用预配置的语义表示模型,对所述待表示数据进行语义分析,以获取所述待表示数据的语义表示,所述预配置的语义表示模型为根据与所述待处理任务相同类型的应用数据,对目标语义表示模型进行调整训练得到的,所述目标语义表示模型为学习训练语料中的词法、语法和语义的模型;
所述获取模块,还用于获取所述目标语义表示模型,具体的获取方式包括:获取所述训练语料;根据所述训练语料中的数据,得到至少一个第一预训练任务,所述至少一个第一预训练任务用于学习所述数据的词法、语法和语义中的至少一种;根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型。
10.根据权利要求9所述的装置,其特征在于,所述获取模块,还用于获取所述预配置的语义表示模型,具体的获取方式包括:获取与所述待处理任务相同类型的应用数据;根据所述应用数据,对目标语义表示模型进行调整训练,得到与所述待处理任务相同类型的目标语义表示模型;将与所述待处理任务相同类型的目标语义表示模型确定为所述预配置的语义表示模型。
11.根据权利要求10所述的装置,其特征在于,所述待处理任务的类型包括如下至少一种:语义匹配类型、情感分析类型、机器翻译类型、对话理解类型和信息抽取类型。
12.根据权利要求10所述的装置,其特征在于,所述获取模块,具体用于针对所述至少一个第一预训练任务中的任意一个第一预训练任务,获取所述第一预训练任务的词表示、段表示、位置表示和任务表示;将所述第一预训练任务的词表示、段表示、位置表示和任务表示输入到所述初始语义表示模型的编码器中进行编码计算,得到所述第一预训练任务的上下文表示;将所述第一预训练任务的上下文表示输入到所述初始语义表示模型的分类器中进行学习训练,得到所述第一预训练任务的学习损失值;若所述第一预训练任务的学习损失值满足预设损失阈值,则得到所述目标语义表示模型。
13.根据权利要求12所述的装置,其特征在于,所述获取模块,还用于根据所述至少一个第一预训练任务中每个第一预训练任务的学习损失值和类型,确定预训练任务的类型比例;根据所述训练语料中的数据,得到满足所述类型比例的多个第二预训练任务,所述多个第二预训练任务用于学习所述数据的词法、语法和语义中的至少一种,所述多个第二预训练任务的类型与所述至少一个第一预训练任务的类型部分不同;根据所述多个第二预训练任务,对所述目标语义表示模型进行学习训练,得到学习训练后的目标语义表示模型。
14.根据权利要求13所述的装置,其特征在于,所述获取模块,具体用于根据所述至少一个第一预训练任务中每个第一预训练任务的学习损失值,确定满足所述预设损失阈值的第一预训练任务的第一类型;根据所述第一类型和预训练任务的全部类型,确定所述类型比例。
15.根据权利要求10所述的装置,其特征在于,所述获取模块,还用于在根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型之后,将所述初始语义表示模型替换为所述目标语义表示模型;并重复执行获取训练语料、根据所述训练语料中的数据,得到至少一个第一预训练任务以及根据所述至少一个第一预训练任务,对初始语义表示模型进行学习训练,得到目标语义表示模型的过程。
16.根据权利要求10-15任一项所述的装置,其特征在于,
当预训练任务的类型为词法级别任务时,预训练任务包括如下至少一种:学习目标信息是否为大写和预测目标片段中的目标信息在其他片段中是否出现;
或者,
当预训练任务的类型为语法级别任务时,预训练任务包括如下至少一种:预测目标片段的顺序类别和判断目标语句对的位置类型;
或者,
当预训练任务的类型为语义级别任务时,预训练任务包括如下至少一种:学习目标相邻语句对的逻辑关系和学习目标语句对的检索相关关系。
17.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的基于语义表示模型的任务处理方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的基于语义表示模型的任务处理方法。
CN201910713555.3A 2019-08-02 2019-08-02 基于语义表示模型的任务处理方法和装置 Active CN110427627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910713555.3A CN110427627B (zh) 2019-08-02 2019-08-02 基于语义表示模型的任务处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910713555.3A CN110427627B (zh) 2019-08-02 2019-08-02 基于语义表示模型的任务处理方法和装置

Publications (2)

Publication Number Publication Date
CN110427627A CN110427627A (zh) 2019-11-08
CN110427627B true CN110427627B (zh) 2023-04-28

Family

ID=68414072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910713555.3A Active CN110427627B (zh) 2019-08-02 2019-08-02 基于语义表示模型的任务处理方法和装置

Country Status (1)

Country Link
CN (1) CN110427627B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717339B (zh) * 2019-12-12 2020-06-30 北京百度网讯科技有限公司 语义表示模型的处理方法、装置、电子设备及存储介质
CN111127191B (zh) * 2019-12-25 2023-07-14 北京百度网讯科技有限公司 风险评估方法及装置
CN111507111B (zh) * 2020-03-19 2021-11-23 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备及存储介质
CN113496122A (zh) * 2020-04-08 2021-10-12 中移(上海)信息通信科技有限公司 命名实体识别方法、装置、设备及介质
CN111597778B (zh) * 2020-04-15 2023-05-30 哈尔滨工业大学 一种基于自监督的机器翻译译文自动优化的方法和系统
CN111444721B (zh) * 2020-05-27 2022-09-23 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111753552B (zh) * 2020-07-02 2024-04-19 浙江百应科技有限公司 一种基于nlp的训练模式与识别模式动态切换的方法
CN113051910B (zh) * 2021-03-19 2023-05-26 上海森宇文化传媒股份有限公司 一种用于预测人物角色情绪的方法和装置
CN114417974B (zh) * 2021-12-22 2023-06-20 北京百度网讯科技有限公司 模型训练方法、信息处理方法、装置、电子设备和介质
CN114840327B (zh) * 2022-06-29 2022-12-02 阿里巴巴达摩院(杭州)科技有限公司 多模态多任务的处理方法、设备及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016197303A1 (en) * 2015-06-08 2016-12-15 Microsoft Technology Licensing, Llc. Image semantic segmentation
CN107480196A (zh) * 2017-07-14 2017-12-15 中国科学院自动化研究所 一种基于动态融合机制的多模态词汇表示方法
CN107516110A (zh) * 2017-08-22 2017-12-26 华南理工大学 一种基于集成卷积编码的医疗问答语义聚类方法
CN107657008A (zh) * 2017-09-25 2018-02-02 中国科学院计算技术研究所 基于深度判别排序学习的跨媒体训练及检索方法
CN108111478A (zh) * 2017-11-07 2018-06-01 中国互联网络信息中心 一种基于语义理解的网络钓鱼识别方法和装置
CN108255813A (zh) * 2018-01-23 2018-07-06 重庆邮电大学 一种基于词频-逆文档与crf的文本匹配方法
CN108363698A (zh) * 2018-03-13 2018-08-03 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN108509519A (zh) * 2018-03-09 2018-09-07 北京邮电大学 基于深度学习的通用知识图谱增强问答交互系统及方法
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310862A1 (en) * 2014-04-24 2015-10-29 Microsoft Corporation Deep learning for semantic parsing including semantic utterance classification
US20160012038A1 (en) * 2014-07-10 2016-01-14 International Business Machines Corporation Semantic typing with n-gram analysis
US9760734B2 (en) * 2015-06-26 2017-09-12 Sap Se Catalog-based user authorization to access to multiple applications
US10089576B2 (en) * 2015-07-28 2018-10-02 Microsoft Technology Licensing, Llc Representation learning using multi-task deep neural networks
US9886501B2 (en) * 2016-06-20 2018-02-06 International Business Machines Corporation Contextual content graph for automatic, unsupervised summarization of content
US20180018573A1 (en) * 2016-07-12 2018-01-18 Xerox Corporation Vector operators for distributional entailment
US10120861B2 (en) * 2016-08-17 2018-11-06 Oath Inc. Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
US10162844B1 (en) * 2017-06-22 2018-12-25 NewVoiceMedia Ltd. System and methods for using conversational similarity for dimension reduction in deep analytics

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016197303A1 (en) * 2015-06-08 2016-12-15 Microsoft Technology Licensing, Llc. Image semantic segmentation
CN107480196A (zh) * 2017-07-14 2017-12-15 中国科学院自动化研究所 一种基于动态融合机制的多模态词汇表示方法
CN107516110A (zh) * 2017-08-22 2017-12-26 华南理工大学 一种基于集成卷积编码的医疗问答语义聚类方法
CN107657008A (zh) * 2017-09-25 2018-02-02 中国科学院计算技术研究所 基于深度判别排序学习的跨媒体训练及检索方法
CN108111478A (zh) * 2017-11-07 2018-06-01 中国互联网络信息中心 一种基于语义理解的网络钓鱼识别方法和装置
CN108255813A (zh) * 2018-01-23 2018-07-06 重庆邮电大学 一种基于词频-逆文档与crf的文本匹配方法
CN108509519A (zh) * 2018-03-09 2018-09-07 北京邮电大学 基于深度学习的通用知识图谱增强问答交互系统及方法
CN108363698A (zh) * 2018-03-13 2018-08-03 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于多重隐语义表示模型的旅游路线挖掘";孙彦鹏 等;《模式识别与人工智能》;20180515;第31卷(第5期);第462-469页 *

Also Published As

Publication number Publication date
CN110427627A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN110427627B (zh) 基于语义表示模型的任务处理方法和装置
EP3835996A1 (en) Method, apparatus, electronic device and storage medium for processing a semantic representation model
KR102448129B1 (ko) 엔티티 연결 방법, 장치, 기기 및 저장 매체
EP3916614A1 (en) Method and apparatus for training language model, electronic device, readable storage medium and computer program product
JP7398402B2 (ja) 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111144115B (zh) 预训练语言模型获取方法、装置、电子设备和存储介质
US10831796B2 (en) Tone optimization for digital content
CN111507104B (zh) 建立标签标注模型的方法、装置、电子设备和可读存储介质
EP3916612A1 (en) Method and apparatus for training language model based on various word vectors, device, medium and computer program product
CN112001181B (zh) 多语言语义表示模型的训练方法、装置、设备及存储介质
KR102565673B1 (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
CN111709234B (zh) 文本处理模型的训练方法、装置及电子设备
CN111859995B (zh) 机器翻译模型的训练方法、装置、电子设备及存储介质
KR102573637B1 (ko) 엔티티 링킹 방법, 장치, 전자 기기 및 기록 매체
CN112528001B (zh) 一种信息查询方法、装置及电子设备
CN112001190A (zh) 自然语言处理模型的训练方法、装置、设备及存储介质
JP2021096838A (ja) 多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体
CN111797216B (zh) 检索项改写方法、装置、设备以及存储介质
CN111859953B (zh) 训练数据的挖掘方法、装置、电子设备及存储介质
US20210334659A1 (en) Method and apparatus for adversarial training of machine learning model, and medium
CN111259162B (zh) 对话交互方法、装置、设备和存储介质
CN111984774B (zh) 搜索方法、装置、设备以及存储介质
CN112528669B (zh) 多语言模型的训练方法、装置、电子设备和可读存储介质
CN114444462B (zh) 模型训练方法及人机交互方法、装置
CN113360751A (zh) 意图识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant