CN113688245B - 基于人工智能的预训练语言模型的处理方法、装置及设备 - Google Patents

基于人工智能的预训练语言模型的处理方法、装置及设备 Download PDF

Info

Publication number
CN113688245B
CN113688245B CN202111016984.9A CN202111016984A CN113688245B CN 113688245 B CN113688245 B CN 113688245B CN 202111016984 A CN202111016984 A CN 202111016984A CN 113688245 B CN113688245 B CN 113688245B
Authority
CN
China
Prior art keywords
sentence
text sample
language model
trained
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111016984.9A
Other languages
English (en)
Other versions
CN113688245A (zh
Inventor
殷子墨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202111016984.9A priority Critical patent/CN113688245B/zh
Publication of CN113688245A publication Critical patent/CN113688245A/zh
Application granted granted Critical
Publication of CN113688245B publication Critical patent/CN113688245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Abstract

本发明公开了一种基于人工智能的预训练语言模型的处理方法,应用于人工智能技术领域,用于解决现有的分类模型对一词多义的语句理解能力弱的技术问题。本发明提供的方法包括:构建文本样本语句;通过该文本样本语句对待训练的预训练语言模型进行第一阶段预训练;当该待训练的预训练语言模型的输出对该文本样本语句的输出与该文本样本语句所属的类别相同时,得到训练好的预训练语言模型;将训练好的该预训练语言模型作为分类模型的编码器,将训练好的该预训练语言模型的参数作为该编码器的初始参数,在该编码器之后构建全连接层,得到初始分类模型;根据该初始分类模型的应用需求,对该初始分类模型进行第二阶段训练,得到训练好的分类模型。

Description

基于人工智能的预训练语言模型的处理方法、装置及设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的预训练语言模型的处理方法、装置、计算机设备及存储设备。
背景技术
近几年,预训练语言模型成为了自然语言处理领域关注的焦点,通过预先训练好的预训练语言模型来训练大规模语言模型时,有利于下游任务中进行参数调优,使得大规模语言模型能够表现出更优异的预测效果。
其中,预训练语言模型的效果是受到训练数据以及训练任务的影响的,在同等的训练数据上,不同的预训练任务设置,会使训练后得到的模型能力有强弱之分。以BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型为例,它使用两个预训练任务分别进行训练,例如其一是通过Mask LM任务根据上下文预测文本中的某个词,其二是通过NSP(Next Sentence Prediction,预测下一句)任务预测两个文本是否是连续的文本,有论文指出NSP任务的难度很小,导致它对大规模语言模型的输出结果的提升效果很小,甚至不如不加。
在对预训练模型进行训练时,对文本训练样本通常的处理方式是将文本样本转换为词向量,各个词语最终是通过词向量的形式进行表达,但是词向量是静态的表示,即同一词语在任何语境下都是用相同的向量来表达,并不利于语言模型对一词多义的样本进行理解,目前还没有较好的处理方式能够解决这一问题。
发明内容
本发明实施例提供一种基于人工智能的预训练语言模型的处理方法、装置、计算机设备及存储介质,以解决现有的分类模型对一词多义的语句理解能力弱的技术问题。
一种基于人工智能的预训练语言模型的处理方法,该方法包括:
构建文本样本语句,该文本样本语句包括正文本样本语句和负文本样本语句,该正文本样本语句中包含有一词多义的相同词语的个数为至少两个,且至少两个该相同词语的表意为至少两种,该负文本样本语句中包含有该一词多义的该词语的个数为一个;
通过该文本样本语句对待训练的预训练语言模型进行第一阶段预训练;
当该待训练的预训练语言模型的输出对该文本样本语句的输出与该文本样本语句所属的类别相同时,得到训练好的预训练语言模型;
将训练好的该预训练语言模型作为分类模型的编码器,将训练好的该预训练语言模型的参数作为该编码器的初始参数,在该编码器之后构建全连接层,得到初始分类模型;
根据该初始分类模型的应用需求,对该初始分类模型进行第二阶段训练,得到训练好的分类模型。
一种基于人工智能的预训练语言模型的处理装置,该装置包括:
样本构建模块,用于构建文本样本语句,该文本样本语句包括正文本样本语句和负文本样本语句,该正文本样本语句中包含有一词多义的相同词语的个数为至少两个,且至少两个该相同词语的表意为至少两种,该负文本样本语句中包含有该一词多义的该词语的个数为一个;
预训练模块,用于通过该文本样本语句对待训练的预训练语言模型进行第一阶段预训练;
判断模块,用于当该待训练的预训练语言模型的输出对该文本样本语句的输出与该文本样本语句所属的类别相同时,得到训练好的预训练语言模型;
模型构建模块,用于将训练好的该预训练语言模型作为分类模型的编码器,将训练好的该预训练语言模型的参数作为该编码器的初始参数,在该编码器之后构建全连接层,得到初始分类模型;
第二训练模块,用于根据该初始分类模型的应用需求,对该初始分类模型进行第二阶段训练,得到训练好的分类模型。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于人工智能的预训练语言模型的处理方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于人工智能的预训练语言模型的处理方法的步骤。
本发明提出的基于人工智能的预训练语言模型的处理方法、装置、计算机设备及存储介质,通过包含有一词多义的词语的文本样本语句对预训练模型先进行预训练,使得预训练语言模型带来的文本表示是动态的,即跟输入文本的每一个字符相关,在将该预训练好的预训练语言模型作为编码器应用于初始分类模型中时,将训练好的该预训练语言模型的参数作为该编码器的初始参数,由于该编码器已经预先学习到同一词语可以在哪些语境中进行出现,便于分类模型在做具体的分类任务时对于一词多义进行更好的理解,使得通过该大规模分类模型在进行例如新闻分类、文本情感预测、用户评论分类时,能够有更好的分类或者预测的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于人工智能的预训练语言模型的处理方法的一应用环境示意图;
图2是本发明一实施例中基于人工智能的预训练语言模型的处理方法的一流程图;
图3是本发明一实施例中构建文本样本语句的一流程图;
图4是本发明一实施例中通过文本样本语句对待训练的预训练语言模型进行第一阶段预训练的一流程图;
图5是本发明一实施例中基于人工智能的预训练语言模型的处理装置的结构示意图;
图6是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的种基于人工智能的预训练语言模型的处理方法,可应用在如图1的应用环境中,其中,该计算机设备可以通过网络与服务器进行通信。其中,计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。该服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
其中,本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在一实施例中,为了加强分类模型对一词多义的理解,使得模型能够学习到同一词语可以在哪些语境下出现,从而提高分类模型在对具体任务进行预测或者分类时,能够体现出更优异的效果,如图2所示,本实施例提出了提供一种基于人工智能的预训练语言模型的处理方法,以该方法应用在图1中的计算机设备为例进行说明,包括如下步骤S101至S105。
S101、构建文本样本语句,所述文本样本语句包括正文本样本语句和负文本样本语句,所述正文本样本语句中包含有一词多义的相同词语的个数为至少两个,且至少两个所述相同词语的表意为至少两种,所述负文本样本语句中包含有所述一词多义的所述词语的个数为一个。
其中,所述正文本样本语句表示该样本语句中包含有一词多义的词语,且该词语的数量为多个,所述负文本样本语句表示该样本语句中包含有所述一词多义的词语,且该词语的数量为一个。
图3是本发明一实施例中构建文本样本语句的一流程图,在其中一个实施例中,如图3所示,构建所述文本样本语句的步骤包括以下步骤S301和S302:
S301、从语料库中选取包括有相同词语的两个不同的语句,将所述两个不同的句子组成一组作为所述正文本样本语句;
S302、从所述语料库中抽取包含有所述相同词语的第一语句,并从所述语料库中随机抽取第二语句,将所述第一语句与所述第二语句组成一组作为所述负文本样本语句。
本实施例通智能从语料库中挑选正文本样本语句和负文本样本语句,将包括有相同词语的两个不同的语句进行组合,作为正文本样本语句,将包含有所述相同词语的第一语句以及从所述语料库中随机抽取第二语句进行组合,作为负文本样本语句,实现了文本样本语句的智能构建,提高了文本样本语句的构建效率。
在其中一个实施例中,构建所述文本样本语句的步骤还包括:
将所述正文本样本语句的两个不同的语句中的所述相同词语均用预设字符进行替换,得到对应的正样本替换语句;
将各所述正样本替换语句进行组合拼接,得到所述正文本样本语句;
将所述负文本样本语句的第一语句中包含的一个所述一词多义的词语用所述预设字符进行替换,得到第一替换语句;
在所述负文本样本语句的第二语句中随机选择一个随机词语用所述预设字符进行替换,得到第二替换语句;
将所述第一替换语句与所述第二替换语句进行组合拼接,得到所述负文本样本语句。
在其中一个实施例中,所述预设字符例如为“mask”。本实施例通过将正文本样本语句中两个不同的语句中的相同词语均用预设字符进行替换并进行组合拼接,得到正文本样本语句,同时将负文本样本语句中的该一词多义的词语用该预设字符进行替换,并将随机选择一个随机词语也用该预设字符进行替换,使得系统可以根据拼接后的句子中被替换词语是否相同,智能识别该文本样本语句为正文本样本语句还是负文本样本语句,在智能构建该文本样本语句的同时智能生成对应文本样本语句所属的类别为正文本样本语句还是负文本样本语句的标签,省去了人工标注的步骤,提高了样本语句的生成效率,同时可以缩短预训练语言模型的训练周期。
在其中一个实施例中,所述从所述语料库中抽取包含有所述相同词语的第一语句的步骤进一步包括:
从所述正文本样本语句中随机选取一个语句作为所述第一语句。
根据本实施例的一个应用场景例如:
从语料库中选取包括有相同词语的两个不同的语句分别为“苹果和华为谁的性价比高”和“你喜欢吃梨还是苹果”,这两个语句中包括有一词多义的词语“苹果”;
将这两个语句分别进行替换和组合拼接后得到的正文本样本语句为:
[cls][mask][mask]和华为谁的性价比高[sep]你喜欢吃梨还是[mask][mask][sep]。
从所述正文本样本语句中随机选取一个语句作为所述第一语句,例如为“苹果和华为谁的性价比高”;
从所述语料库中随机抽取第二语句例如为“今天天气不错”。
将所述第一语句和所述第二语句进行替换和组合拼接后得到的负文本样本语句为:
[cls][mask][mask]和华为谁的性价比高[sep]今天[mask][mask]不错[sep]。
其中,[cls]用于标识一个句子的首位,[sep]用于标识两个语句,[mask]用于标识遮盖掉的词语。
在其中一个实施例中,构建所述文本样本语句的步骤还包括:
根据预先设置的第一标签符号,对包括有相同词语的两个不同的语句添加正样本标签;
根据预先设置的第二标签符号,对组成的所述负文本样本语句添加负样本标签。
本实施例通过对文本样本语句所属的类型为正样本还是负样本进行智能识别,将包括有相同词语的两个不同的语句对应的对文本样本语句识别为正文本样本语句,并根据预先设置的第一标签符号进行标注,同时,将组成的所述负文本样本语句添加负样本标签,不需要人工对文本样本语句所属的类型额外进行标注,提高了文本样本语句的标注效率,进一步提高了文本样本语句的构建效率。
S102、通过所述文本样本语句对待训练的预训练语言模型进行第一阶段预训练。
图4是本发明一实施例中通过文本样本语句对待训练的预训练语言模型进行第一阶段预训练的一流程图,在其中一个实施例中,如图4所示,所述通过所述文本样本语句对待训练的预训练语言模型进行第一阶段预训练的步骤包括以下步骤S401至S403:
S401、将所述文本样本语句输入至所述待训练的预训练语言模型,得到所述文本样本语句为正样本或负样本的输出结果;
S402、当所述输出结果与所述文本样本语句实际所属的类型不相同时,调整所述预训练语言模型的参数;
S403、循环所述将所述文本样本语句输入至所述待训练的预训练语言模型,至所述调整所述预训练语言模型的参数之间的步骤,直至所述预训练语言模型对所述文本样本语句的输出结果与所述文本样本语句实际所属的类型相同。
可以理解的是,本实施例提出的预训练语言模型的处理方法中,在构建文本样本语句时,通过识别文本样本语句中包含的相同词语的个数,可以智能识别该为本样本语句为正文本样本语句或负文本样本语句,可以智能对该文本样本语句所属的类型添加标签,但是在对该正文本样本语句中一词多义的多个相同的词语用相同的字符进行替换,并对负文本样本语句中的该一词多义的词语和随机词语均通过所述字符进行替换之后,预训练语言模型在训练初始时并不知道该文本样本语句中替换过的词语是否为同一表意,通过本实施例提出的预训练方法对该预训练语言模型进行预训练,使得训练好的预训练语言模型能够学习到同一词语可以在哪些语境中出现。
S103、当所述待训练的预训练语言模型的输出对所述文本样本语句的输出与所述文本样本语句所属的类别相同时,得到训练好的预训练语言模型。
可以理解的是,当所述预训练语言模型对所述文本样本语句的输出与所述文本样本语句所属的类别相同时,表示该预训练语言模型能够识别到对应mask掉的词语能够在哪些语境中出现。
S104、将训练好的所述预训练语言模型作为分类模型的编码器,将训练好的所述预训练语言模型的参数作为所述编码器的初始参数,在所述编码器之后构建全连接层,得到初始分类模型。
在其中一个实施例中,所述预训练语言模型例如为BERT语言模型。可以理解的是,该全连接层在所述语言模型中所起的作用是充当分类器。
将训练好的所述预训练语言模型作为语言模型的编码器,并将训练好的所述预训练语言模型的参数作为所述编码器的初始参数,将该编码器构建为语言模型的一部分。
S105、根据所述初始分类模型的应用需求,对所述初始分类模型进行第二阶段训练,得到训练好的分类模型。
在其中一个实施例中,所述分类模型的应用需求包括但不限于对新闻消息所属的类别进行分类、根据用户输出的文字或者语音信息对用户的情感进行分类、根据用户的评论识别该评论是否具有攻击性,例如,该新闻是属于财经类、体育类还是科技类,该用户的情感属于正向还是负向,该用户的评论具有攻击性或不具有攻击性。
在其中一个实施例中,当所述初始分类模型的应用需求为对新闻所属的类别进行分类时,所述对所述初始分类模型进行第二阶段训练的步骤进一步包括:
获取携带有类型标注的新闻文本样本;
对所述新闻文本样本进行分词及转换,得到新闻文本样本向量;
将所述新闻文本样本向量输入至所述初始分类模型,通过所述初始分类模型输出所述新闻文本样本的预测类别;
判断所述预测类别与标注的所述类型是否相同;
当所述预测类别与标注的所述类型不相同时,调节所述编码器的所述初始参数及所述分类器的默认参数;
循环所述获取携带有类型标注的新闻文本样本,至所述当所述预测类别与标注的所述类型不相同时,调节所述编码器的所述初始参数及所述分类器的默认参数之间的步骤,直到所述预测类别与标注的所述类型相同时,得到训练好的分类模型。
在通过该实施例中训练好的分类模型对待分类的新闻消息进行分类时,首先将该新闻消息进行分词和转换,得到新闻文本向量,将该新闻文本向量输入至该实施例中训练好的分类模型,即可得到该待分类的新闻消息的分类结果,该分类结果包括但不限于财经类、体育类、科技类等。
在其中一个实施例中,当所述初始分类模型的应用需求为对用户的情感进行分类时,所述对所述初始分类模型进行第二阶段训练的步骤进一步包括:
获取携带有情感标签的文章样本;
对所述文章样本进行分词及转换,得到文章样本向量;
将所述文章样本向量输入至所述初始分类模型,通过所述初始分类模型输出所述文章样本的预测情感分类;
判断所述预测情感分类与所述情感标签中的情感分类是否相同;
当所述预测情感分类与所述情感标签中的情感分类不相同时,调节所述编码器的所述初始参数及所述分类器的默认参数;
循环所述获取携带有情感标签的文章样本,至所述当所述预测情感分类与所述情感标签中的情感分类不相同时,调节所述编码器的所述初始参数及所述分类器的默认参数之间的步骤,直到所述预测情感分类与所述情感标签中的情感分类相同。
在通过该实施例中训练好的分类模型对用户发表的文本消息进行情感预测时,将该用户发表的文本消息转换为对应的文本向量,将该文本向量输入至该实施例中训练好的分类模型,即可得到该用户发表的文本消息所属的情感分类结果,该情感分类结果可是消极的,也可以是积极的。
本实施例通过一词多义的样本对预训练模型直接进行预训练,使得预训练语言模型带来的文本表示是动态的,即跟输入文本的每一个字符相关,将该预训练好的预训练语言模型作为编码器应用于分类模型中时,由于编码器已经预先学习到同一词语可以在哪些语境中进行出现,便于分类模型在做具体的分类任务时对于一词多义进行更好的理解,使得通过该大规模分类模型进行例如新闻分类、文本情感预测、用户评论分类时,能够有更好的分类或者预测的效果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于人工智能的预训练语言模型的处理装置,该基于人工智能的预训练语言模型的处理装置与上述实施例中基于人工智能的预训练语言模型的处理方法一一对应。如图5所示,该基于人工智能的预训练语言模型的处理装置100包括样本构建模块11、预训练模块12、判断模块13、模型构建模块14和第二训练模块15。各功能模块详细说明如下:
样本构建模块11,用于构建文本样本语句,该文本样本语句包括正文本样本语句和负文本样本语句,该正文本样本语句中包含有一词多义的相同词语的个数为至少两个,且至少两个该相同词语的表意为至少两种,该负文本样本语句中包含有该一词多义的该词语的个数为一个;
预训练模块12,用于通过该文本样本语句对待训练的预训练语言模型进行第一阶段预训练;
判断模块13,用于当该待训练的预训练语言模型的输出对该文本样本语句的输出与该文本样本语句所属的类别相同时,得到训练好的预训练语言模型;
模型构建模块14,用于将训练好的该预训练语言模型作为分类模型的编码器,将训练好的该预训练语言模型的参数作为该编码器的初始参数,在该编码器之后构建全连接层,得到初始分类模型;
第二训练模块15,用于根据该初始分类模型的应用需求,对该初始分类模型进行第二阶段训练,得到训练好的分类模型。
在其中一个实施例中,该初始分类模型的应用需求包括对新闻消息所属的类别进行分类、根据用户输出的文字或语音信息对用户的情感进行分类和/或根据用户的评论识别该评论是否具有攻击性。例如:该新闻消息是属于财经类、体育类还是科技类;该用户的情感属于正向还是负向;该用户的评论具有攻击性或不具有攻击性等等。
本实施例提出的基于人工智能的预训练语言模型的处理装置,通过包含有一词多义的词语的文本样本语句对预训练模型先进行预训练,使得预训练语言模型带来的文本表示是动态的,即跟输入文本的每一个字符相关,在将该预训练好的预训练语言模型作为编码器应用于初始分类模型中时,将训练好的该预训练语言模型的参数作为该编码器的初始参数,由于该编码器已经预先学习到同一词语可以在哪些语境中进行出现,便于分类模型在做具体的分类任务时对于一词多义进行更好的理解,使得通过该大规模分类模型在进行例如新闻分类、文本情感预测、用户评论分类时,能够有更好的分类或者预测的效果。
在其中一个实施例中,该样本构建模块11具体包括:
语句选取单元,用于从语料库中选取包括有相同词语的两个不同的语句,将该两个不同的句子组成一组作为该正文本样本语句;
语句抽取单元,用于从该语料库中抽取包含有该相同词语的第一语句,并从该语料库中随机抽取第二语句,将该第一语句与该第二语句组成一组作为该负文本样本语句。
本实施例通提出的语句选取单元和语句抽取单元,能够智能从语料库中挑选正文本样本语句和负文本样本语句,将包括有相同词语的两个不同的语句进行组合,作为正文本样本语句,将包含有所述相同词语的第一语句以及从所述语料库中随机抽取第二语句进行组合,作为负文本样本语句,实现了文本样本语句的智能构建,提高了文本样本语句的构建效率。
进一步地,该语句抽取单元具体用于从该正文本样本语句中随机选取一个语句作为该第一语句。
作为可选地,该样本构建模块11具体还包括:
第一替换单元,用于将该正文本样本语句的两个不同的语句中的该相同词语均用预设字符进行替换,得到对应的正样本替换语句;
第一拼接单元,用于将各该正样本替换语句进行组合拼接,得到该正文本样本语句;
第二替换单元,用于将该负文本样本语句的第一语句中包含的一个该一词多义的词语用该预设字符进行替换,得到第一替换语句;
第三替换单元,用于在该负文本样本语句的第二语句中随机选择一个随机词语用该预设字符进行替换,得到第二替换语句;
第二拼接单元,用于将该第一替换语句与该第二替换语句进行组合拼接,得到该负文本样本语句。
在其中一个实施例中,所述预设字符例如为“mask”。本实施例通过将正文本样本语句中两个不同的语句中的相同词语均用预设字符进行替换并进行组合拼接,得到正文本样本语句,同时将负文本样本语句中的该一词多义的词语用该预设字符进行替换,并将随机选择一个随机词语也用该预设字符进行替换,使得系统可以根据拼接后的句子中被替换词语是否相同,智能识别该文本样本语句为正文本样本语句还是负文本样本语句,在智能构建该文本样本语句的同时智能生成对应文本样本语句所属的类别为正文本样本语句还是负文本样本语句的标签,省去了人工标注的步骤,提高了样本语句的生成效率,同时可以缩短预训练语言模型的训练周期。
在其中一个实施例中,该样本构建模块11具体还包括:
正样本标签添加单元,用于根据预先设置的第一标签符号,对包括有相同词语的两个不同的语句添加正样本标签;
负样本标签添加单元,用于根据预先设置的第二标签符号,对组成的该负文本样本语句添加负样本标签。
本实施例通过新增正样本标签添加单元和负样本标签添加单元,能够对文本样本语句所属的类型为正样本还是负样本进行智能识别,将包括有相同词语的两个不同的语句对应的对文本样本语句识别为正文本样本语句,并根据预先设置的第一标签符号进行标注,同时,将组成的所述负文本样本语句添加负样本标签,不需要人工对文本样本语句所属的类型额外进行标注,提高了文本样本语句的标注效率,进一步提高了文本样本语句的构建效率。
在其中一个实施例中,该预训练模块12具体包括:
输出单元,用于将该文本样本语句输入至该待训练的预训练语言模型,得到该文本样本语句为正样本或负样本的输出结果;
参数调整单元,用于当该输出结果与该文本样本语句实际所属的类型不相同时,调整该预训练语言模型的参数;
循环单元,用于循环该将该文本样本语句输入至该待训练的预训练语言模型,至该调整该预训练语言模型的参数之间的步骤,直至该预训练语言模型对该文本样本语句的输出结果与该文本样本语句实际所属的类型相同。
可以理解的是,本实施例提出的基于人工智能的预训练语言模型的处理装置中,在构建文本样本语句时,通过识别文本样本语句中包含的相同词语的个数,可以智能识别该为本样本语句为正文本样本语句或负文本样本语句,可以智能对该文本样本语句所属的类型添加标签,但是在对该正文本样本语句中一词多义的多个相同的词语用相同的字符进行替换,并对负文本样本语句中的该一词多义的词语和随机词语均通过所述字符进行替换之后,预训练语言模型在训练初始时并不知道该文本样本语句中替换过的词语是否为同一表意,本实施例通过对该预训练语言模型进行预训练,使得训练好的预训练语言模型能够学习到同一词语可以在哪些语境中出现。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于基于人工智能的预训练语言模型的处理装置的具体限定可以参见上文中对于基于人工智能的预训练语言模型的处理方法的限定,在此不再赘述。上述基于人工智能的预训练语言模型的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质包括非易失性存储介质和/或易失性的存储介质,该存储介质存储有操作系统和计算机程序。该内存储器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的预训练语言模型的处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中基于人工智能的预训练语言模型的处理方法的步骤,例如图2所示的步骤101至步骤105及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中基于人工智能的预训练语言模型的处理装置的各模块/单元的功能,例如图5所示模块11至模块15的功能。为避免重复,这里不再赘述。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中基于人工智能的预训练语言模型的处理方法的步骤,例如图2所示的步骤101至步骤105及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中基于人工智能的预训练语言模型的处理装置的各模块/单元的功能,例如图5所示模块11至模块15的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性和/或易失性的计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于人工智能的预训练语言模型的处理方法,其特征在于,所述方法包括:
构建文本样本语句,所述文本样本语句包括正文本样本语句和负文本样本语句,所述正文本样本语句中包含有一词多义的相同词语的个数为至少两个,且至少两个所述相同词语的表意为至少两种,所述负文本样本语句中包含有所述一词多义的所述词语的个数为一个;
所述构建所述文本样本语句的步骤还包括:
将所述正文本样本语句的两个不同的语句中的所述相同词语均用预设字符进行替换,得到对应的正样本替换语句;
将各所述正样本替换语句进行组合拼接,得到所述正文本样本语句;
将所述负文本样本语句的第一语句中包含的一个所述一词多义的词语用所述预设字符进行替换,得到第一替换语句;
在所述负文本样本语句的第二语句中随机选择一个随机词语用所述预设字符进行替换,得到第二替换语句;
将所述第一替换语句与所述第二替换语句进行组合拼接,得到所述负文本样本语句;
通过所述文本样本语句对待训练的预训练语言模型进行第一阶段预训练的步骤包括:
将所述文本样本语句输入至所述待训练的预训练语言模型,得到所述文本样本语句为正样本或负样本的输出结果;
当所述输出结果与所述文本样本语句实际所属的类型不相同时,调整所述预训练语言模型的参数;
循环所述将所述文本样本语句输入至所述待训练的预训练语言模型,至所述调整所述预训练语言模型的参数之间的步骤,直至所述预训练语言模型对所述文本样本语句的输出结果与所述文本样本语句实际所属的类型相同;
当所述待训练的预训练语言模型的输出对所述文本样本语句的输出与所述文本样本语句所属的类别相同时,得到训练好的预训练语言模型;
将训练好的所述预训练语言模型作为分类模型的编码器,将训练好的所述预训练语言模型的参数作为所述编码器的初始参数,在所述编码器之后构建全连接层,得到初始分类模型;
根据所述初始分类模型的应用需求,对所述初始分类模型进行第二阶段训练,得到训练好的分类模型。
2.根据权利要求1所述的基于人工智能的预训练语言模型的处理方法,其特征在于,构建所述文本样本语句的步骤包括:
从语料库中选取包括有相同词语的两个不同的语句,将所述两个不同的句子组成一组作为所述正文本样本语句;
从所述语料库中抽取包含有所述相同词语的第一语句,并从所述语料库中随机抽取第二语句,将所述第一语句与所述第二语句组成一组作为所述负文本样本语句。
3.根据权利要求2所述的基于人工智能的预训练语言模型的处理方法,其特征在于,所述从所述语料库中抽取包含有所述相同词语的第一语句的步骤进一步包括:
从所述正文本样本语句中随机选取一个语句作为所述第一语句。
4.根据权利要求1所述的基于人工智能的预训练语言模型的处理方法,其特征在于,构建所述文本样本语句的步骤还包括:
根据预先设置的第一标签符号,对包括有相同词语的两个不同的语句添加正样本标签;
根据预先设置的第二标签符号,对组成的所述负文本样本语句添加负样本标签。
5.根据权利要求1至4任一项所述的基于人工智能的预训练语言模型的处理方法,其特征在于,所述初始分类模型的应用需求包括对新闻消息所属的类别进行分类、根据用户输出的文字或语音信息对用户的情感进行分类和/或根据用户的评论识别所述评论是否具有攻击性。
6.一种基于人工智能的预训练语言模型的处理装置,其特征在于,所述装置包括:
样本构建模块,用于构建文本样本语句,所述文本样本语句包括正文本样本语句和负文本样本语句,所述正文本样本语句中包含有一词多义的相同词语的个数为至少两个,且至少两个所述相同词语的表意为至少两种,所述负文本样本语句中包含有所述一词多义的所述词语的个数为一个;
所述构建所述文本样本语句的步骤还包括:
将所述正文本样本语句的两个不同的语句中的所述相同词语均用预设字符进行替换,得到对应的正样本替换语句;
将各所述正样本替换语句进行组合拼接,得到所述正文本样本语句;
将所述负文本样本语句的第一语句中包含的一个所述一词多义的词语用所述预设字符进行替换,得到第一替换语句;
在所述负文本样本语句的第二语句中随机选择一个随机词语用所述预设字符进行替换,得到第二替换语句;
将所述第一替换语句与所述第二替换语句进行组合拼接,得到所述负文本样本语句;
预训练模块,用于通过所述文本样本语句对待训练的预训练语言模型进行第一阶段预训练的步骤包括:
将所述文本样本语句输入至所述待训练的预训练语言模型,得到所述文本样本语句为正样本或负样本的输出结果;
当所述输出结果与所述文本样本语句实际所属的类型不相同时,调整所述预训练语言模型的参数;
循环所述将所述文本样本语句输入至所述待训练的预训练语言模型,至所述调整所述预训练语言模型的参数之间的步骤,直至所述预训练语言模型对所述文本样本语句的输出结果与所述文本样本语句实际所属的类型相同;
判断模块,用于当所述待训练的预训练语言模型的输出对所述文本样本语句的输出与所述文本样本语句所属的类别相同时,得到训练好的预训练语言模型;
模型构建模块,用于将训练好的所述预训练语言模型作为分类模型的编码器,将训练好的所述预训练语言模型的参数作为所述编码器的初始参数,在所述编码器之后构建全连接层,得到初始分类模型;
第二训练模块,用于根据所述初始分类模型的应用需求,对所述初始分类模型进行第二阶段训练,得到训练好的分类模型。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述基于人工智能的预训练语言模型的处理方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述基于人工智能的预训练语言模型的处理方法的步骤。
CN202111016984.9A 2021-08-31 2021-08-31 基于人工智能的预训练语言模型的处理方法、装置及设备 Active CN113688245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111016984.9A CN113688245B (zh) 2021-08-31 2021-08-31 基于人工智能的预训练语言模型的处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111016984.9A CN113688245B (zh) 2021-08-31 2021-08-31 基于人工智能的预训练语言模型的处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113688245A CN113688245A (zh) 2021-11-23
CN113688245B true CN113688245B (zh) 2023-09-26

Family

ID=78584570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111016984.9A Active CN113688245B (zh) 2021-08-31 2021-08-31 基于人工智能的预训练语言模型的处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113688245B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969326A (zh) * 2022-04-22 2022-08-30 北京百度网讯科技有限公司 分类模型训练、语义分类方法、装置、设备和介质
CN116229332B (zh) * 2023-05-06 2023-08-04 浪潮电子信息产业股份有限公司 一种视频预训练模型的训练方法、装置、设备及存储介质
CN116861885B (zh) * 2023-07-11 2024-05-07 贝壳找房(北京)科技有限公司 标签生成方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN111310475A (zh) * 2020-02-04 2020-06-19 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置
CN112084317A (zh) * 2020-09-23 2020-12-15 支付宝(杭州)信息技术有限公司 预训练语言模型的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472251B (zh) * 2018-05-10 2023-05-30 腾讯科技(深圳)有限公司 翻译模型训练的方法、语句翻译的方法、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN111310475A (zh) * 2020-02-04 2020-06-19 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置
CN112084317A (zh) * 2020-09-23 2020-12-15 支付宝(杭州)信息技术有限公司 预训练语言模型的方法和装置

Also Published As

Publication number Publication date
CN113688245A (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN113688245B (zh) 基于人工智能的预训练语言模型的处理方法、装置及设备
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
US20190103091A1 (en) Method and apparatus for training text normalization model, method and apparatus for text normalization
WO2021135446A1 (zh) 文本分类方法、装置、计算机设备及存储介质
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN113919363A (zh) 基于人工智能的句向量生成模型的处理方法、装置及设备
CN113849653A (zh) 一种文本分类方法及装置
CN113254814A (zh) 网络课程视频打标签方法、装置、电子设备及介质
CN112188311B (zh) 用于确定新闻的视频素材的方法和装置
CN113761209B (zh) 文本拼接方法及装置、电子设备、存储介质
CN116029303A (zh) 语言表达方式识别方法、装置、电子设备和存储介质
CN113255368B (zh) 针对文本数据进行情感分析的方法、装置及相关设备
CN111274813A (zh) 语言序列标注方法、装置存储介质及计算机设备
CN115730603A (zh) 基于人工智能的信息提取方法、装置、设备及存储介质
CN115204300A (zh) 文本和表格语义交互的数据处理方法、装置及存储介质
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质
CN110689052B (zh) 会话消息处理方法、装置、计算机设备和存储介质
CN113657092A (zh) 识别标签的方法、装置、设备以及介质
CN115422322B (zh) 一种摘要生成方法及装置
CN112364131B (zh) 一种语料处理方法及其相关装置
CN113157920B (zh) 一种基于机器阅读理解范式的方面级情感分析方法及系统
CN113111652B (zh) 数据处理方法、装置及计算设备
Zhu et al. Overview of semi-supervised learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant