CN114330339B - 文本处理方法、计算机可读存储介质及计算机设备 - Google Patents
文本处理方法、计算机可读存储介质及计算机设备 Download PDFInfo
- Publication number
- CN114330339B CN114330339B CN202210200416.2A CN202210200416A CN114330339B CN 114330339 B CN114330339 B CN 114330339B CN 202210200416 A CN202210200416 A CN 202210200416A CN 114330339 B CN114330339 B CN 114330339B
- Authority
- CN
- China
- Prior art keywords
- text
- target
- target word
- sample
- verification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本处理方法、计算机可读存储介质及计算机设备。其中,该方法包括:获取多组样本数据,其中,多组样本数据包括样本文本;对样本文本中的第一目标词添加掩码,得到目标文本;从样本文本中查找到第二目标词;对样本文本所包括的分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重;采用目标文本以及样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。本发明解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
Description
技术领域
本发明涉及文本处理技术领域,具体而言,涉及一种文本处理方法、计算机可读存储介质及计算机设备。
背景技术
预训练语言模型(Pre-trained language models, PLM)用于从文本中获取通用知识。
相关技术中,用于对文本进行处理的预训练语言模型有多种,包括:预训练的语言表征模型(Bidirectional Encoder Representation from Transformers,BERT)、RoBERTa和生成式预训练模型(Generate Pre-Training Model,GPT),等等。这些预训练语言模型虽然能够大幅度提高许多自然语言处理任务的性能,但存在预训练语言模型在文本中知识学习能力差的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本处理方法、计算机可读存储介质及计算机设备,以至少解决相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
根据本发明实施例的一个方面,提供了一种文本处理方法,包括:获取多组样本数据,其中,所述多组样本数据包括样本文本;对所述样本文本中的第一目标词添加掩码,得到目标文本;从所述样本文本中查找到第二目标词;对所述样本文本所包括的分词标注识别权重,其中,所述第二目标词的识别权重小于除所述第二目标词之外的其它分词的识别权重;采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
可选地,在从所述样本文本中查找到第二目标词之前,还包括:获取多组验证数据,其中,所述多组验证数据包括验证文本;基于所述多组验证数据包括的验证文本,确定所述第二目标词。
可选地,所述基于所述多组验证数据包括的验证文本,确定所述第二目标词包括:对所述多组验证数据所包括的验证文本分别进行分词处理,得到多个分词;分别统计所述多个分词的出现次数;基于所述多个分词的出现次数,确定候选目标词;基于所述候选目标词,确定所述第二目标词。
可选地,所述基于所述候选目标词,确定所述第二目标词包括:在所述多组验证数据包括的所述验证文本中对所述候选目标词进行掩码操作,得到验证目标文本;采用预定转换器模型对所述验证目标文本进行预测,得到第一预测结果,并基于所述多组验证数据对应的第一预测结果,统计所述多组验证数据的第一准确率;采用所述预定转换器模型对所述验证文本进行预测,得到第二预测结果,并基于所述多组验证数据对应的第二预测结果,统计所述多组验证数据的第二准确率;基于所述第一准确率和所述第二准确率,确定所述第二目标词。
可选地,所述基于所述第一准确率和所述第二准确率,确定所述第二目标词,包括:比较所述第一准确率和所述第二准确率,并在所述第一准确率高于所述第二准确率的情况下,确定所述候选目标词为所述第二目标词。
可选地,所述对所述样本文本所包括的分词标注识别权重包括:基于所述样本文本以及所述第二目标词,构建可视化矩阵,其中,所述可视化矩阵中的行和列均为所述样本文本所包括的分词,所述可视化矩阵中的元素用于标识所述元素所在行对应的分词对所在列对应分词的识别权重,或者用于标识所述元素所在列对应的分词对所在行对应分词的识别权重。
可选地,所述第二目标词的识别权重为零,所述可视化矩阵的对角线上元素的识别权重非零。
根据本发明实施例的另一个方面,提供了一种文本处理方法,包括:接收目标文本;将所述目标文本输入目标转换器模型,得到所述目标文本的识别结果,其中,所述目标转换器模型采用多组样本数据进行训练得到,所述多组样本数据包括:样本文本,对样本文本加入掩码的目标文本,以及所述样本文本对应的可视化矩阵,所述可视化矩阵用于标识对所述样本文本所包括的分词进行识别时其它分词的可见性。
根据本发明实施例的另一个方面,提供了一种文本处理方法,包括:在交互界面上显示数据输入控件;响应于所述数据输入控件,接收多组样本数据,其中,所述多组样本数据包括样本文本;在所述交互界面上显示目标文本,其中,所述目标文本为对所述样本文本中的第一目标词添加掩码后得到的;在所述交互界面上对从所述样本文本中查找到的第二目标词进行高亮显示;响应于对模型训练控件的操作,在所述交互界面上显示模型训练结果,其中,所述模型训练结果用于标识目标转换器模型,所述目标转换器模型采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练得到,所述第二目标词的识别权重小于除所述第二目标词之外的其它分词的识别权重。
根据本发明实施例的另一个方面,提供了一种文本处理装置,包括:第一获取模块,用于获取多组样本数据,其中,所述多组样本数据包括样本文本;第一添加模块,用于对所述样本文本中的第一目标词添加掩码,得到目标文本;第一查找模块,用于从所述样本文本中查找到第二目标词;第一标注模块,用于对所述样本文本所包括的分词标注识别权重,其中,所述第二目标词的识别权重小于除所述第二目标词之外的其它分词的识别权重;第一训练模块,用于采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
根据本发明实施例的另一个方面,提供了一种文本处理装置,包括:第一接收模块,用于接收目标文本;第一处理模块,用于将所述目标文本输入目标转换器模型,得到所述目标文本的识别结果,其中,所述目标转换器模型采用多组样本数据进行训练得到,所述多组样本数据包括:样本文本,对样本文本加入掩码的目标文本,以及所述样本文本对应的可视化矩阵,所述可视化矩阵用于标识对所述样本文本所包括的分词进行识别时其它分词的可见性。
根据本发明实施例的另一个方面,提供了一种文本处理装置,包括:第一显示模块,用于在交互界面上显示数据输入控件;第二接收模块,用于响应于所述数据输入控件,接收多组样本数据,其中,所述多组样本数据包括样本文本;第二显示模块,用于在所述交互界面上显示目标文本,其中,所述目标文本为对所述样本文本中的第一目标词添加掩码后得到的;第三显示模块,用于在所述交互界面上对从所述样本文本中查找到的第二目标词进行高亮显示;第四显示模块,用于响应于对模型训练控件的操作,在所述交互界面上显示模型训练结果,其中,所述模块训练结果用于标识目标转换器模型,所述目标转换器模型采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练得到,所述第二目标词的识别权重小于除所述第二目标词之外的其它分词的识别权重。
根据本发明实施例的另一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的文本处理方法。
根据本发明实施例的另一个方面,提供了一种计算机设备,包括:存储器和处理器,所述存储器存储有计算机程序;所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行上述任意一项所述的文本处理方法。
在本发明实施例中,通过获取包括样本文本的多组样本数据,对样本文本中的第一目标词添加掩码,得到目标文本,并从样本文本中查找得到第二目标词,对样本文本中包括第二目标词的各分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重,然后使用对第一目标词进行掩码处理后的目标文本以及样本文本所包括分词的识别权重进行机器训练,获取目标转换器模型。在进行机器训练的过程中,由于用于训练的样本文本包括分词的识别权重,而样本文本中第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重,所以在训练的过程中,第二目标词对除第二目标词之外的其他分词注意力影响较小,甚至忽略不可见,这相当于对样本文本进行了去噪声处理,通过去除样本文本中非知识型的内容,使模型可以把注意力放在和知识相关的内容上。由此提高了模型的知识学习能力以及模型在训练时的知识学习效率,解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例一种用于实现文本处理方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的一种可选的文本处理方法的流程图;
图3是根据本发明实施例的另一种可选的文本处理方法的流程图;
图4是根据本发明实施例的又一种可选的文本处理方法的流程图;
图5是根据本发明实施方式的一种可选的文本处理方法的流程图;
图6是根据本发明实施方式的可视化矩阵的结构示意图;
图7是根据本发明实施例的一种可选的文本处理装置的结构框图;
图8是根据本发明实施例的另一种可选的文本处理装置的结构框图;
图9是根据本发明实施例的又一种可选的文本处理装置的结构框图;
图10是根据本发明实施例的一种计算机设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
自注意力(self-attention)模型,一种以文本词汇之间关联为基础的序列建模模型。
Transformer(转换器模型),一种基于自注意力的序列建模模型。
Softmax函数,归一化函数,用于将模型处理结果以权重的形式展现出来。
注意力掩码(Attention Mask),在自注意力操作中,设置为mask的位置的字符对其他位置的字符不可见。
实施例1
根据本发明实施例,还提供了一种文本处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本处理方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个处理器(图中采用102a、102b,……,102n来示出,处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的文本处理方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备中的部件的类型。
此处需要说明的是,在一些实施例中,上述图1所示的计算机设备具有触摸显示器(也被称为“触摸屏”或“触摸显示屏”)。在一些实施例中,上述图1所示的计算机设备具有图像用户界面(GUI),用户可以通过触摸屏表面上的手指接触和/或手势来与GUI进行人机交互,此处的人机交互功能可选的包括如下交互:创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或计算机可读存储介质中。
在上述运行环境下,本申请提供了如图2所示的一种可选的文本处理处理方法的流程图。图2是根据本发明实施例1的文本处理处理方法的流程图。如图2所示,本申请实施例所提供的文本处理方法可以通过如下步骤实现:
步骤S202,获取多组样本数据,其中,多组样本数据包括样本文本。
步骤S204,对样本文本中的第一目标词添加掩码,得到目标文本。
步骤S206,从样本文本中查找到第二目标词。
步骤S208,对样本文本所包括的分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其它分词的识别权重。
步骤S210,采用目标文本以及样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
需要明白的是,样本文本包括的分词为对文本数据进行分词处理处理所得到的字、词语、词组,等等。例如,在文本数据“Guy-Lussac discovered that in waterhydrogen was present in twice the amount of oxygen”中,对该文本数据进行分词处理,所得到的分词包括: “Guy-Lussac”、“discovered”、“that”、“in”、“water”、“hydrogen”、“was”、“present”、“in”、“twice”、“the”、“amount”、“of”、“oxygen”。又例如,在文本数据“乔治出生在纽约这个美丽的城市”,该文本中的分词包括“乔治”、“出生在”、“纽约”、“这个”、“美丽的”、“城市”。
相关技术中,有两种方法可用来增强预训练语言模型。一种是引入结构化知识库,另一种是引入知识型的非结构化知识库。与结构化知识库相比,非结构化知识库更容易获取和构建,且非结构化知识库的格式更自由,其表达复杂知识的能力更强。但非结构化知识库中通常存在很多噪声,也有很多非知识型的内容,导致模型把过多的注意力放在了和知识不相关的内容上,使模型并不能很好的在文本中学习知识。
在本可选实施例中,第二目标词的识别权重小于样本文本中除第二目标词之外的其他分词的识别权重,则在使用包括进行掩码处理的目标文本以及样本文本所包括分词的识别权重进行机器训练时,样本文本中第二目标词对除第二目标词之外的其他分词注意力影响较小,甚至忽略不可见,这相当于对样本文本进行了去噪声处理,去除了样本文本中非知识型的内容,使模型可以把注意力放在和知识相关的内容上。由此提高了模型的知识学习能力以及模型在训练时的知识学习效率,解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
在一些可选实施例中,第二目标词可以为多个,第二目标词的识别权重为零。在在进行机器训练的过重中,样本文本多个第二目标词对除多个第二目标词之外的其他分词不可见,由此提高了模型的知识学习能力以及模型在训练时的知识学习效率。
在一些可选实施例中,在从样本文本中查找到第二目标词之前,还包括:获取多组验证数据,其中,多组验证数据包括验证文本;基于多组验证数据包括的验证文本,确定第二目标词。通过多组验证数据包括的验证文本确定第二目标词,提高了第二目标词的准确性,提高了模型在训练时的知识学习效率。
在一些可选实施例中,基于多组验证数据包括的验证文本,确定第二目标词的方法可包括:对多组验证数据包括的验证文本分别进行分词处理,得到多个分词,分别统计多个分词的出现次数;基于多个分词的出现次数,确定候选目标词;基于候选目标词,确定第二目标词。
需要明白的是,在文本数据中,连词、定冠词等词出现的次数通常比较高,而这些词对文本有用信息的贡献较小。在本可选实施例中,通过分词的出现次数确定候选目标词,可以大概率的将诸如连词、定冠词等对文本有用信息贡献较小的词确定为候选目标词,然后基于候选目标词确定第二目标词,由此提高了确定第二目标词的准确性。根据统计次数确定候选目标词,再由候选目标词确定第二目标词,方法简单,提高了确定第二目标词的效率。
在一些可选实施例中,确定第二目标词的方法可包括:在多组验证数据包括的验证文本中对候选目标词进行掩码操作,得到验证目标文本;采用预定转换器模型对验证目标文本进行预测,得到第一预测结果,并基于多组验证数据对应的第一预测结果,统计多组验证数据的第一准确率;采用预定转换器模型对验证文本进行预测,得到第二预测结果,并基于多组验证数据对应的第二预测结果,统计多组验证数据的第二准确率;基于第一准确率和第二准确率,确定第二目标词。由此,提高了确定第二目标词的准确性。
在一些可选实施例中,得到第一准确率的方法包括:将目标文本中的候选目标词设定为不可见并可视化矩阵,采用预定转换器模型对验证目标文本进行预测得到第一预测结果,并基于多组验证数据对应的第一预测结果得到第一准确率。得到第二准确率的方法包括:将目标文本中的各分词均设定为可见并构建可视化矩阵,采用预定转换器模型对验证目标文本进行预测得到第二预测结果,并基于多组验证数据对应的第二预测结果得到第二准确率。
在一些可选实施例中,基于第一准确率和第二准确率确定第二目标词的方法可包括:比较第一准确率和第二准确率,并在第一准确率高于第二准确率的情况下,确定候选目标词为第二目标词。在第一准确率高于第二准确率的情况下,说明将候选词目标词设定为不可见时统计得到的预测结果的正确率更高,将该候选词设定为不可见更有利,所以应该将该候选词设定为识别权重较小的第二目标词。根据第一准确率和第二准确率的对比结果确定第二目标词,提高了确定第二目标词的准确性和处理效率。
在一些可选实施例中,对样本文本所包括的分词标注识别权重的方法可包括:基于样本文本以及第二目标词,构建可视化矩阵,其中,可视化矩阵中的行和列均为样本文本所包括的分词,可视化矩阵中的元素用于标识元素所在行对应的分词对所在列对应分词的识别权重,或者用于标识元素所在列对应的分词对所在行对应分词的识别权重。通过可视化矩阵对样本文本中的各分词进行识别权重标识,然后根据目标文本以及样本文本所包含的分词的识别权重进行机器训练,提高了处理效率和准确性,并提高了模型的知识学习能力。
在一个可选实施例中,将第二目标词的识别权重设定为零,将可视化矩阵的对角线上元素的识别权重设定为非零。由此构建的可视化矩阵中,第二目标词对应的列中除对角线位置外的其他位置的识别权重均为零。基于该可视化矩阵样本文本中的各分词进行识别权重标识,然后根据目标文本以及样本文本所包含的分词的识别权重进行机器训练,提高了处理效率和准确性,并提高了模型的知识学习能力。
图3是根据本发明实施例提供的另一种可选的文本处理方法的流程图,参照图3所示,文本处理方法可包括如下步骤:
步骤S302,接收目标文本;
步骤S304,将目标文本输入目标转换器模型,得到目标文本的识别结果,其中,目标转换器模型采用多组样本数据进行训练得到,多组样本数据包括:样本文本,对样本文本加入掩码的目标文本,以及样本文本对应的可视化矩阵,可视化矩阵用于标识对样本文本所包括的分词进行识别时其它分词的可见性。
在本可选实施例中,通过如下样本进行机器训练得到目标转换模型:样本文本、加入掩码的目标文本,以及样本文本对应的用于标识对样本文本所包括的分词进行识别时其他分词的可见性的可视化矩阵。提高了模型的知识学习能力以及模型在训练时的知识学习效率,使得用得到的目标转换器模型对目标文本进行识别时,得到的识别结果也是更为准确的。有效地解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
图4是根据本发明实施例提供的另一种可选的文本处理方法的流程图,参照图4所示,文本处理方法可包括如下步骤:
步骤S402,在交互界面上显示数据输入控件;
步骤S404,响应于数据输入控件,接收多组样本数据,其中,多组样本数据包括样本文本;
步骤S406,在交互界面上显示目标文本,其中,目标文本为对样本文本中的第一目标词添加掩码后得到的;
步骤S408,在交互界面上对从样本文本中查找到的第二目标词进行高亮显示;
步骤S410,响应于对模型训练控件的操作,在交互界面上显示模型训练结果,其中,模型训练结果用于标识目标转换器模型,目标转换器模型采用目标文本以及样本文本所包括的分词的识别权重进行机器训练得到,第二目标词的识别权重小于除第二目标词之外的其它分词的识别权重。
在本可选实施例中,通过交互界面上显示的数据输入控件接收多组包括样本文本的样本数据,并在交互界面上在样本文本中的第一目标词添加掩码后所得到的目标文本,以及从样本文本中查找得到的第二目标词,响应于对模型训练控件的操作,获取模型训练结果,并将获取的结果在交互界面上显示。该方法提高了模型的知识学习能力以及模型在训练时的知识学习效率,而且能够直观地知晓模型的训练过程和逻辑,有效地解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
基于上述实施例及可选实施例,提供了一种可选实施方式,下面具体说明。
相关技术中,如何为预训练语言模型学习更多知识仍然是一个未解决的问题。而在闭卷式问答(Closes-book QA)和知识图谱推理(Knowledge Graph Reasoning)等密集型任务中,更难提高预训练语言模型知识学习能力。
鉴于此,在本公开实施方式中,提供了一种文本处理方法,通过对第一样本文本中的第一目标词进行掩码操作获取目标文本,确定第二目标词并将第二目标词的识别权重设定为小于样本文本中除第二目标词之外的其他分词的识别权重,然后使用包括进行掩码处理的目标文本以及样本文本所包括分词的识别权重进行机器训练,因为样本文本中第二目标词的识别权重低,第二目标词对除第二目标词之外的其他分词不可见,由此提高了模型的知识学习能力以及模型在训练时的知识学习效率,解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
图5是根据本发明实施方式的一种可选的文本处理方法的流程图。参照图5所示,文本处理方法包括如下步骤:
获取输入文本。将输入文本标记为词语(相当于上述实施例中的分词)集合T={QUOTE , QUOTE , ..., QUOTE },其中,T为词语集合, QUOTE ,QUOTE , ..., QUOTE 分别表示第1,2,…, QUOTE 个词语。
确定第一目标词,对第一目标词添加掩码,获取掩码后的输入文本(相当于上述实施例中的目标文本)。例如,词语集合T中的第 QUOTE 个位置的词语和第 QUOTE 个位置的词语为第一目标词,则为其添加特殊字符<mask>。其中,确定第一目标词的方法可包括:根据经验数据进行人工确定。
对于一个基于转换器模型(Transformer模型)的预训练语言模型,对于模型的第
QUOTE 层,将其输入的向量设定为 QUOTE ={ QUOTE , QUOTE , ...,
QUOTE },其中, QUOTE , QUOTE , ..., QUOTE 分别为第1.2… QUOTE 个输入数据。则第 QUOTE 层第 QUOTE 个注意力头输出 QUOTE 为:
需要明白的是,转换器模型的核心为自注意力机制(self-attention),自注意力机制是指利用输入样本自身的关系构建注意力模型。在自注意力机制中引入了如下三个元素:Query、Key、Value。
其中, QUOTE 是第 QUOTE 层的输入, QUOTE
表示 QUOTE 维度的实数矩阵,n表示输入文本的序列长度,分别是注意力头 QUOTE 的Query值、Key值和Value值的投影矩阵。
其中, QUOTE 为映射矩阵, QUOTE , QUOTE 表示 QUOTE 维度的实数矩阵, QUOTE 表示第p层注意力
头的个数,表示隐藏态(hidden states)的维度, QUOTE 分别表示第
p层第 QUOTE 个注意力头的输出,Concat为向量的拼接操作。
其中,将第 QUOTE 个位置的词语和第 QUOTE 个位置的词语作为为第一目标
词,对其进行了掩码操作。则对于第个位置和第 QUOTE 个位置被掩码的词语,其在
QUOTE 层(最后一层)对应位置的输出分别为 QUOTE 和 QUOTE ,
对该两个输出进行投影操作,可得到第 QUOTE 个位置的词语的预测值 QUOTE ,以及第 QUOTE 个位置的词语的预测值 QUOTE , QUOTE 和
QUOTE 分别表示为:
利用模型找到有害词,根据输入文本和有害词构建可视化矩阵。
以输入文本为“canarian islands are located off the coast of africa”为例,对可视化矩阵的构建进行说明。
输入文本T={ QUOTE , QUOTE , ..., QUOTE }中的各元素分别为“canarian”、“islands”、“are”、“located”、“off”、“the”、“coast”、“of”、“africa”。
设定一个 QUOTE 的矩阵 QUOTE ,将矩阵 QUOTE 中每个位置元素的初始值设定为1。其中,不可见词为“are”和“the”,则对于矩阵 QUOTE ,可将“are”和“the”对应的列的元素的值设定为0。需要明白的是,矩阵 QUOTE 中各位置元素的值为对应元素的识别权重。
将矩阵 QUOTE 的对角线位置元素的值设定为1,由此获取与输入文本为“Canarian islands are located off the coast of Africa”对应的可视化矩阵(Visibility Matrix),该可视化矩阵的示意图如图6所示,在图6中颜色较深的位置的元素的值为1,颜色较浅的位置的元素的值为0。在该输入文本中,“are”和“the”的元素的值(相当于上述实施例中的识别权重值)为0,“are”和“the”对除“are”和“the”之外的词语不可见,但“are”和“the”对其自身可见,“are”和“the”相当于输入文本“Canarian islands arelocated off the coast of Africa”中的有害词。
可视化矩阵在转换器模型的自注意力机制中的作用如下所示:
需要明白的是,输入文本中第i个位置的词语对应矩阵中第i行和第i列,输入文本中第j个位置的词语对应矩阵中第j行和第j列。在模型训练的过程中,以 QUOTE 表示矩阵, QUOTE , QUOTE 表示 QUOTE 维度的实数矩阵, QUOTE 表示矩阵 QUOTE 中第i行第j列的元素值。当输入文本中第i个位置的词语不可见第j个词语,则 QUOTE ,对应的可视化矩阵 QUOTE 中第i行第j列的元素值 QUOTE =0。当输入文本中第i个词语可见第j个词语,则 QUOTE ,对应的可视化矩阵 QUOTE 中第i行第j列的元素值 QUOTE =1。
利用模型找到有害词的方法包括如下步骤:
对输入文本进行分词处理,由此获取分词处理后的一组分词。
在输入文本中加入特殊标识符<s>、</s>>、<pad>,并将第一目标词设置为特殊字符<mask>。
以输入文本“Canarian islands are located off the coast of africa”为例,对有害词进行说明,其中的“are”和“the”为有害词,有害词对文本数据有用信息的影响不大,且会影响模型知识学习的效率和训练的效率,通过将其识别权重设定为0,使其对其他的分词不可见。
现有技术中的注意力掩码(Attention Mask)策略只对输入文本中的<pad>进行注意力掩码,无法让模型对知识相关的内容有针对性的进行学习。现有技术中的掩码矩阵(Mask Matrix),是先对输入文本中的某些字符进行掩码并将其标记为特殊标识符<mask>,然后让这些<mask>标识符对应的字符不被其他字符关注对,即这些<mask>标识符对应的字符对其他字符不可见。现有技术中的掩码矩阵(Mask Matrix)依赖于事先进行的输入掩码操作,并且这个掩码操作通常是随机的,无法加强模型对知识的学习,且<mask>标识符对应的字符对自身也不可见。
在一个例子中,分别使用没有预训练的RoBERTa模型(A Robustly OptimizedBERT Pre-training Approach,鲁棒优化的BERT预训练模型)、利用随机掩码进行训练的RoBERTa-Cont模型(A Robustly Optimized BERT Pre-training Approach-Cont,鲁棒优化的连续BERT预训练模型)、利用掩码和可视化矩阵进行训练的RoBERTa-Cont-VM模型(本申请的方案),对名为LAMA SQuAD、LAMA Google RE、Closed-book QA、KG Reasoning的任务进行正确率测试。
其中,RoBERTa模型、RoBERTa-Cont模型均为预训练语言模型。
其中,LAMA SQuAD是LAMA从SQuAD的开发集中挑选的305个具有单个单词或词语(token)答案且上下文不敏感的问题。LAMA Google RE是LAMA对一些已有的NLP数据集的整合,包含了Goole RE中的三种实体关系知识,这三种实体关系包括出生地、死亡地和出生日期。Closed-book QA是指闭卷问答。KG Reasoning,即Knowledge Graph Reasoning(知识图谱推理)。LAMA SQuAD、LAMA Google RE、Closed-book QA和KG Reasoning均为知识密集型任务。
测试结果如表1所示。
表1
LAMA SQuAD | LAMA Google RE | Closed-book QA | KG Reasoning | |
RoBERTa | 16.4 | 24.6 | 0.0 | 2.6 |
RoBERTa-Cont | 33.6 | 58.4 | 37.9 | 28.1 |
RoBERTa-Cont-VM | 38.5 | 62.8 | 43.8 | 29.7 |
其中,参照表1所示,本申请的方案在LAMA SQuAD、LAMA Google RE、Closed-bookQA、KG Reasoning任务中分别取得了38.5%、62.8%、43.8%和29.7%的正确率,比RoBERTa-Cont模型在四种任务中的正确率分别对应提高了4.9%、4.4%、5.9%和1.6%,比RoBERTa模型在四种任务中的正确率分别对应提高了22.1%、38.2%、43.8%和27.1%。由此可知,本申请在文本任务中的正确率更高。
在上述可选实施例中,提出了可见性矩阵机制,用于帮助预训练语言模型在没有标注数据的情况下,从非结构化知识库中更好的学习知识。相对于现有技术中的注意力掩码策略,上述可选实施例通过实现搜索有害词,让这些对模型知识学习有害的有害词都对其他分词不可见,这相当于进一步去除了样本文本中非知识型的内容,使模型可以把注意力放在和知识相关的内容上。在去除样本文本中非知识型内容的过程中,不需要对对样本文本做任何标注信息。由此提高了模型的知识学习能力以及模型在训练时的知识学习效率。且通过将可视化矩阵对角线位置元素的标识权重设定为1,实现了让有害词对自身可见。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述文本处理方法的装置,图7是根据本发明实施例提供的一种可选的文本处理装置的结构框图,如图7所示,该装置包括:第一获取模块702,第一添加模块704,第一查找模块706,第一标注模块708和第一训练模块710,下面分别说明。
第一获取模块702,用于获取多组样本数据,其中,多组样本数据包括样本文本;第一添加模块704,连接于上述第一获取模块702,用于对样本文本中的第一目标词添加掩码,得到目标文本;第一查找模块706,连接于上述第一添加模块704,用于从样本文本中查找到第二目标词;第一标注模块708,连接于上述第一查找模块706,用于对样本文本所包括的分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重;第一训练模块710,连接于上述第一标注模块708,用于采用目标文本以及样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
此处需要说明的是,上述第一获取模块702、第一添加模块704、第一查找模块706、第一标注模块708、第一训练模块710对应于实施例1中的步骤S202至步骤S210,各模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
图8是根据本发明实施例的另一种可选的文本处理方法装置的结构框图,如图8所示,装置包括:第一接收模块802和第一处理模块804,下面对该装置进行说明。
第一接收模块802,用于接收目标文本;第一处理模块804,连接于上述第一接收模块802,用于将目标文本输入目标转换器模型,得到目标文本的识别结果,其中,目标转换器模型采用多组样本数据进行训练得到,多组样本数据包括:样本文本、对样本文本加入掩码的目标文本,以及样本文本对应的可视化矩阵,可视化矩阵用于标识对样本文本所包括的分词进行识别时其他分词的可见性。
此处需要说明的是,上述第一接收模块802、第一处理模块804对应于实施例1中的步骤S302至步骤S304,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
图9是根据本发明实施例的又一种可选的文本处理装置的结构框图,如图9所示,该装置包括:第一显示模块902,第二接收模块904,第二显示模块906,第三显示模块908和第四显示模块910,下面对该装置进行说明。
第一显示模块902,用于在交互界面上显示数据输入控件;第二接收模块904,连接于上述第一显示模块902,用于响应于数据输入控件,接收多组样本数据,其中,多组样本数据包括样本文本;第二显示模块906,连接于上述第二接收模块904,用于在交互界面上显示目标文本,其中,目标文本为对样本文本中的第一目标词添加掩码后得到的;第三显示模块908,连接于上述第二显示模块906,用于在交互界面上对从样本文本中查找到的第二目标词进行高亮显示;第四显示模块910,连接于上述第三显示模块908,用于响应于对模型训练控件的操作,在交互界面上显示模型训练结果,其中,模型训练结果用于标识目标转换器模型,目标转换器模型采用目标文本以及样本文本所包括的分词的识别权重进行机器训练得到,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重。
此处需要说明的是,上述第一显示模块902、第二接收模块904、第二显示模块906、第三显示模块908和第四显示模块910分别对应于实施例1中的步骤S402至步骤S410,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
本可选实施例提供的文本处理方法装置,可用于实现上述文本处理方法,通过分别获取多个通道的选路得分,根据多个通道的选路得分,从多个通道中选择目标通道,基于目标通道的运营商切换策略,对通道中用于接收通道中第一节点传输的多个运营商的流量的第二节点所接收的多个运营商的流量进行均衡处理,解决了相关技术中各个边缘节点均通过中转节点进行回源调度所造成的带宽费用昂贵,以及中转节点负载过大,超出中转节点处理能力的问题。
实施例3
本发明的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例1所提供的文本处理方法所执行的程序代码。
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取多组样本数据,其中,多组样本数据包括样本文本;对样本文本中的第一目标词添加掩码,得到目标文本;从样本文本中查找到第二目标词;对样本文本所包括的分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重;采用目标文本以及样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:从样本文本中查找到第二目标词之前,还包括:获取多组验证数据,其中,多组验证数据包括验证文本;基于多组验证数据包括的验证文本,确定第二目标词。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于多组验证数据包括的验证文本,确定第二目标词,包括:对多组验证数据所包括的验证文本分别进行分词处理,得到多个分词;分别统计多个分词的出现次数;基于多个分词的出现次数,确定候选目标词;基于候选目标词,确定第二目标词。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于候选目标词,确定第二目标词,包括:在多组验证数据包括的验证文本中对候选目标词进行掩码操作,得到验证目标文本;采用预定转换器模型对验证目标文本进行预测,得到第一预测结果,并基于多组验证数据对应的第一预测结果,统计多组验证数据的第一准确率;采用预定转换器模型对验证文本进行预测,得到第二预测结果,并基于多组验证数据对应的第二预测结果,统计多组验证数据的第二准确率;基于第一准确率和第二准确率,确定第二目标词。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于第一准确率和第二准确率,确定第二目标词,包括:比较第一准确率和第二准确率,并在第一准确率高于第二准确率的情况下,确定候选目标词为第二目标词。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:对样本文本所包括的分词标注识别权重包括:基于样本文本以及第二目标词,构建可视化矩阵,其中,可视化矩阵中的行和列均为样本文本所包括的分词,可视化矩阵中的元素用于标识元素所在行对应的分词对所在列对应分词的识别权重,或者用于标识元素所在列对应的分词对所在行对应分词的识别权重。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:第二目标词的识别权重为零,可视化矩阵的对角线上的元素的识别权重非零。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:接收目标文本;将目标文本输入目标转换器模型,得到目标文本的识别结果,其中,目标转换器模型采用多组样本数据进行训练得到,多组样本数据包括:样本文本、对样本文本加入掩码的目标文本,以及样本文本对应的可视化矩阵,可视化矩阵用于标识对样本文本所包括的分词进行识别时其他分词的可见性。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:在交互界面上显示数据输入控件;响应于数据输入控件,接收多组样本数据,其中,多组样本数据包括样本文本;在交互界面上显示目标文本,其中,目标文本为对样本文本中的第一目标词添加掩码后得到的;在交互界面上对从样本文本中查找到的第二目标词进行高亮显示;响应于对模型训练控件的操作,在交互界面上显示模型训练结果,其中,模型训练结果用于标识目标转换器模型,目标转换器模型采用目标文本以及样本文本所包括的分词的识别权重进行机器训练得到,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重。
在本发明实施例中,计算机可读存储介质包括存储的程序,在程序运行时控制计算机可读存储介质在设备执行文本处理方法,通过第二目标词的识别权重小于样本文本中除第二目标词之外的其他分词的识别权重,则在使用包括进行掩码处理的目标文本以及样本文本所包括分词的识别权重进行机器训练时,样本文本中第二目标词对除第二目标词之外的其他分词不可见,这相当于对样本文本进行了去噪处理,去除了样本文本中非知识型的内容,使模型可以把注意力放在和知识相关的内容上。由此提高了模型的知识学习能力以及模型在训练时的知识学习效率,解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
本发明的实施例可以提供一种计算机设备,该计算机设备可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机设备可以执行应用程序的文本处理方法中以下步骤的程序代码:获取多组样本数据,其中,多组样本数据包括样本文本;对样本文本中的第一目标词添加掩码,得到目标文本;从样本文本中查找到第二目标词;对样本文本所包括的分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重;采用目标文本以及样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
可选地,图10是根据本发明实施例的一种计算机设备的结构框图。如图10所示,该计算机设备可以包括:一个或多个(图中仅示出一个)处理器1002、存储器1004等。
其中,存储器1004可用于存储软件程序以及模块,如本发明实施例中的文本处理方法和装置对应的程序指令/模块,处理器1002通过运行存储在存储器1004内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本处理方法。存储器1004可包括高速随机存储器1004,还可以包括非易失性存储器1004,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器1004。在一些实例中,存储器1004可进一步包括相对于处理器1002远程设置的存储器1004,这些远程存储器1004可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器1002可以通过传输装置调用存储器1004存储的信息及应用程序,以执行下述步骤:获取多组样本数据,其中,多组样本数据包括样本文本;对样本文本中的第一目标词添加掩码,得到目标文本;从样本文本中查找到第二目标词;对样本文本所包括的分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重;采用目标文本以及样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
可选的,上述处理器1002还可以执行如下步骤的程序代码:从样本文本中查找到第二目标词之前,还包括:获取多组验证数据,其中,多组验证数据包括验证文本;基于多组验证数据包括的验证文本,确定第二目标词。
可选的,上述处理器1002还可以执行如下步骤的程序代码:基于多组验证数据包括的验证文本,确定第二目标词,包括:对多组验证数据所包括的验证文本分别进行分词处理,得到多个分词;分别统计多个分词的出现次数;基于多个分词的出现次数,确定候选目标词;基于候选目标词,确定第二目标词。
可选的,上述处理器1002还可以执行如下步骤的程序代码:基于候选目标词,确定第二目标词,包括:在多组验证数据包括的验证文本中对候选目标词进行掩码操作,得到验证目标文本;采用预定转换器模型对验证目标文本进行预测,得到第一预测结果,并基于多组验证数据对应的第一预测结果,统计多组验证数据的第一准确率;采用预定转换器模型对验证文本进行预测,得到第二预测结果,并基于多组验证数据对应的第二预测结果,统计多组验证数据的第二准确率;基于第一准确率和第二准确率,确定第二目标词。
可选的,上述处理器1002还可以执行如下步骤的程序代码:基于第一准确率和第二准确率,确定第二目标词,包括:比较第一准确率和第二准确率,并在第一准确率高于第二准确率的情况下,确定候选目标词为第二目标词。
可选的,上述处理器1002还可以执行如下步骤的程序代码:对样本文本所包括的分词标注识别权重包括:基于样本文本以及第二目标词,构建可视化矩阵,其中,可视化矩阵中的行和列均为样本文本所包括的分词,可视化矩阵中的元素用于标识元素所在行对应的分词对所在列对应分词的识别权重,或者用于标识元素所在列对应的分词对所在行对应分词的识别权重。
可选的,上述处理器1002还可以执行如下步骤的程序代码:第二目标词的识别权重为零,可视化矩阵的对角线上的元素的识别权重非零。
可选的,上述处理器1002还可以执行如下步骤的程序代码:接收目标文本;将目标文本输入目标转换器模型,得到目标文本的识别结果,其中,目标转换器模型采用多组样本数据进行训练得到,多组样本数据包括:样本文本、对样本文本加入掩码的目标文本,以及样本文本对应的可视化矩阵,可视化矩阵用于标识对样本文本所包括的分词进行识别时其他分词的可见性。
可选的,上述处理器1002还可以执行如下步骤的程序代码:在交互界面上显示数据输入控件;响应于数据输入控件,接收多组样本数据,其中,多组样本数据包括样本文本;在交互界面上显示目标文本,其中,目标文本为对样本文本中的第一目标词添加掩码后得到的;在交互界面上对从样本文本中查找到的第二目标词进行高亮显示;响应于对模型训练控件的操作,在交互界面上显示模型训练结果,其中,模型训练结果用于标识目标转换器模型,目标转换器模型采用目标文本以及样本文本所包括的分词的识别权重进行机器训练得到,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重。
处理器1002可以通过传输装置调用存储器1004存储的信息及应用程序,以执行下述步骤:在交互界面上显示显示选路控件;响应于对选路控件的操作,在交互界面上显示多个通道的选路得分,其中,多个通道为多个第一节点到第二节点的通道,第二节点接收从多个第一节点传输的多个运营商的流量;在交互界面上突出显示目标通道,其中,目标通道为基于多个通道的选路得分从多个通道中选择得到的;在交互界面上显示文本处理结果,其中,文本处理结果基于目标通道的运营商切换策略,对第二节点接收的多个运营商的流量进行均衡处理得到。
在本发明实施例中,提供了一种文本处理方法,第二目标词的识别权重小于样本文本中除第二目标词之外的其他分词的识别权重,则在使用包括进行掩码处理的目标文本以及样本文本所包括分词的识别权重进行机器训练时,样本文本中第二目标词对除第二目标词之外的其他分词注意力影响较小,甚至忽略不可见,这相当于对样本文本进行了去噪声处理,去除了样本文本中非知识型的内容,使模型可以把注意力放在和知识相关的内容上。由此提高了模型的知识学习能力以及模型在训练时的知识学习效率,解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
本领域普通技术人员可以理解,图10所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,计算机终端还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,计算机可读存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种文本处理方法,其特征在于,包括:
获取多组样本数据,其中,所述多组样本数据包括样本文本;
对所述样本文本中的第一目标词添加掩码,得到目标文本;
从所述样本文本中查找到第二目标词;
对所述样本文本所包括的分词标注识别权重,其中,所述第二目标词的识别权重小于除所述第二目标词之外的其他分词的识别权重;
采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型;
其中, 从所述样本文本中查找到第二目标词之前,还包括:获取多组验证数据,其中,所述多组验证数据包括验证文本;基于所述多组验证数据包括的验证文本,确定所述第二目标词。
2.根据权利要求1所述的方法,其特征在于,基于所述多组验证数据包括的验证文本,确定所述第二目标词,包括:
对所述多组验证数据所包括的验证文本分别进行分词处理,得到多个分词;
分别统计所述多个分词的出现次数;
基于所述多个分词的出现次数,确定候选目标词;
基于所述候选目标词,确定所述第二目标词。
3.根据权利要求2所述的方法,其特征在于,所述基于所述候选目标词,确定所述第二目标词,包括:
在所述多组验证数据包括的所述验证文本中对所述候选目标词进行掩码操作,得到验证目标文本;
采用预定转换器模型对所述验证目标文本进行预测,得到第一预测结果,并基于所述多组验证数据对应的第一预测结果,统计所述多组验证数据的第一准确率;
采用所述预定转换器模型对所述验证文本进行预测,得到第二预测结果,并基于所述多组验证数据对应的第二预测结果,统计所述多组验证数据的第二准确率;
基于所述第一准确率和第二准确率,确定所述第二目标词。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一准确率和第二准确率,确定所述第二目标词,包括:
比较所述第一准确率和所述第二准确率,并在所述第一准确率高于所述第二准确率的情况下,确定所述候选目标词为所述第二目标词。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述对所述样本文本所包括的分词标注识别权重包括:
基于所述样本文本以及所述第二目标词,构建可视化矩阵,其中,所述可视化矩阵中的行和列均为所述样本文本所包括的分词,所述可视化矩阵中的元素用于标识所述元素所在行对应的分词对所在列对应分词的识别权重,或者用于标识所述元素所在列对应的分词对所在行对应分词的识别权重。
6.根据权利要求5所述的方法,其特征在于,所述第二目标词的识别权重为零,所述可视化矩阵的对角线上的元素的识别权重非零。
7.一种文本处理方法,其特征在于,包括:
接收目标文本;
将所述目标文本输入目标转换器模型,得到所述目标文本的识别结果,其中,所述目标转换器模型采用多组样本数据进行训练得到,所述多组样本数据包括:样本文本、对样本文本加入掩码的目标文本,以及所述样本文本对应的可视化矩阵,所述可视化矩阵用于标识对所述样本文本所包括的分词进行识别时其他分词的可见性;
其中,所述可视化矩阵包含所述样本文本所包括的分词的识别权重,其中,所述样本文本中的分词包括第二目标词,所述第二目标词的识别权重小于除所述第二目标词之外的其他分词的识别权重;
其中,所述样本文本中的分词中的第二目标词是从所述样本文本中查找得到的,从所述样本文本中查找到第二目标词之前,还包括:获取多组验证数据,其中,所述多组验证数据包括验证文本;基于所述多组验证数据包括的验证文本,确定所述第二目标词。
8.一种文本处理方法,其特征在于,包括:
在交互界面上显示数据输入控件;
响应于所述数据输入控件,接收多组样本数据,其中,所述多组样本数据包括样本文本;
在所述交互界面上显示目标文本,其中,所述目标文本为对所述样本文本中的第一目标词添加掩码后得到的;
在所述交互界面上对从所述样本文本中查找到的第二目标词进行高亮显示;
响应于对模型训练控件的操作,在所述交互界面上显示模型训练结果,其中,所述模型训练结果用于标识目标转换器模型,所述目标转换器模型采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练得到,所述第二目标词的识别权重小于除所述第二目标词之外的其他分词的识别权重;
其中, 从所述样本文本中查找到第二目标词之前,还包括:获取多组验证数据,其中,所述多组验证数据包括验证文本;基于所述多组验证数据包括的验证文本,确定所述第二目标词。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至8中任意一项所述的文本处理方法。
10.一种计算机设备,其特征在于,包括:存储器和处理器,
所述存储器存储有计算机程序;
所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行权利要求1至8中任意一项所述的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210200416.2A CN114330339B (zh) | 2022-03-03 | 2022-03-03 | 文本处理方法、计算机可读存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210200416.2A CN114330339B (zh) | 2022-03-03 | 2022-03-03 | 文本处理方法、计算机可读存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114330339A CN114330339A (zh) | 2022-04-12 |
CN114330339B true CN114330339B (zh) | 2022-06-24 |
Family
ID=81029840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210200416.2A Active CN114330339B (zh) | 2022-03-03 | 2022-03-03 | 文本处理方法、计算机可读存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114330339B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680145A (zh) * | 2020-06-10 | 2020-09-18 | 北京百度网讯科技有限公司 | 知识表示学习方法、装置、设备以及存储介质 |
CN112307777A (zh) * | 2020-09-27 | 2021-02-02 | 和美(深圳)信息技术股份有限公司 | 知识图谱表示学习方法及系统 |
CN112800239A (zh) * | 2021-01-22 | 2021-05-14 | 中信银行股份有限公司 | 意图识别模型训练方法、意图识别方法及装置 |
CN113361698A (zh) * | 2020-03-05 | 2021-09-07 | 阿里巴巴集团控股有限公司 | 神经网络模型的处理方法和装置、数据处理方法和装置 |
CN113553864A (zh) * | 2021-06-30 | 2021-10-26 | 北京百度网讯科技有限公司 | 翻译模型的训练方法、装置、电子设备及存储介质 |
CN113987162A (zh) * | 2021-09-28 | 2022-01-28 | 润联智慧科技(西安)有限公司 | 文本摘要的生成方法、装置及计算机设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106066866A (zh) * | 2016-05-26 | 2016-11-02 | 同方知网(北京)技术有限公司 | 一种英文文献关键短语自动抽取方法与系统 |
KR20200052182A (ko) * | 2018-11-06 | 2020-05-14 | 한국전자통신연구원 | 딥러닝 모델 압축 및 압축 해제 방법 그리고 장치 |
CN111539223B (zh) * | 2020-05-29 | 2023-08-18 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、电子设备及可读存储介质 |
-
2022
- 2022-03-03 CN CN202210200416.2A patent/CN114330339B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361698A (zh) * | 2020-03-05 | 2021-09-07 | 阿里巴巴集团控股有限公司 | 神经网络模型的处理方法和装置、数据处理方法和装置 |
CN111680145A (zh) * | 2020-06-10 | 2020-09-18 | 北京百度网讯科技有限公司 | 知识表示学习方法、装置、设备以及存储介质 |
CN112307777A (zh) * | 2020-09-27 | 2021-02-02 | 和美(深圳)信息技术股份有限公司 | 知识图谱表示学习方法及系统 |
CN112800239A (zh) * | 2021-01-22 | 2021-05-14 | 中信银行股份有限公司 | 意图识别模型训练方法、意图识别方法及装置 |
CN113553864A (zh) * | 2021-06-30 | 2021-10-26 | 北京百度网讯科技有限公司 | 翻译模型的训练方法、装置、电子设备及存储介质 |
CN113987162A (zh) * | 2021-09-28 | 2022-01-28 | 润联智慧科技(西安)有限公司 | 文本摘要的生成方法、装置及计算机设备 |
Non-Patent Citations (2)
Title |
---|
K-bert:Enabling language representation with knowledge graph;Liu W;《Proceedings of the AAAI Conference on Artificial Intellligence》;20201231;摘要 * |
自然语言预训练模型知识增强方法综述;孙毅;《中文信息学报》;20210715;摘要 * |
Also Published As
Publication number | Publication date |
---|---|
CN114330339A (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271493A (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN110874439B (zh) | 一种基于评论信息的推荐方法 | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN108319888B (zh) | 视频类型的识别方法及装置、计算机终端 | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN108733644A (zh) | 一种文本情感分析方法、计算机可读存储介质及终端设备 | |
CN111160041A (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN110377733A (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
CN115146068B (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
CN113032520A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN111079433B (zh) | 一种事件抽取方法、装置及电子设备 | |
CN115168592A (zh) | 基于方面类别的语句情感分析方法、装置以及设备 | |
CN115588193A (zh) | 基于图注意力神经网络与视觉关系的视觉问答方法及装置 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN111274813A (zh) | 语言序列标注方法、装置存储介质及计算机设备 | |
CN111199421B (zh) | 一种基于社交关系的用户推荐方法、装置及电子设备 | |
CN114330339B (zh) | 文本处理方法、计算机可读存储介质及计算机设备 | |
CN104679492B (zh) | 计算机实现的提供技术支持的设备和方法 | |
CN113704471B (zh) | 语句的分类方法、装置、设备和存储介质 | |
CN115129885A (zh) | 实体链指方法、装置、设备及存储介质 | |
CN113505293B (zh) | 信息推送方法、装置、电子设备及存储介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN114138954A (zh) | 用户咨询问题推荐方法、系统、计算机设备及存储介质 | |
CN115374255A (zh) | 题目推荐方法、装置、设备及存储介质 | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |