CN117033649A - 文本处理模型的训练方法、装置、电子设备及存储介质 - Google Patents
文本处理模型的训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117033649A CN117033649A CN202211302351.9A CN202211302351A CN117033649A CN 117033649 A CN117033649 A CN 117033649A CN 202211302351 A CN202211302351 A CN 202211302351A CN 117033649 A CN117033649 A CN 117033649A
- Authority
- CN
- China
- Prior art keywords
- text
- sample
- processing model
- task
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 267
- 238000012549 training Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 45
- 230000015654 memory Effects 0.000 claims description 23
- 230000004044 response Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 description 25
- 238000013528 artificial neural network Methods 0.000 description 16
- 239000010410 layer Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 210000002569 neuron Anatomy 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000013145 classification model Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012800 visualization Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 238000010225 co-occurrence analysis Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种文本处理模型的训练方法、装置、电子设备及存储介质;方法包括:获取至少两种任务类型的文本样本,每种任务类型的文本样本对应文本处理模型的一种预测任务;通过文本处理模型,对各文本样本执行相应的预测任务,得到各文本样本对应的预测结果,预测结果包括:第一文本样本中缺失的三元组元素,或者至少一个未知字符的内容;基于各文本样本对应的预测结果及各文本样本的样本标签,更新文本处理模型的模型参数。通过本申请,能够有效提高所训练的文本处理模型的文本处理性能。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理模型的训练方法、装置、电子设备及存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
在相关技术中,通常是通过单一任务类型的文本样本,对文本处理模型进行训练,导致所训练的文本处理模型的文本处理性能不足。
发明内容
本申请实施例提供一种文本处理模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够有效提高所训练的文本处理模型的文本处理性能。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种文本处理模型的训练方法,包括:
获取至少两种任务类型的文本样本,每种所述任务类型的文本样本对应所述文本处理模型的一种预测任务;
其中,所述至少两种任务类型包括知识图谱类型及非知识图谱类型,所述知识图谱类型的第一文本样本包括三元组中的部分元素,所述非知识图谱类型的第二文本样本包括所述三元组中的全部元素,以及至少一个未知字符;
通过所述文本处理模型,对各所述文本样本执行相应的所述预测任务,得到各所述文本样本对应的预测结果,所述预测结果包括:所述第一文本样本中缺失的三元组元素,或者所述至少一个未知字符的内容;
基于各所述文本样本对应的预测结果及各所述文本样本的样本标签,更新所述文本处理模型的模型参数;
其中,所述文本处理模型,用于当搜索文本包括三元组中部分元素时,对所述搜索文本进行缺失元素预测,得到所述搜索文本缺失的三元组元素,以结合所述搜索文本及所述三元组元素,进行内容搜索;当所述搜索文本中包括三元组中全部元素时,对所述搜索文本进行未知字符预测,得到所述搜索文本对应的未知字符的内容,以结合所述搜索文本及所述未知字符的内容,进行内容搜索。
本申请实施例提供一种文本处理模型的训练装置,包括:
获取模块,用于获取至少两种任务类型的文本样本,每种所述任务类型的文本样本对应所述文本处理模型的一种预测任务;其中,所述至少两种任务类型包括知识图谱类型及非知识图谱类型,所述知识图谱类型的第一文本样本包括三元组中的部分元素,所述非知识图谱类型的第二文本样本包括所述三元组中的全部元素,以及至少一个未知字符;
预测模块,用于通过所述文本处理模型,对各所述文本样本执行相应的所述预测任务,得到各所述文本样本对应的预测结果,所述预测结果包括:所述第一文本样本中缺失的三元组元素,或者所述至少一个未知字符的内容;
参数更新模块,用于基于各所述文本样本对应的预测结果及各所述文本样本的样本标签,更新所述文本处理模型的模型参数;其中,所述文本处理模型,用于当搜索文本包括三元组中部分元素时,对所述搜索文本进行缺失元素预测,得到所述搜索文本缺失的三元组元素,以结合所述搜索文本及所述三元组元素,进行内容搜索;当所述搜索文本中包括三元组中全部元素时,对所述搜索文本进行未知字符预测,得到所述搜索文本对应的未知字符的内容,以结合所述搜索文本及所述未知字符的内容,进行内容搜索。
在一些实施例中,所述知识图谱类型包括关系抽取类型,所述第一文本样本对应所述文本处理模型的关系抽取任务,所述三元组包括两个实体元素、及所述两个实体元素间的实体关系,所述第一文本样本中至少包括所述两个所述实体元素;上述预测模块,还用于通过所述文本处理模型,对所述第一文本样本进行关系抽取,得到所述第一文本样本对应的关系抽取结果,将所述关系抽取结果作为所述第一文本样本对应的预测结果;其中,所述关系抽取结果包括:所述实体关系,或者所述三元组。
在一些实施例中,所述知识图谱类型包括属性识别类型,所述第一文本样本对应所述文本处理模型的属性识别任务,所述三元组包括两个实体元素、及所述两个实体元素间的实体关系,所述第一文本样本中至少包括一个所述实体元素;上述预测模块,还用于通过所述文本处理模型,对所述第一文本样本进行属性识别,得到所述第一文本样本对应的属性识别结果,将所述属性识别结果作为所述第一文本样本对应的预测结果;其中,所述属性识别结果,表征所述第一文本样本对应的属性特征。
在一些实施例中,所述知识图谱类型包括实体识别类型,所述第一文本样本对应所述文本处理模型的实体识别任务,所述三元组包括两个实体元素、及所述两个实体元素间的实体关系,所述第一文本样本中,至少包括一个所述实体元素,以及所述实体关系;上述预测模块,还用于通过所述文本处理模型,对所述第一文本样本进行实体识别,得到所述第一文本样本对应的实体识别结果,将所述实体识别结果作为所述第一文本样本对应的预测结果;其中,所述实体识别结果包括:所述第一文本样本中所缺失的所述实体元素。
在一些实施例中,当所述任务类型为所述非知识图谱类型时,所述第二文本样本对应所述文本处理模型的字符预测任务,上述预测模块,还用于通过所述文本处理模型,对所述非知识图谱类型的所述第二文本样本进行字符预测,得到所述第二文本样本对应的字符预测结果,并将所述字符预测结果作为所述第二文本样本对应的预测结果;其中,所述字符预测结果包括:所述第二文本样本中所述至少一个未知字符的字符内容。
在一些实施例中,上述参数更新模块,还用于基于各所述文本样本对应的预测结果,确定各所述预测结果对应的目标概率,所述目标概率表征所述预测结果是所述样本标签的概率;基于所述目标概率,确定各所述文本样本的训练损失值;基于各所述训练损失值,对所述文本处理模型的模型参数进行更新,得到更新后的文本处理模型。
在一些实施例中,所述文本处理模型包括编码网络和解码网络,所述预测任务包括编码任务及解码任务;上述参数更新模块,还用于通过所述编码网络,对各所述文本样本执行相应的所述编码任务,得到各所述文本样本对应的编码结果;通过所述解码网络,对各所述编码结果执行相应的所述解码任务,得到各所述文本样本对应的解码结果;将各所述文本样本对应的所述解码结果,确定为对应的所述预测结果。
在一些实施例中,上述获取模块,还用于获取文本样本集合,其中,所述文本样本集合包括所述至少两种任务类型的文本样本;针对所述文本样本集合中的各所述文本样本分别执行以下处理:获取所述文本样本的分类标签;基于所述分类标签,确定所述文本样本的任务类型。
在一些实施例中,上述获取模块,还用于获取文本样本集合,其中,所述文本样本集合包括所述至少两种任务类型的文本样本;针对所述文本样本集合中的各所述文本样本分别执行以下处理:对所述文本样本的语言结构进行解析,得到所述文本样本的语言结构信息;基于所述语言结构信息,确定所述文本样本的任务类型。
在一些实施例中,上述获取模块,还用于响应于所述语言结构信息表征所述文本样本包括所述三元组中的至少一个元素,将所述文本样本的任务类型确定为所述知识图谱类型;响应于所述语言结构信息表征所述文本样本包括所述至少一个未知字符,将所述文本样本的任务类型确定为所述非知识图谱类型。
在一些实施例中,上述文本处理模型的训练装置,包括:搜索模块,用于响应于针对所述搜索文本的搜索操作,通过更新后的文本处理模型,对所述搜索文本执行相应的预测任务,得到所述搜索文本对应的目标预测结果;基于所述搜索文本对应的目标预测结果,确定所述搜索文本对应的目标检索式;在数据库中检索与所述目标检索式匹配的至少一条目标条目,并基于各所述目标条目,确定对应所述搜索文本的搜索结果。
在一些实施例中,上述搜索模块,还用于将所述目标预测结果,确定为所述目标检索式的检索关键词,或者将所述目标预测结果和所述搜索文本,确定为所述目标检索式的检索关键词;基于所述检索关键词,构造所述搜索文本对应的目标检索式。
本申请实施例提供一种电子设备,包括:
存储器,用于存储计算机可执行指令或者计算机程序;
处理器,用于执行所述存储器中存储的计算机可执行指令或者计算机程序时,实现本申请实施例提供的文本处理模型的训练方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于引起处理器执行时,实现本申请实施例提供的文本处理模型的训练方法。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的文本处理模型的训练方法。
本申请实施例具有以下有益效果:
通过至少两种任务类型的文本样本,对文本处理模型的模型参数进行更新,由于至少两种任务类型的文本样本,包括知识图谱类型的文本样本和非知识图谱类型的文本样本,使得文本处理模型能够在知识图谱类型和非知识图谱类型的预测任务中,得到有效训练。如此,通过使文本处理模型在知识图谱类型和非知识图谱类型的预测任务中,得到有效训练,使得训练后得到的文本处理模型能够有效学习到知识图谱中的世界知识,从而能够有效提高所训练的文本处理模型的文本处理性能。
附图说明
图1是本申请实施例提供的文本处理模型的训练系统架构的结构示意图;
图2是本申请实施例提供的文本处理模型的训练装置的结构示意图;
图3至图7是本申请实施例提供的文本处理模型的训练方法的流程示意图;
图8至图12是本申请实施例提供的文本处理模型的训练方法的原理示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大样本处理技术、操作/交互系统、机电一体化等技术。
2)自然语言处理(Nature Language processing,NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
3)卷积神经网络(CNN,Convolutional Neural Networks):是一类包含卷积计算且具有深度结构的前馈神经网络(FNN,Feed forward Neural Networks),是深度学习(Deep Learning)的代表算法之一。卷积神经网络具有表征学习(RepresentationLearning)能力,能够按其阶层结构对输入图像进行平移不变分类(Shift-InvariantClassification)。
4)命名实体识别(Named Entity Recognition,NER):是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
5)前馈神经网络(Feed Forward Neural Network,FFN):是一种人工神经网络,前馈神经网络的各神经元分层排列,每个神经元只与前一层的神经元相连,每一层通过接收前一层的输出,并输出给下一层,各层间没有反馈。前馈神经网络包括感知器网络、BP网络、RBF网络。其中,感知器网络是最简单的前馈网络,它主要用于模式分类,也可用在基于模式分类的学习控制和多模态控制中。感知器网络可分为单层感知器网络和多层感知器网络。BP网络是指连接权调整采用了反向传播(Back Propagation)学习算法的前馈网络。与感知器不同之处在于,BP网络的神经元变换函数采用了S形函数(Sigmoid函数),因此输出量是0~1之间的连续量,可实现从输入到输出的任意的非线性映射。RBF网络是指隐含层神经元由RBF神经元组成的前馈网络。RBF神经元是指神经元的变换函数为RBF(Radial BasisFunction,径向基函数)的神经元。典型的RBF网络由三层组成:一个输入层,一个或多个由RBF神经元组成的RBF层(隐含层),一个由线性神经元组成的输出层。
6)残差连接网络(Residual Network,Res Net):又称残差网络,残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。
7)长短期记忆网络(Long Short-Term Memory,LSTM):是一种时间循环神经网络,是为了解决一般的循环神经网络存在的长期依赖问题而专门设计出来的,所有的循环神经网络都具有一种重复神经网络模块的链式形式。在标准循环神经网络中,这个重复的结构模块只有一个非常简单的结构。
8)知识图谱(Knowledge Graph):在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。能为学科研究提供切实的、有价值的参考。具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
在本申请实施例的实施过程中,申请人发现相关技术存在以下问题:
在相关技术中,对于文本处理模型的训练,通常是通过利用大规模的文本来构建一些无监督的预训练任务,然后训练文本处理模型。例如,两个句子样本S1和S2,它们在文本样本中的所在位置靠近。通过构造分类任务,正例就是S1和S2,负例可以随机从别的文档随机找一个句子S3构造成负例,例如:S1和S3,通过上述正例和负例,对文本处理模型进行训练。
在相关技术中,虽然能从海量文本中能学到大量的语法、句法、语义等通用知识,但是对一些世界知识包括常识是学习不足的,这是因为文本中往往只包含了头中部知识,而且是以多种形式存在于无结构的文本中,导致学习难度也比较大,从而导致训练得到的文本处理模型,对于文本的处理能力不足。
本申请实施例提供一种文本处理模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够有效提高所训练的文本处理模型的文本处理性能,下面说明本申请实施例提供的文本处理模型的训练系统的示例性应用。
参见图1,图1是本申请实施例提供的文本处理模型的训练系统100的架构示意图,终端(示例性示出了终端400)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400用于供用户使用客户端410,在图形界面410-1(示例性示出了图形界面410-1)显示搜索结果。终端400和服务器200通过有线或者无线网络相互连接。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表、车载终端等,但并不局限于此。本申请实施例提供的电子设备可以实施为终端,也可以实施为服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
在一些实施例中,终端400向服务器200发送至少两种任务类型的文本样本,服务器200获取终端400发送的至少两种任务类型的文本样本,通过获取的文本样本,对文本处理模型的模型参数进行更新,并将参数更新后的文本处理模型发送至终端400。
在另一些实施例中,终端400获取服务器200发送的至少两种任务类型的文本样本,通过获取的文本样本,对文本处理模型的模型参数进行更新,并将参数更新后的文本处理模型发送至服务器200。
在另一些实施例中,本申请实施例可以借助于云技术(Cloud Technology)实现,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。
参见图2,图2是本申请实施例提供的用于训练文本处理模型的电子设备500的结构示意图,其中,图2所示出的电子设备500可以是图2中的服务器200或者终端400,图2所示的电子设备500包括:至少一个处理器410、存储器450、至少一个网络接口420。电子设备500中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi,Wireless Fidelity)、和通用串行总线(USB,Universal Serial Bus)等。
在一些实施例中,本申请实施例提供的文本处理模型的训练装置可以采用软件方式实现,图2示出了存储在存储器450中的文本处理模型的训练装置455,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块4551、预测模块4552、参数更新模块4553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的文本处理模型的训练装置可以采用硬件方式实现,作为示例,本申请实施例提供的文本处理模型的训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的文本处理模型的训练方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在一些实施例中,终端或服务器可以通过运行计算机程序或计算机可执行指令来实现本申请实施例提供的文本处理模型的训练方法。举例来说,计算机程序可以是操作系统中的原生程序(例如,专用的文本处理程序)或软件模块,例如,可以嵌入到任意程序(如即时通信客户端、相册程序、电子地图客户端、导航客户端、文本处理客户端)中的文本处理模块;例如可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
将结合本申请实施例提供的服务器或终端的示例性应用和实施,说明本申请实施例提供的文本处理模型的训练方法。
参见图3,图3是本申请实施例提供的文本处理模型的训练方法的流程示意图,将结合图3示出的步骤101至步骤103进行说明,本申请实施例提供的文本处理模型的训练方法可以由服务器或终端单独实施,或者由服务器及终端协同实施,下面将以服务器单独实施为例进行说明。
在步骤101中,获取至少两种任务类型的文本样本,每种任务类型的文本样本对应文本处理模型的一种预测任务。
在一些实施例中,至少两种任务类型包括知识图谱类型及非知识图谱类型,知识图谱类型的第一文本样本包括三元组中的部分元素,非知识图谱类型的第二文本样本包括三元组中的部分元素,以及至少一个未知字符。
在一些实施例中,知识图谱类型的第一文本样本,通过把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
在一些实施例中,知识图谱类型包括关系抽取类型,第一文本样本对应文本处理模型的关系抽取任务;知识图谱类型包括属性识别类型,第一文本样本对应文本处理模型的属性识别任务;知识图谱类型包括实体识别类型,第一文本样本对应文本处理模型的实体识别任务。
在一些实施例中,参见图4,图4是本申请实施例提供的文本处理模型的训练方法的流程示意图,图4所示出的步骤101可以通过执行以下步骤1011至步骤1012实现。
在步骤1011中,获取文本样本集合,其中,文本样本集合包括至少两种任务类型的文本样本。
在一些实施例中,文本样本集合可以为待分类文章,待分类文章包括多条待分类语言,每条待分类语句均是文本样本集合中的文本样本,文本样本集合包括至少两种任务类型的文本样本,文本样本集合中的文本样本为待分类的文本样本。
在步骤1012中,针对文本样本集合中的各文本样本分别执行以下处理:获取文本样本的分类标签;基于分类标签,确定文本样本的任务类型。
在一些实施例中,分类标签,表征文本样本的任务类型,用于确定文本样本的任务类型。
在一些实施例中,文本样本的分类标签包括知识图谱类型的分类标签和非知识图类型的分类标签,其中,知识图谱类型的分类标签包括关系抽取类型的分类标签,属性识别类型的分类标签和实体识别类型的分类标签。
在一些实施例中,上述步骤1012可以通过如下方式实现:获取文本样本的分类标签;响应于分类标签为关系抽取类型的分类标签,将文本样本的任务类型确定为关系抽取类型;响应于分类标签为属性识别类型的分类标签,将文本样本的任务类型确定为属性识别类型;响应于分类标签为实体识别类型的分类标签,将文本样本的任务类型确定为实体识别类型。
在一些实施例中,参见图5,图5是本申请实施例提供的文本处理模型的训练方法的流程示意图,图5所示出的步骤101可以通过执行以下步骤1013至步骤1014实现。
在步骤1013中,获取文本样本集合,其中,文本样本集合包括至少两种任务类型的文本样本。
在一些实施例中,文本样本集合可以为待分类文章,待分类文章包括多条待分类语言,每条待分类语句均是文本样本集合中的文本样本,文本样本集合包括至少两种任务类型的文本样本,文本样本集合中的文本样本为待分类的文本样本。
在步骤1014中,针对文本样本集合中的各文本样本分别执行以下处理:对文本样本的语言结构进行解析,得到文本样本的语言结构信息;基于语言结构信息,确定文本样本的任务类型。
在一些实施例中,文本样本的语言结构信息表征文本样本是否包括三元组中的部分元素,或表征文本样本包括至少一个未知字符。
在一些实施例中,文本样本的语言结构信息,用于指示文本样本的任务类型,不同语言结构的文本样本,对应的任务类型不同。
在一些实施例中,上述基于语言结构信息,确定文本样本的任务类型可以通过如下方式实现:响应于语言结构信息表征文本样本包括三元组中的至少一个元素,将文本样本的任务类型确定为知识图谱类型;响应于语言结构信息表征文本样本包括至少一个未知字符,将文本样本的任务类型确定为非知识图谱类型。
在一些实施例中,知识图谱类型包括关系抽取类型,属性识别类型和实体识别类型。
在一些实施例中,上述响应于语言结构信息表征文本样本包括三元组中的至少一个元素,将文本样本的任务类型确定为知识图谱类型,可以通过如下方式实现:响应于语言结构信息表征文本样本包括三元组中的至少一个实体元素,将文本样本的任务类型确定为属性识别类型;响应于语言结构信息表征文本样本至少包括一个实体元素,以及实体关系,将文本样本的任务类型确定为实体识别类型;响应于语言结构信息表征文本样本至少包括两个实体元素,将文本样本的任务类型确定为关系抽取类型。
如此,通过获取至少两种任务类型的文本样本,确定各文本样本的文本类型,便于后续针对不同文本类型的文本样本,执行不同的预测任务,得到各文本类型的文本样本的预测结果。同时,由于文本类型包括知识图谱类型和非知识图谱类型,从而在对文本处理模型进行训练的过程中,引入了知识图谱类型和非知识图谱类型的文本样本,便于后续利用知识图谱构造了多个跟知识相关的预训练任务,可以让文本处理模型更好的学到知识图谱中的知识,有效提高了文本处理模型的文本处理性能。
在步骤102中,通过文本处理模型,对各文本样本执行相应的预测任务,得到各文本样本对应的预测结果。
在一些实施例中,上述预测结果包括:第一文本样本中缺失的三元组元素,或者至少一个未知字符的内容。
在一些实施例中,当文本样本的任务类型为知识图谱类型时,文本样本对应的预测结果包括对应第一文本样本的三元组中的至少一个元素;当文本样本的任务类型为非知识图谱类型时,文本样本对应的预测结果包括至少一个未知字符。
在一些实施例中,知识图谱类型包括关系抽取类型,第一文本样本对应文本处理模型的关系抽取任务,三元组包括两个实体元素、及两个实体元素间的实体关系,第一文本样本中至少包括两个实体元素。
在一些实施例中,三元组是知识图谱的组成单元,任意领域的知识图谱包括多个三元组,各三元组包括两个实体元素、及两个实体元素间的实体关系。
在一些实施例中,当知识图谱类型包括关系抽取类型时,上述步骤102可以通过如下方式实现:通过文本处理模型,对第一文本样本进行关系抽取,得到第一文本样本对应的关系抽取结果,将关系抽取结果作为第一文本样本对应的预测结果;其中,关系抽取结果包括:实体关系,或者三元组。
作为示例,参见图9,图9是本申请实施例提供的文本处理模型的训练方法的原理示意图。当知识图谱类型包括关系抽取类型时,第一文本样本可以为“2021年6月23日,小明与小朱在家乡注册结婚”、“2021年6月23日,小明与小朱在家乡注册结婚;[SEP]小明[SEP]小朱”通过文本处理模型,对第一文本样本进行关系抽取,得到第一文本样本对应的关系抽取结果,将关系抽取结果作为第一文本样本对应的预测结果,与第一文本样本“2021年6月23日,小明与小朱在家乡注册结婚”对应的预测结果为“妻子”,与第一文本样本“2021年6月23日,小明与小朱在家乡注册结婚;[SEP]小明[SEP]小朱”对应的预测结果为“小明|妻子|小朱”。
在一些实施例中,知识图谱类型包括属性识别类型,第一文本样本对应文本处理模型的属性识别任务,三元组包括两个实体元素、及两个实体元素间的实体关系,第一文本样本中至少包括一个实体元素。
在一些实施例中,当知识图谱类型包括属性识别类型时,上述步骤102可以通过如下方式实现:通过文本处理模型,对第一文本样本进行属性识别,得到第一文本样本对应的属性识别结果,将属性识别结果作为第一文本样本对应的预测结果;其中,属性识别结果,表征第一文本样本对应的属性特征。
作为示例,参见图10,图10是本申请实施例提供的文本处理模型的训练方法的原理示意图。当知识图谱类型包括属性识别类型时,上述第一文本样本中至少包括一个实体元素,例如,第一文本样本“小明有多高”中,包括实体元素“小明”,通过文本处理模型,对第一文本样本“小明有多高”进行属性识别,得到第一文本样本“小明有多高”对应的属性识别结果“小明|身高”,将属性识别结果“小明|身高”作为第一文本样本“小明有多高”对应的预测结果。
在一些实施例中,知识图谱类型包括实体识别类型,第一文本样本对应文本处理模型的实体识别任务,三元组包括两个实体元素、及两个实体元素间的实体关系,第一文本样本中,至少包括一个实体元素,以及实体关系。
在一些实施例中,当知识图谱类型包括实体识别类型时,上述步骤102可以通过如下方式实现:通过文本处理模型,对第一文本样本进行实体识别,得到第一文本样本对应的实体识别结果,将实体识别结果作为第一文本样本对应的预测结果;其中,实体识别结果包括:第一文本样本中所缺失的实体元素。
作为示例,参见图11,图11是本申请实施例提供的文本处理模型的训练方法的原理示意图。当知识图谱类型包括属性识别类型时,第一文本样本中,至少包括一个实体元素,以及实体关系,例如,第一文本样本“小明(影视男演员、歌手)|妻子”中包括实体元素“小明”,以及实体关系“妻子”,通过文本处理模型,对第一文本样本“小明(影视男演员、歌手)|妻子”进行实体识别,得到第一文本样本“小明(影视男演员、歌手)|妻子”对应的实体识别结果“小张”,将实体识别结果“小张”作为第一文本样本“小明(影视男演员、歌手)|妻子”对应的预测结果“小张”;其中,实体识别结果“小张”包括:第一文本样本中所缺失的实体元素“小张”。
在一些实施例中,当任务类型为非知识图谱类型时,上述步骤102可以通过如下方式实现:通过文本处理模型,对非知识图谱类型的第二文本样本进行字符预测,得到第二文本样本对应的字符预测结果,并将字符预测结果作为第二文本样本对应的预测结果;其中,字符预测结果包括:第二文本样本中至少一个未知字符的字符内容。
作为示例,当任务类型为非知识图谱类型时,非知识图谱类型的第二文本样本可以为“小明携妻子小张_本次活动”,通过文本处理模型,对非知识图谱类型的第二文本样本“小明携妻子小张_本次活动”进行字符预测,得到第二文本样本对应的字符预测结果“参加了”,并将字符预测结果“参加了”作为第二文本样本对应的预测结果“参加了”;其中,字符预测结果“参加了”包括:第二文本样本中至少一个未知字符的字符内容“参加了”。
在一些实施例中,上述文本处理模型包括编码网络和解码网络,预测任务包括编码任务及解码任务;上述步骤102可以通过如下方式实现:通过编码网络,对各文本样本执行相应的编码任务,得到各文本样本对应的编码结果;通过解码网络,对各编码结果执行相应的解码任务,得到各文本样本对应的解码结果;将各文本样本对应的解码结果,确定为对应的预测结果。
在一些实施例中,编码网络,用于对文本样本执行相应的编码任务,解码网络,用于对相应的文本样本执行解码任务。
在一些实施例中,上述编码网络和解码网络可以通过自编码器的方式实现,上述自编码器包括编码器和解码器,其中编码器可以是编码网络,解码器可以是解码网络,按学习范式,自编码器可以被分为收缩自编码器(Contractive Autoencoder)、正则自编码器(Regularized Autoencoder)和变分自编码器(Variational AutoEncoder,VAE),其中前两者是判别模型、后者是生成模型。按构筑类型,自编码器可以是前馈结构或递归结构的神经网络。
如此,通过文本处理模型,对各任务类型的文本样本执行相应的预测任务,得到各文本样本对应的预测结果,从而便于后续基于不同任务类型的文本样本对应的预测结果,对文本处理模型的模型参数进行更新,得到更新后的文本处理模型,从而使得更新后的文本处理模型能够充分学习到各中不同任务类型的文本样本的预测任务的表征能力,有效提高了模型的泛化能力,使得更新后的文本处理模型的模型性能更优,实现了对文本处理模型的有效训练。
在步骤103中,基于各文本样本对应的预测结果及各文本样本的样本标签,更新文本处理模型的模型参数。
在一些实施例中,上述文本处理模型,用于当搜索文本包括三元组中部分元素时,对搜索文本进行缺失元素预测,得到搜索文本缺失的三元组元素,以结合搜索文本及所述三元组元素,进行内容搜索;当搜索文本中包括三元组中全部元素时,对搜索文本进行未知字符预测,得到搜索文本对应的未知字符的内容,以结合搜索文本及未知字符的内容,进行内容搜索。
在一些实施例中,上述步骤103可以通过如下方式实现:基于各文本样本对应的预测结果及各文本样本的样本标签,通过反向更新的方式,更新文本处理模型的模型参数,得到更新后的文本处理模型。
在一些实施例中,上述步骤103可以通过如下方式实现:基于各文本样本对应的预测结果及各文本样本的样本标签,通过梯度更新的方式,更新文本处理模型的模型参数,得到更新后的文本处理模型。
在一些实施例中,参见图6,图6是本申请实施例提供的文本处理模型的训练方法的流程示意图,图6所示出的步骤103可以通过执行以下步骤1031至步骤1033实现。
在步骤1031中,基于各文本样本对应的预测结果,确定各预测结果对应的目标概率,目标概率表征预测结果是样本标签的概率。
在一些实施例中,上述步骤1031可以通过如下方式实现:基于各文本样本对应的预测结果,确定预测结果对应样本标签的标签分值;基于预测结果对应样本标签的分值,确定各预测结果对应的目标概率。
在一些实施例中,上述基于各文本样本对应的预测结果,确定预测结果对应样本标签的标签分值,可以通过如下方式实现:针对各文本样本分别执行以下处理:获取第一训练参数和第二训练参数,其中,第一训练参数和第二训练参数,用于确定标签分值;将预测结果与第一训练参数的乘积,确定为中间结果;将中间结果和第二训练参数的加和,确定为预测结果对应样本标签的标签分值。
在一些实施例中,上述标签分值的表达式可以为:
logits=WV+B (1)
其中,logits表征标签分值,W表征第一训练参数,B表征第二训练参数,V表征文本样本对应的预测结果。
在一些实施例中,上述基于预测结果对应样本标签的分值,确定各预测结果对应的目标概率可以通过如下方式实现:针对各预测结果分别执行以下处理:将预测结果对应的样本标签的分值进行归一化处理,得到归一化处理结果,将归一化处理结果,确定为预测结果对应的目标概率。
在一些实施例中,上述预测结果对应的目标概率的表达式可以为:
P=softmax(logits) (2)
其中,P表征预测结果对应的目标概率,softmax表征归一化处理,logits表征标签分值。
在步骤1032中,基于目标概率,确定各文本样本的训练损失值。
在一些实施例中,上述步骤1032可以通过如下方式实现:将目标概率的对数值,确定为中间损失结果,将中间损失结果的相反数,确定为文本样本的训练损失值。
作为示例,上述文本样本的训练损失值的表达式可以为:
Loss=-Log(P) (3)
其中,P表征预测结果对应的目标概率,Log表征取对数函数,Loss表征文本样本的训练损失值。
在步骤1033中,基于各训练损失值,对文本处理模型的模型参数进行更新,得到更新后的文本处理模型。
在一些实施例中,上述步骤1033可以通过如下方式实现:针对各训练损失值分别执行以下处理:基于训练损失值,对文本处理模型的模型参数进行梯度更新,得到更新后的文本处理模型。
如此,通过各任务类型分别对应的训练损失值,对文本处理模型的模型参数进行更新,所得到的更新后的文本处理模型,能够有效学习到各任务类型的文本样本的表征,从而使得更新后的文本处理模型能够充分学习到各中不同任务类型的文本样本的预测任务的表征能力,有效提高了模型的泛化能力,使得更新后的文本处理模型的模型性能更优,实现了对文本处理模型的有效训练。
在一些实施例中,参见图7,图7是本申请实施例提供的文本处理模型的训练方法的流程示意图,图7所示出的步骤103之后,可以通过执行以下步骤104至步骤106实现针对搜索文本的搜索。
在步骤104中,响应于针对搜索文本的搜索操作,通过更新后的文本处理模型,对搜索文本执行相应的预测任务,得到搜索文本对应的目标预测结果。
在一些实施例中,上述步骤104可以通过如下方式实现:响应于针对搜索文本的搜索操作,基于搜索文本,调用更新后的文本处理模型,对搜索文本执行相应的预测任务,得到搜索文本对应的目标预测结果。
作为示例,当搜索文本为“小明(影视男演员、歌手)|妻子”时,调用更新后的文本处理模型,对搜索文本执行相应的预测任务,得到搜索文本对应的目标预测结果可以为“小张”。
在步骤105中,基于搜索文本对应的目标预测结果,确定搜索文本对应的目标检索式。
在一些实施例中,目标检索式,用于在数据库中,检索得到搜索文本的搜索结果。
在一些实施例中,参见图8,图8是本申请实施例提供的文本处理模型的训练方法的流程示意图,图8所示出的步骤105可以通过执行以下步骤1051至步骤1052实现。
在步骤1051中,将目标预测结果,确定为目标检索式的检索关键词,或者将目标预测结果和搜索文本,确定为目标检索式的检索关键词。
作为示例,将目标预测结果“小张”,确定为目标检索式的检索关键词,或者将目标预测结果“小张”和搜索文本“小明(影视男演员、歌手)|妻子”,确定为目标检索式的检索关键词。
在步骤1052中,基于检索关键词,构造搜索文本对应的目标检索式。
作为示例,当检索关键词为“小张”和“小明(影视男演员、歌手)|妻子”时,搜索文本对应的目标检索式可以为“(小张)or(小明(影视男演员、歌手)|妻子)”。
在步骤106中,在数据库中检索与目标检索式匹配的至少一条目标条目,并基于各目标条目,确定对应搜索文本的搜索结果。
在一些实施例中,数据库包括知识图谱类型的数据库和非知识图谱类型的数据库,其中,知识图谱类型的数据库包括特定领域的知识图谱中的各三元组。
作为示例,上述基于各目标条目,确定对应搜索文本的搜索结果,可以通过如下方式实现:针对各目标条目分别执行以下处理:确定目标条目对应的文本内容,将目标条目对应的文本内容确定为搜索文本的搜索结果。
如此,通过至少两种任务类型的文本样本,对文本处理模型的模型参数进行更新,由于至少两种任务类型的文本样本,包括知识图谱类型的文本样本和非知识图谱类型的文本样本,使得文本处理模型能够在知识图谱类型和非知识图谱类型的预测任务中,得到有效训练。如此,通过使文本处理模型在知识图谱类型和非知识图谱类型的预测任务中,得到有效训练,使得训练后得到的文本处理模型能够有效学习到知识图谱中的世界知识,从而能够有效提高所训练的文本处理模型的文本处理性能。
下面,将说明本申请实施例在一个实际的自然语言处理的应用场景中的示例性应用。
在一个实际的文本处理模型的应用场景中,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。知识图谱作为一种高质量的结构化的数据,蕴含了大量丰富的世界知识,包括实体、实体间的关系以及常识等,本申请实施例将文本处理模型和知识图谱相结合,通过构造一系列基于图谱知识的任务,让文本处理模型能更好的去学习和理解世界知识,提升下游自然语言处理任务特别是知识型任务的任务执行效果。
本申请实施例通过采用生成式的文本处理模型来做预训练,这样可以使得预训练的损失值可以统一,通过使用生成的损失值对文本处理模型进行训练,不同的任务采用不同的输入形式,这样就非常方便的加入图谱相关的任务到文本处理模型中。本申请实施例利用知识图谱构造了多个跟知识相关的预训练任务,可以让文本处理模型更好的学习到知识。实践证明通过本申请实施例训练得到的文本处理模型在知识型任务上的任务执行效果显著优于传统文本处理任务的预训练模型。
在一些实施例中,参见图8,图8是本申请实施例提供的文本处理模型的训练方法的原理示意图,如图8所示出的文本处理模型,文本处理模型的输入可以通过如下方式得到:获取待处理文本句子,例如,“小明有多高”,通过对待处理文本句子进行分词处理,得到待处理文本句子中的各词,并在待处理文本句子首部和尾部添加特殊标识符“[CLS]”和“[SEP]”,得到文本处理模型的输入“[CLS]小明有多高[SEP]”。通过文本处理模型中的编码网络,对文本处理模型的输入进行编码处理,得到待处理文本句子的编码向量表征;通过文本处理模型中的解码网络,对编码向量表征进行解码处理,得到文本处理模型的输出,例如,“小明[SEP]身高[SEP][E]”。
下面,对本申请实施例提供的预训练任务进行说明,本申请实施例提供的预训练任务包括知识图谱类型的预训练任务和非知识图谱类型的预训练任务,下面将分别进行说明。
在一些实施例中,知识图谱类型的预训练任务包括实体间关系抽取任务、属性识别任务和知识表示任务,下面将分别对实体间关系抽取任务(即上文所描述的关系抽取任务)、属性识别任务和知识表示任务(即上文所描述的实体识别任务)进行说明。
在一些实施例中,实体间关系抽取任务,是指针对实体间关系抽取类型的输入文本的文本处理任务,实体间关系抽取类型的输入文本中包括三元组中的两个实体元素,其中,三元组包括两个实体元素、以及两个实体元素间的实体关系。
作为示例,参见图9,图9是本申请实施例提供的文本处理模型的训练方法的原理示意图。图9中所示出的文本处理模型的输入文本为实体间关系抽取类型的输入文本,具体为“2021年6月23日,小明和小朱在家乡注册结婚”、“2021年6月23日,小明和小朱在家乡注册结婚;[SEP]小明[SEP]小朱”,对应的文本处理模型的输出结果可以为“小明|妻子|小朱”、“妻子”。
在一些实施例中,这个任务是去预测三元组或者实体间的关系。可以利用关系抽取中常见的远监督方法得到关系或属性的大量标注数据,例如知识库里三元组:(小明,妻子,小张),回标得到的句子“2008年6月23日,小明与小张在某地注册结婚”。然后我们可以以此来构造训练数据,从这个句子直接生成三元组,或者给定这个句子和实体对去生成它们之间的关系。具体来说,远监督方式来生成训练数据依下面步骤描述整个过程:先明确关系类型,例如我们打算从文本里抽取出“妻子”、“上映时间”等这几个关系的三元组数据。从知识库里选出这些关系或属性的已经存在的三元组数据,例如(小明,妻子,小张),(电视剧,上映时间,2003年)等。用这些三元组去回标大量的无监督文本。具体来说,针对“妻子”这个属性,我们会用(小明,小张)这个实体pair对去匹配句子,如果有句子这俩实体都存在,我们就会认为很可能这个句子的语义就表达了(小明,妻子,小张)这个三元组的信息。例如回标后的句子:小明谈及妻子小张眼含泪光,满是亏欠的说,我欠她一个婚礼。
在一些实施例中,属性识别任务,是指针对属性识别类型的输入文本的文本处理任务,属性识别类型的输入文本中包括三元组中的一个实体元素,其中,三元组包括两个实体元素、以及两个实体元素间的实体关系。
作为示例,参见图10,图10是本申请实施例提供的文本处理模型的训练方法的原理示意图。图10中所示出的文本处理模型的输入文本为属性识别类型的输入文本,具体为“小明有多高”,对应的文本处理模型的输出结果可以为“小明|身高”。
在一些实施例中,参见图12,图12是本申请实施例提供的文本处理模型的训练方法的原理示意图。这个任务是去预测用户query里的实体mention以及它的具体属性。例如属性“小明有多高”,对应的就是(小明,身高)。这个数据我们可以利用一个属性分类模型来识别。它是一个多分类模型。首先输入就是一个query,处理方式跟上面生成模型的处理方式一致,然后过一个属性分类模型,最后取[CLS]token的向量来做多分类,分类目标就是这个query的属性。通过这个模型就可以对query集合进行预测,得到这个任务的大量的训练数据,分类模型的训练方式和文本处理模型的训练方式一致。
在一些实施例中,知识表示任务,是指针对知识表示类型的输入文本的文本处理任务,知识表示类型的输入文本中包括三元组中的一个实体元素,以及实体关系,其中,三元组包括两个实体元素、以及两个实体元素间的实体关系。
作为示例,参见图11,图11是本申请实施例提供的文本处理模型的训练方法的原理示意图。图11中所示出的文本处理模型的输入文本为知识表示类型的输入文本,具体为“小明(影视男演员、歌手)|妻子”,对应的文本处理模型的输出结果可以为“小张”。
在一些实施例中,知识表示任务是预测知识库中一个三元组的头实体或者尾实体。利用图谱的结构信息,目的是将知识库中的实体以及关系表征为向量。在得到这些向量后就可以对图谱进行推理、补全等工作。具体来说,就是对于知识图谱的每个三元组,例如(小刘(影视男演员),妻子,小朱),我们都取出来,作为这个任务的输入,也就是已知头实体(这里就是小刘)和关系(这里就是妻子),求尾实体(小朱),或者已知关系和尾实体,求头实体。
在一些实施例中,针对每个句子,会随机抹掉一些token,然后取生成这些token。例如“小刘携妻子小朱参加了本次活动”这句话,我们构造的模型输入就是“小刘携妻子小朱_本次活动”,输出就是“_参加了_”。
在一些实施例中,在构造了以上四种任务后,就可以开始训练文本分类模型。训练方式是每次每个任务分别对文本分类模型进行训练,其中,训练的公式如下:
logits=WV+B (4)
P=softmax(logits) (5)
Loss=-Log(P) (6)
其中,P表征预测结果对应的目标概率,softmax表征归一化处理,logits表征标签分值,Log表征取对数函数,Loss表征文本样本的训练损失值。上述公式(4)是解码网络对每个位置进行解码,生成各个token的分数,也就是logits。W和b是参数矩阵和向量,跟着文本分类模型一起学习。公式(5)是将分数转换为概率通过softmax操作,公式(6)是训练损失值。
在一些实施例中,上述编码网络和解码网络可以替换为长短期记忆网络(Longshort-term memory,LSTM)和循环神经网络(Gate Recurrent Unit,GRU)。
可以理解的是,在本申请实施例中,涉及到文本样本等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面继续说明本申请实施例提供的文本处理模型的训练装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的文本处理模型的训练装置455中的软件模块可以包括:获取模块4551,用于获取至少两种任务类型的文本样本,每种任务类型的文本样本对应文本处理模型的一种预测任务;其中,至少两种任务类型包括知识图谱类型及非知识图谱类型,知识图谱类型的第一文本样本包括三元组中的部分元素,非知识图谱类型的第二文本样本包括所述三元组中的全部元素,以及至少一个未知字符,以及所述三元组中的三个所述元素;预测模块4552,用于通过文本处理模型,对各文本样本执行相应的预测任务,得到各文本样本对应的预测结果预测结果包括:第一文本样本中缺失的三元组元素,或者至少一个未知字符的内容;参数更新模块4553,用于基于各文本样本对应的预测结果及各文本样本的样本标签,更新文本处理模型的模型参数;其中,文本处理模型,用于当搜索文本包括三元组中部分元素时,对所述搜索文本进行缺失元素预测,得到所述搜索文本缺失的三元组元素,以结合所述搜索文本及所述三元组元素,进行内容搜索;当所述搜索文本中包括三元组中全部元素时,对所述搜索文本进行未知字符预测,得到所述搜索文本对应的未知字符的内容,以结合所述搜索文本及所述未知字符的内容,进行内容搜索。
在一些实施例中,知识图谱类型包括关系抽取类型,第一文本样本对应文本处理模型的关系抽取任务,三元组包括两个实体元素、及两个实体元素间的实体关系,第一文本样本中至少包括两个实体元素;上述预测模块4552,还用于通过文本处理模型,对第一文本样本进行关系抽取,得到第一文本样本对应的关系抽取结果,将关系抽取结果作为第一文本样本对应的预测结果;其中,关系抽取结果包括:实体关系,或者三元组。
在一些实施例中,知识图谱类型包括属性识别类型,第一文本样本对应文本处理模型的属性识别任务,三元组包括两个实体元素、及两个实体元素间的实体关系,第一文本样本中至少包括一个实体元素;上述预测模块4552,还用于通过文本处理模型,对第一文本样本进行属性识别,得到第一文本样本对应的属性识别结果,将属性识别结果作为第一文本样本对应的预测结果;其中,属性识别结果,表征第一文本样本对应的属性特征。
在一些实施例中,知识图谱类型包括实体识别类型,第一文本样本对应文本处理模型的实体识别任务,三元组包括两个实体元素、及两个实体元素间的实体关系,第一文本样本中,至少包括一个实体元素,以及实体关系;上述预测模块4552,还用于通过文本处理模型,对第一文本样本进行实体识别,得到第一文本样本对应的实体识别结果,将实体识别结果作为第一文本样本对应的预测结果;其中,实体识别结果包括:第一文本样本中所缺失的实体元素。
在一些实施例中,当任务类型为非知识图谱类型时,第二文本样本对应文本处理模型的字符预测任务,上述预测模块4552,还用于通过文本处理模型,对非知识图谱类型的第二文本样本进行字符预测,得到第二文本样本对应的字符预测结果,并将字符预测结果作为第二文本样本对应的预测结果;其中,字符预测结果包括:第二文本样本中至少一个未知字符的字符内容。
在一些实施例中,上述参数更新模块4553,还用于基于各文本样本对应的预测结果,确定各预测结果对应的目标概率,目标概率表征预测结果是样本标签的概率;基于目标概率,确定各文本样本的训练损失值;基于各训练损失值,对文本处理模型的模型参数进行更新,得到更新后的文本处理模型。
在一些实施例中,文本处理模型包括编码网络和解码网络,预测任务包括编码任务及解码任务;上述参数更新模块4553,还用于通过编码网络,对各文本样本执行相应的编码任务,得到各文本样本对应的编码结果;通过解码网络,对各编码结果执行相应的解码任务,得到各文本样本对应的解码结果;将各文本样本对应的解码结果,确定为对应的预测结果。
在一些实施例中,上述获取模块4551,还用于获取文本样本集合,其中,文本样本集合包括至少两种任务类型的文本样本;针对文本样本集合中的各文本样本分别执行以下处理:获取文本样本的分类标签;基于分类标签,确定文本样本的任务类型。
在一些实施例中,上述获取模块4551,还用于获取文本样本集合,其中,文本样本集合包括至少两种任务类型的文本样本;针对文本样本集合中的各文本样本分别执行以下处理:对文本样本的语言结构进行解析,得到文本样本的语言结构信息;基于语言结构信息,确定文本样本的任务类型。
在一些实施例中,上述获取模块4551,还用于响应于语言结构信息表征文本样本包括三元组中的至少一个元素,将文本样本的任务类型确定为知识图谱类型;响应于语言结构信息表征文本样本包括至少一个未知字符,将文本样本的任务类型确定为非知识图谱类型。
在一些实施例中,上述文本处理模型的训练装置,包括:搜索模块,用于响应于针对搜索文本的搜索操作,通过更新后的文本处理模型,对搜索文本执行相应的预测任务,得到搜索文本对应的目标预测结果;基于搜索文本对应的目标预测结果,确定搜索文本对应的目标检索式;在数据库中检索与目标检索式匹配的至少一条目标条目,并基于各目标条目,确定对应搜索文本的搜索结果。
在一些实施例中,上述搜索模块,还用于将目标预测结果,确定为目标检索式的检索关键词,或者将目标预测结果和搜索文本,确定为目标检索式的检索关键词;基于检索关键词,构造搜索文本对应的目标检索式。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的文本处理模型的训练方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的文本处理模型的训练方法,例如,如图3示出的文本处理模型的训练方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种电子设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上,本申请实施例具有如下有益效果:
(1)通过至少两种任务类型的文本样本,对文本处理模型的模型参数进行更新,由于至少两种任务类型的文本样本,包括知识图谱类型的文本样本和非知识图谱类型的文本样本,使得文本处理模型能够在知识图谱类型和非知识图谱类型的预测任务中,得到有效训练。如此,通过使文本处理模型在知识图谱类型和非知识图谱类型的预测任务中,得到有效训练,使得训练后得到的文本处理模型能够有效学习到知识图谱中的世界知识,从而能够有效提高所训练的文本处理模型的文本处理性能。
(2)通过获取至少两种任务类型的文本样本,确定各文本样本的文本类型,便于后续针对不同文本类型的文本样本,执行不同的预测任务,得到各文本类型的文本样本的预测结果。同时,由于文本类型包括知识图谱类型和非知识图谱类型,从而在对文本处理模型进行训练的过程中,引入了知识图谱类型和非知识图谱类型的文本样本,便于后续利用知识图谱构造了多个跟知识相关的预训练任务,可以让文本处理模型更好的学到知识图谱中的知识,有效提高了文本处理模型的文本处理性能。
(3)通过文本处理模型,对各任务类型的文本样本执行相应的预测任务,得到各文本样本对应的预测结果,从而便于后续基于不同任务类型的文本样本对应的预测结果,对文本处理模型的模型参数进行更新,得到更新后的文本处理模型,从而使得更新后的文本处理模型能够充分学习到各中不同任务类型的文本样本的预测任务的表征能力,有效提高了模型的泛化能力,使得更新后的文本处理模型的模型性能更优,实现了对文本处理模型的有效训练。
(4)通过各任务类型分别对应的训练损失值,对文本处理模型的模型参数进行更新,所得到的更新后的文本处理模型,能够有效学习到各任务类型的文本样本的表征,从而使得更新后的文本处理模型能够充分学习到各中不同任务类型的文本样本的预测任务的表征能力,有效提高了模型的泛化能力,使得更新后的文本处理模型的模型性能更优,实现了对文本处理模型的有效训练。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (15)
1.一种文本处理模型的训练方法,其特征在于,所述方法包括:
获取至少两种任务类型的文本样本,每种所述任务类型的文本样本对应所述文本处理模型的一种预测任务;
其中,所述至少两种任务类型包括知识图谱类型及非知识图谱类型,所述知识图谱类型的第一文本样本包括三元组中的部分元素,所述非知识图谱类型的第二文本样本包括所述三元组中的全部元素,以及至少一个未知字符;
通过所述文本处理模型,对各所述文本样本执行相应的所述预测任务,得到各所述文本样本对应的预测结果,所述预测结果包括:所述第一文本样本中缺失的三元组元素,或者所述至少一个未知字符的内容;
基于各所述文本样本对应的预测结果及各所述文本样本的样本标签,更新所述文本处理模型的模型参数;
其中,所述文本处理模型,用于当搜索文本包括三元组中部分元素时,对所述搜索文本进行缺失元素预测,得到所述搜索文本缺失的三元组元素,以结合所述搜索文本及所述三元组元素,进行内容搜索;当所述搜索文本中包括三元组中全部元素时,对所述搜索文本进行未知字符预测,得到所述搜索文本对应的未知字符的内容,以结合所述搜索文本及所述未知字符的内容,进行内容搜索。
2.根据权利要求1所述的方法,其特征在于,所述知识图谱类型包括关系抽取类型,所述第一文本样本对应所述文本处理模型的关系抽取任务,所述三元组包括两个实体元素、及所述两个实体元素间的实体关系,所述第一文本样本中至少包括所述两个所述实体元素;
所述通过所述文本处理模型,对各所述文本样本执行相应的所述预测任务,得到各所述文本样本对应的预测结果,包括:
通过所述文本处理模型,对所述第一文本样本进行关系抽取,得到所述第一文本样本对应的关系抽取结果,将所述关系抽取结果作为所述第一文本样本对应的预测结果;
其中,所述关系抽取结果包括:所述实体关系,或者所述三元组。
3.根据权利要求1所述的方法,其特征在于,所述知识图谱类型包括属性识别类型,所述第一文本样本对应所述文本处理模型的属性识别任务,所述三元组包括两个实体元素、及所述两个实体元素间的实体关系,所述第一文本样本中至少包括一个所述实体元素;
所述通过所述文本处理模型,对各所述文本样本执行相应的所述预测任务,得到各所述文本样本对应的预测结果,包括:
通过所述文本处理模型,对所述第一文本样本进行属性识别,得到所述第一文本样本对应的属性识别结果,将所述属性识别结果作为所述第一文本样本对应的预测结果;
其中,所述属性识别结果,表征所述第一文本样本对应的属性特征。
4.根据权利要求1所述的方法,其特征在于,所述知识图谱类型包括实体识别类型,所述第一文本样本对应所述文本处理模型的实体识别任务,所述三元组包括两个实体元素、及所述两个实体元素间的实体关系,所述第一文本样本中,至少包括一个所述实体元素,以及所述实体关系;
所述通过所述文本处理模型,对各所述文本样本执行相应的所述预测任务,得到各所述文本样本对应的预测结果,包括:
通过所述文本处理模型,对所述第一文本样本进行实体识别,得到所述第一文本样本对应的实体识别结果,将所述实体识别结果作为所述第一文本样本对应的预测结果;
其中,所述实体识别结果包括:所述第一文本样本中所缺失的所述实体元素。
5.根据权利要求1所述的方法,其特征在于,当所述任务类型为所述非知识图谱类型时,所述第二文本样本对应所述文本处理模型的字符预测任务,所述通过所述文本处理模型,对各所述文本样本执行相应的所述预测任务,得到各所述文本样本对应的预测结果,包括:
通过所述文本处理模型,对所述非知识图谱类型的所述第二文本样本进行字符预测,得到所述第二文本样本对应的字符预测结果,并将所述字符预测结果作为所述第二文本样本对应的预测结果;
其中,所述字符预测结果包括:所述第二文本样本中所述至少一个未知字符的字符内容。
6.根据权利要求1所述的方法,其特征在于,所述基于各所述文本样本对应的预测结果及各所述文本样本的样本标签,更新所述文本处理模型的模型参数,包括:
基于各所述文本样本对应的预测结果,确定各所述预测结果对应的目标概率,所述目标概率表征所述预测结果是所述样本标签的概率;
基于所述目标概率,确定各所述文本样本的训练损失值;
基于各所述训练损失值,对所述文本处理模型的模型参数进行更新,得到更新后的文本处理模型。
7.根据权利要求1所述的方法,其特征在于,所述文本处理模型包括编码网络和解码网络,所述预测任务包括编码任务及解码任务;所述通过所述文本处理模型,对各所述文本样本执行相应的所述预测任务,得到各所述文本样本对应的预测结果,包括:
通过所述编码网络,对各所述文本样本执行相应的所述编码任务,得到各所述文本样本对应的编码结果;
通过所述解码网络,对各所述编码结果执行相应的所述解码任务,得到各所述文本样本对应的解码结果;
将各所述文本样本对应的所述解码结果,确定为对应的所述预测结果。
8.根据权利要求1所述的方法,其特征在于,所述获取至少两种任务类型的文本样本,包括:
获取文本样本集合,其中,所述文本样本集合包括所述至少两种任务类型的文本样本;
针对所述文本样本集合中的各所述文本样本分别执行以下处理:
获取所述文本样本的分类标签;
基于所述分类标签,确定所述文本样本的任务类型。
9.根据权利要求1所述的方法,其特征在于,所述获取至少两种任务类型的文本样本,包括:
获取文本样本集合,其中,所述文本样本集合包括所述至少两种任务类型的文本样本;
针对所述文本样本集合中的各所述文本样本分别执行以下处理:
对所述文本样本的语言结构进行解析,得到所述文本样本的语言结构信息;
基于所述语言结构信息,确定所述文本样本的任务类型。
10.根据权利要求9所述的方法,其特征在于,所述基于所述语言结构信息,确定所述文本样本的任务类型,包括:
响应于所述语言结构信息表征所述文本样本包括所述三元组中的至少一个元素,将所述文本样本的任务类型确定为所述知识图谱类型;
响应于所述语言结构信息表征所述文本样本包括所述至少一个未知字符,将所述文本样本的任务类型确定为所述非知识图谱类型。
11.根据权利要求1所述的方法,其特征在于,所述基于各所述文本样本对应的预测结果及各所述文本样本的样本标签,更新所述文本处理模型的模型参数之后,所述方法还包括:
响应于针对所述搜索文本的搜索操作,通过更新后的文本处理模型,对所述搜索文本执行相应的预测任务,得到所述搜索文本对应的目标预测结果;
基于所述搜索文本对应的目标预测结果,确定所述搜索文本对应的目标检索式;
在数据库中检索与所述目标检索式匹配的至少一条目标条目,并基于各所述目标条目,确定对应所述搜索文本的搜索结果。
12.根据权利要求11所述的方法,其特征在于,所述基于所述搜索文本对应的目标预测结果,确定所述搜索文本对应的目标检索式,包括:
将所述目标预测结果,确定为所述目标检索式的检索关键词,或者
将所述目标预测结果和所述搜索文本,确定为所述目标检索式的检索关键词;
基于所述检索关键词,构造所述搜索文本对应的目标检索式。
13.一种文本处理模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取至少两种任务类型的文本样本,每种所述任务类型的文本样本对应所述文本处理模型的一种预测任务;其中,所述至少两种任务类型包括知识图谱类型及非知识图谱类型,所述知识图谱类型的第一文本样本包括三元组中的部分元素,所述非知识图谱类型的第二文本样本包括所述三元组中的全部元素,以及至少一个未知字符;
预测模块,用于通过所述文本处理模型,对各所述文本样本执行相应的所述预测任务,得到各所述文本样本对应的预测结果,所述预测结果包括:所述第一文本样本中缺失的三元组元素,或者所述至少一个未知字符的内容;
参数更新模块,用于基于各所述文本样本对应的预测结果及各所述文本样本的样本标签,更新所述文本处理模型的模型参数;其中,所述文本处理模型,用于当搜索文本包括三元组中部分元素时,对所述搜索文本进行缺失元素预测,得到所述搜索文本缺失的三元组元素,以结合所述搜索文本及所述三元组元素,进行内容搜索;当所述搜索文本中包括三元组中全部元素时,对所述搜索文本进行未知字符预测,得到所述搜索文本对应的未知字符的内容,以结合所述搜索文本及所述未知字符的内容,进行内容搜索。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令或者计算机程序;
处理器,用于执行所述存储器中存储的计算机可执行指令或者计算机程序时,实现权利要求1至12任一项所述的文本处理模型的训练方法。
15.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现权利要求1至12任一项所述的文本处理模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211302351.9A CN117033649A (zh) | 2022-10-24 | 2022-10-24 | 文本处理模型的训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211302351.9A CN117033649A (zh) | 2022-10-24 | 2022-10-24 | 文本处理模型的训练方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117033649A true CN117033649A (zh) | 2023-11-10 |
Family
ID=88626826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211302351.9A Pending CN117033649A (zh) | 2022-10-24 | 2022-10-24 | 文本处理模型的训练方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117033649A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273003A (zh) * | 2023-11-14 | 2023-12-22 | 腾讯科技(深圳)有限公司 | 文本数据处理方法、模型训练方法以及命名实体识别方法 |
-
2022
- 2022-10-24 CN CN202211302351.9A patent/CN117033649A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273003A (zh) * | 2023-11-14 | 2023-12-22 | 腾讯科技(深圳)有限公司 | 文本数据处理方法、模型训练方法以及命名实体识别方法 |
CN117273003B (zh) * | 2023-11-14 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 文本数据处理方法、模型训练方法以及命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10534863B2 (en) | Systems and methods for automatic semantic token tagging | |
CN112015896B (zh) | 基于人工智能的情感分类方法、以及装置 | |
Wang et al. | Learning performance prediction via convolutional GRU and explainable neural networks in e-learning environments | |
CN116820429B (zh) | 代码处理模型的训练方法、装置、电子设备及存储介质 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN116205482A (zh) | 重点人员风险等级评估方法及相关设备 | |
Oussalah | AI explainability. A bridge between machine vision and natural language processing | |
Liu et al. | Hierarchical graph convolutional networks for structured long document classification | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
Feng et al. | Ontology semantic integration based on convolutional neural network | |
CN117033649A (zh) | 文本处理模型的训练方法、装置、电子设备及存储介质 | |
Arbaaeen et al. | Natural language processing based question answering techniques: A survey | |
CN116861913A (zh) | 基于gpt大模型的立场检测方法及相关设备 | |
CN116974554A (zh) | 代码数据处理方法、装置、计算机设备和存储介质 | |
Goertzel et al. | The Novamente artificial intelligence engine | |
Tamla | Supporting access to textual resources using named entity recognition and document classification | |
Lamons et al. | Python Deep Learning Projects: 9 projects demystifying neural network and deep learning models for building intelligent systems | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN114519353A (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 | |
CN116453702B (zh) | 孤独症行为特征集的数据处理方法、设备、系统及介质 | |
CN117216194B (zh) | 文博领域知识问答方法及装置、设备和介质 | |
CN114492661B (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
CN117891930B (zh) | 基于知识图谱增强大语言模型的图书知识问答方法 | |
Salam et al. | HESIP: A Hybrid System for Explaining Sub-symbolic Predictions | |
Zeng et al. | TagNN: A Code Tag Generation Technology for Resource Retrieval from Open‐Source Big Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |