CN112016300A - 预训练模型处理、下游任务处理方法、装置及存储介质 - Google Patents

预训练模型处理、下游任务处理方法、装置及存储介质 Download PDF

Info

Publication number
CN112016300A
CN112016300A CN202010940820.4A CN202010940820A CN112016300A CN 112016300 A CN112016300 A CN 112016300A CN 202010940820 A CN202010940820 A CN 202010940820A CN 112016300 A CN112016300 A CN 112016300A
Authority
CN
China
Prior art keywords
training
sentence
radical
chinese character
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010940820.4A
Other languages
English (en)
Other versions
CN112016300B (zh
Inventor
朱威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010940820.4A priority Critical patent/CN112016300B/zh
Publication of CN112016300A publication Critical patent/CN112016300A/zh
Application granted granted Critical
Publication of CN112016300B publication Critical patent/CN112016300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及人工智能技术领域,尤其涉及到自然语言处理应用领域中,提供了一种基于深度学习的预训练模型处理方法、基于预训练模型的下游任务处理方法,以及方法相应的装置和介质。方法部分包括:对中文语料的汉字进行独立拆解,以获取多个独立汉字;将多个独立汉字中的每个汉字进行部首拆解,得到每个独立汉字的所有部首;将组成独立汉字的所有部首进行编码处理,以获取每个独立汉字对应的部首标记向量;根据部首标记向量获取每个独立汉字的汉字表征向量;将组成句子的所有独立汉字的汉字表征向量序列作为句子对应的句子标记向量;根据多个句子中对应的部首标记向量和句子标记向量对中文预料进行自监督学习训练,以获取目标预训练模型。

Description

预训练模型处理、下游任务处理方法、装置及存储介质
技术领域
本发明涉及人工智能技术领域,应用到自然语言处理领域中,尤其涉及一种基于深度学习的预训练模型处理方法、基于预训练模型的下游任务处理方法,以及对应装置和存储介质。
背景技术
迁移学习,在计算机视觉领域中是一种很流行的方法,通过迁移学习可以建立精确的模型,耗时更短。利用迁移学习,不是从零开始学习,而是从之前解决各种问题时学到的模型中开始,避免从零开始训练模型。
迁移学习通常是通过使用预训练模型(pretrain models)来表示,预训练模型是在大型基准数据集上训练得到的模型,例如BERT等大型预训练语言模型,其利用在大量语料进行预训练得到,预训练模型的提出,只需在预训练模型后接上特定地网络结构,即能完成某种特定任务,例如文本筛选等。因为预训练模型已经利用大量地语料的进行无监督学习,已将语料中的知识迁移进了预训练模型的Eembedding中,因此,只需在针对特定任务增加网络结构来进行微调,即可适应某种特定任务。
现有技术中,在训练中文的预训练模型时,大部分采用谷歌BERT的中文词汇表,但是这个谷歌BERT的中文词汇表中,是将中文字单独拆拆开,也就是逐个字的词汇表。很明显,由于中文文字较多,这样的中文词汇表,其词表的文字量比较巨大,通常有至少2万以上的字量,使得模型参数量较大,特别是用于训练较小模型时候,大词表将导致模型参数量降低不下去,在实际工业应用时候,也容易使得模型体积大,推理速度慢,训练效率较低。
发明内容
本发明提供一种基于深度学习的预训练模型处理方法、基于预训练模型的下游任务处理方法,以解决现有技术进行预训练时,容易使得模型体积大,推理速度慢,导致训练效率慢的问题。
一种基于深度学习的预训练模型处理方法,包括:
获取中文语料,并将所述中文语料进行句子分割,得到多个句子;
对所述多个句子的汉字进行独立拆解,以获取每个句子的多个独立汉字;
将所述多个独立汉字中的每个汉字进行部首拆解,得到每个所述独立汉字的所有部首;
将组成所述独立汉字的所有部首进行编码处理,以获取每个所述独立汉字对应的部首标记向量;
根据所述部首标记向量获取每个所述独立汉字的汉字表征向量;
将组成所述句子的所有独立汉字的汉字表征向量序列作为所述句子对应的句子标记向量;
根据所述多个句子中对应的所述部首标记向量和所述句子标记向量对所述中文预料进行自监督学习训练,以获取目标预训练模型。
一种基于预训练模型的下游任务处理方法,包括:
获取目标预训练模型的下游任务训练数据,其中,所述目标预训练模型为所述预训练模型处理方法得到的目标预训练模型;
通过所述下游任务训练数据对所述目标预训练模型进行微调,以获取下游任务处理模型,
使用所述下游任务处理模型对待处理本文数据进行处理,以获取模型处理结果。
一种基于深度学习的预训练模型处理装置,所述装置包括:
获取模块,用于获取中文语料,并将所述中文语料进行句子分割,得到多个句子;
第一拆解模块,用于对所述多个句子的汉字进行独立拆解,以获取每个句子的多个独立汉字;
第二拆解模块,将所述多个独立汉字中的每个汉字进行部首拆解,得到每个所述独立汉字的所有部首;
第一获取模块,用于将组成所述独立汉字的所有部首进行编码处理,以获取每个所述独立汉字对应的部首标记向量;
第二获取模块,用于根据所述部首标记向量获取每个所述独立汉字的汉字表征向量;
第三获取模块,用于将组成所述句子的所有独立汉字的汉字表征向量序列作为所述句子对应的句子标记向量;
训练模块,用于根据所述多个句子中对应的所述部首标记向量和所述句子标记向量对所述中文预料进行自监督学习训练,以获取目标预训练模型。
一种基于预训练模型的下游任务处理装置,所述装置包括:
获取模块,用于获取目标预训练模型的下游任务训练数据,其中,所述目标预训练模型为所述预训练模型处理方法得到的目标预训练模型;
微调模块,用于通过所述下游任务训练数据对所述目标预训练模型进行微调,以获取下游任务处理模型,
处理模块,用于使用所述下游任务处理模型对待处理本文数据进行处理,以获取模型处理结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述预训练模型处理方法或下游任务处理方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述预训练模型处理方法或下游任务处理方法的步骤。
上述预训练模型处理方法、预训练模型的下游任务处理方法、装置及存储介质所提供的一个方案中,用于预训练学习的预训练数据中包括了中文的部首标记向量和句子标记向量,可深入到字的内部对字进行表征,这样有利于利用中文的象形文字特征,便于深度理解中文字的含义,使得预训练出的目标预训练模型能学习出更多的文字特征,从而更能深度理解中文字的含义,继而更能理解句子与句子之间的关联性,能学习更多的语言关联信息,从而在进行NLP的下游任务微调时,更加有使用价值,另外,在预训练时所用的词汇表是基于部首的形式,由于将中文字的部首全部单独拆开并转化为预训练向量,也就是说,在建立预训练的输入向量时,是利用了由部首组成的词汇表,可以理解,中文文字是由部首构成的,利用部首并用于训练,相比较于逐字的词汇的词汇表相比,使用部首的词汇表只需要大约500个部首便行,可以极大地降低预训练模型的参数量,特别是用于训练较小模型时候,小词表将使模型参数量得以降低,可提高推理速度慢,提高了预训练的训练效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中预训练模型处理方法的一个流程示意图;
图2是本发明实施例中目标预训练模型的一网络结构示意图;
图3是图1中步骤S70的一个实施方式流程示意图;
图4是图3中步骤S71的一个实施方式流程示意图;
图5是图3中步骤S72的一个实施方式流程示意图;
图6是本发明实施例中预训练模型处理方法的一处理过程示意图;
图7是本发明实施例中目标预训练模型的一个网络结构示意图;
图8是本发明实施例中目标预训练模型中Transformer编码器的一结构示意图;
图9是本发明实施例中预训练模型处理装置的一结构示意图;
图10是本发明实施例中下游任务处理装置的一个结构示意图;
图11是本发明实施例中计算机设备的一个结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明主要涉及一种基于深度学习的预训练模型处理方法,主要在于提供一种得到新的预训练模型的方式。众所周知,预训练模型是在大型基准数据集上训练得到的模型,利用在大量语料进行预训练得到,预训练模型的提出,只需后续只需要在预训练模型后接上特定地网络结构,即能完成某种特定的自然语言处理((NLP,Natural LanguageProcessing))下游任务,因为预训练模型已经利用大量地语料的进行无监督学习得到,已经学习了语料中的相关信息,后续只需在针对特定的任务增加相应网络结构来进行微调,即可适应某种特定的下游任务。
本发明中,针对中文应用场景中,提出了一种全新的基于词汇表的预训练模型获取方法,如图1所示,主要包括如下步骤:
S10:获取中文语料,并将中文语料进行句子分割,得到多个句子。
可以理解,在训练预训练模型时,需先获取大量的中文语料,其中,为了使得后续得到的预训练模型更加能反映中文语料的信息,且能实用更多的不同类型的下游任务,可以获取大量不同领域的中文语料。示例性的,可以是科技、文学、新闻等不同领域的中文语料。
需要说明的是,中文通常包括文字以及中文标点符号,在获取到中文语料之后,需对中文语料进行句子分割,以得到多个句子。其中,在对中文语料进行断句时可采用常规的断句算法,在此不详细展开说明。
S20:对多个句子的汉字进行独立拆解,以获取每个句子的多个独立汉字。
在获取中文语料对应的多个句子之后,对多个句子的汉字进行独立拆解,以获取每个句子对应的多个独立汉字。具体地,可采用汉字切割算法对句子的每个汉字进行拆解,以形成独立汉字,从而获取到每个句子的多个独立汉字。
例如,若有如下句子:“新冠病毒已经在全世界蔓延”,那么,经过上述汉字独立拆解处理之后,便拆解为:“新冠病毒已经在全世界蔓延”。
S30:将多个独立汉字中的每个汉字进行部首拆解,得到每个独立汉字的部首。
在得到每个句子拆解出来的多个独立汉字之后,对独立汉字中的每个汉字进行部首拆解,得到每个独立汉字的部首。值得注意的是,中文的汉字具有特殊性,某个汉字通常有多个部首构成,或某个部首就是独立的汉字,本步骤中,需将每个汉字进行部首拆解,以得到每个独立汉字的所有部首。需要说明的是,在传统的中文预训练模型中,通常都是仅提取文字的某个部首,而非全部部首,本发明中,此步骤不是简单的提取汉字的某个部首,而是需将组成独立汉字的每个部首都拆解出来。
例如,以上述例子中的汉字“新”为例,对该汉字“新”进行部首拆解之后,便可得到该汉字“新”对应的多个部首,分别为“立朩斤”。又例如,以上述例子中的汉字“蔓”为例,对该汉字“蔓”进行拆解之后,便可得到该汉字“蔓”对应的多个部首,分别为“艹日罒又”。需要说明的是,本发明可以基于预设的中文汉字部首表对每个汉字进行匹配分析处理,以获取构成汉字的多个部首,从而进行部首拆解,具体这里不展开详细描述。
可见,经过上述处理之后,中文语料中的每个独立汉字均被拆解成了多个部首。
S40:将组成独立汉字的所有部首进行编码处理,以获取每个独立汉字对应的部首标记向量。
在将多个独立汉字中的每个汉字进行部首拆解,得到每个独立汉字的所有部首之后,对于每个独立汉字,分别将组成独立汉字的所有部首进行编码处理,以获取每个独立汉字对应的部首标记向量。
S50:根据部首标记向量获取每个独立汉字的汉字表征向量。
在将组成独立汉字的所有部首进行编码处理,以获取每个独立汉字对应的部首标记向量,本发明会利用部首标记向量获取每个独立汉字的汉字表征向量。例如,在获取到汉字“新”的部首“立朩斤”对应的部首标记向量之后,根据该汉字“新”对应的部首标记向量获取“新”的汉字表征向量。
可见,在本发明实施例中,在获取汉字表征向量时,是基于汉字的部首标记向量得到的,由于部首标记向量是表征汉字内部结构的表征,利用部首标记向量获取汉字的汉字表征向量,可深入到字的内部对字进行表征,这样有利于利用中文的象形文字特征,深度理解中文字的含义,有利用后续自我监督学习时能学到更到深入文字结构的特征。
例如,以汉字“新”为例,经过部首拆解处理之后,为“立朩斤”,此时,把每个汉字对应的所有部首当作标记(token),之后对每个token进行编码处理之后,该“新”对应的部首标记向量可以为q1、q2、q3,其中,q1、q2、q3分别表示部首“立朩斤”的编码向量,继而再用“新”对应的部首标记向量去表征“新”字对应的汉字表征向量。
需要说明的是,对于其他汉字,均可参阅前述例子,在此不一一说明。
S60:将组成句子的每个独立汉字的汉字表征向量序列作为该句子对应的句子标记向量。
该步骤中,在获取到多个句子对应的每个独立汉字的汉字表征向量之后,为了学习句子与句子之间的关联关系,以及句子本身的含义信息,还需将组成句子的每个独立汉字的汉字表征向量序列作为句子对应的句子标记向量。
例如,以前述句子“新冠病毒已经在全世界蔓延”为例,在得到该句中每个独立汉字对应的汉字表征向量之后,便可将组成句子的每个独立汉字的汉字表征向量进行拼接得到该句子的汉字表征向量序列,以作为该句子对应的句子标记向量。
S70:根据多个句子中对应的部首标记向量和句子标记向量对中文预料进行自监督学习训练,以获取目标预训练模型。
在得到中文语料对应的所有句子的句子标记向量之后,便可根据多个句子中对应的部首标记向量和句子标记向量对中文预料进行自监督学习训练,以获取目标预训练模型。
可见,在本发明实施例中,提供了一种预训练模型处理方法,其中,用于预训练学习的预训练数据中包括了中文的部首标记向量和句子标记向量,可深入到字的内部对字进行表征,这样有利于利用中文的象形文字特征,便于深度理解中文字的含义,使得预训练出的目标预训练模型能学习出更多的文字特征,从而更能深度理解中文字的含义,继而更能理解句子与句子之间的关联性,能学习更多的语言关联信息,从而在进行NLP的下游任务微调时,更加有使用价值,另外,在预训练时所用的词汇表是基于部首的形式,由于将中文字的部首全部单独拆开并转化为预训练向量,也就是说,在建立预训练的输入向量时,是利用了由部首组成的词汇表,可以理解,中文文字是由部首构成的,利用部首并用于训练,相比较于逐字的词汇的词汇表相比,使用部首的词汇表只需要大约500个部首便行,可以极大地降低预训练模型的参数量,特别是用于训练较小模型时候,小词表将使模型参数量得以降低,可提高推理速度慢,提高了预训练的训练效率。
需要说明的是,在进行预训练时,需基于某种预训练网络结构来实现,本发明中,提出了一种新的层级预训练网络结构,具体地,如图2所示,该目标预训练模型的层级网络包括部首到字层级预训练网络和字到句层级预训练网络,也就是包括两层级的预训练网络结构,其中,部首到字层级预训练网络用于对部首到字之间的信息进行自监督学习,字到句层级预训练网络多用于对字到句子之间的信息进行自我监督学习。
结合图2所示的目标预训练模型的网络结构特点,如图3所示,步骤S70中,也即根据多个句子中对应的部首标记向量和句子标记向量对中文预料进行自监督学习训练,以获取目标预训练模型,具体包括如下步骤:
S71:将多个句子中对应的部首标记向量输入至部首到字层级预训练网络中进行自监督学习训练。
其中,在获取到中文语料中,每个句子对应的独立汉字的部首标记向量之后,将多个句子中的每个句子对应的部首标记向量输入至部首到字层级预训练网络中进行自监督学习训练,以学习部首到字之间的信息。需要说明的是,该部首到字层级预训练网络是一种预训练网络结构,可以采用目前常用的BERT等预训练网络结构,且该部首到字层级预训练网络可以使用遮掩语言模型任务进行预训训练,也就是进行遮掩预测,具体不做限定。下面进行详细说明。
具体地,在一实施例中,如图4所示,步骤S71中,也即将多个句子中对应的部首标记向量输入至部首到字层级预训练网络中进行自监督学习训练,具体包括如下步骤:
S711:将所述多个句子中每个所述独立汉字的每个部首的部首位置信息进行编码,以获取每个独立汉字对应的部首位置向量。
如前述,依据构成每个独立汉字的部首不同,所以有不同的独汉字,而每个独立汉字的部首位置也是不同的。例如,以“新”和“析”字为例,“新”字的部首拆解之后为“立朩斤”,而“析”的部首拆解之后为“木斤”,明显可以看出,两个字中的“斤”在字中所处的位置是不同的,也就是,对于每个独立汉字,独立汉字的每个部首的部首位置信息是不同的,对于整个中文语料的每个句子而言,每个部首的部首位置信息自然也是不同,为了学习出每个汉字中部首所表达的含义,在进行预训练时,需根据独立汉字的每个部首的部首位置信息进行编码,以获取每个独立汉字对应的部首位置向量。
举个简单例子,该“新”对应的部首标记向量可以表示为[101,104,112],该“新”字对应的部首位置向量可以表示为[0,1,2]。“0、1、2”分别表示了该“新”字对应的3个部首的部首位置。另外值得强调的是,那么每个单独文字的部首位置向量的拼接就是句子对应的部首位置向量。
S712:将组成句子的部分独立汉字的部分部首进行掩码处理,以获取每个独立汉字对应的部首掩码向量。
需要说明的是,本发明实施例中,该部首到字层级预训练网络设计了对独立文字的部首进行预测的任务,因此,需对句子中的部分独立汉字的部分部首进行掩码处理,其他独立汉字不做掩码处理,从而可获取该句子每个独立汉字对应的部首掩码向量。可以理解,这里所谓的掩码,指的是利用一个特殊的符号[MASK]来代替被掩码的部首,之后利用部首到字层级预训练网络进行自监督学习,从而学习出被[MASK]替代的部首应该是什么部首,以完成部首层级的预训练。
举个简单例子,以上述句子1的某些独立汉字,例如“新”字为例,在拆解为部首“立朩斤”之后,对其中的某个部首替换为[MASK],例如对其中的部首“朩”进行掩码处理,变为“立[mask]斤”。示例性的,该“新”字对应的部首掩码向量可以为[1,0,1],其中,用0、1作为记录某个部首是否被亚掩码处理,1表示非掩码,0表示掩码。对于中文语料中的每个句子,均可采用上述掩码处理方式,具体这里不一一描述。
需要说明的是,在进行掩码处理时,需确定句子的哪些汉字对应的哪些部首做掩码处理,在本发明中,采用如下部首掩码处理策略:
在获取的中文语料中,15%的部首会被随机掩码处理,在训练部首到字层级预训练网络,同个句子对应的向量会被多次输入到训练部首到字层级预训练网络中用于参数学习,但是并没有每次都掩码同样的部首,而是在确定要掩码掉的部首之后,80%的时候会直接替换为[Mask],10%的替换为其它任意部首,10%的时候会保留原始部首,例如,以句子1“新冠病毒已经在全世界蔓延”为例,若选定“新”的部首做掩码处理时,对于多次输入部首到字层级预训练网络进行预训练的句子1而言,80%的句子1的“新”的部首“朩”做了掩码处理,例如替换为“立[mask]斤”,10%的句子1的“新”的部首“朩”被替换为其他词,例如替换为“立目斤”,10%的句子1的“新”的部首“朩”保留,也即仍然为“立朩斤”。也就是说或,可以采用某种掩码策略,对中文语料中的句子进行掩码处理,具体不做限定。
需要说明的是,上述掩码分配比例为经验得到的结果,采用上述比例进行掩码处理,能使得到后续得到的目标预训练模型更具有参考性和便于下游任务微调。
S713:对独立汉字位于对应句子的汉字位置信息进行编码,以获取每个独立汉字对应的汉字位置向量。
可以理解,每个独立汉字位于对应句子的汉字位置信息也有所不同,例如,若存在句子1和句子2,句子1为“新冠病毒已经在全世界蔓延”;句子2为“我们必须对新冠病毒进行防空”,很明显,句子1和句子2中均存在“新”字,且“新”字位于对应句子的位置也是不同的。句子1中,“新”字位于句子1中的第1个位置,句子2中,“新”字位于句子2中的第6个位置。
为了学习每个字之间的区别和联系,本发明还会根据独立汉字位于对应句子的汉字位置信息进行编码,以获取每个独立汉字对应的汉字位置向量。
例如,该句子1中,“新”字的汉字位置向量可以为[0,0,0]。对句子中的每个汉字的汉字位置向量进行拼接,就可以得到该句子对应的汉字位置向量。对于其他汉字对应的汉字位置向量以此类推,均可采用同种向量转化方式,将对应的汉字位置信息进行编码,从而得到能表征汉字位置信息的汉字位置向量,具体这里不一一说明。
S714:将多个句子中,每个独立汉字对应的部首标记向量、部首位置向量、部首掩码向量和汉字位置向量输入至部首到字层级预训练网络中进行自监督学习训练。
可以理解,在经过前述处理之后,对于中文语料中的多个句子,均可获取到每个独立汉字对应的部首标记向量、汉字掩码向量、部首位置向量和汉字位置向量,并将多个句子中,每个独立汉字对应的部首标记向量、汉字掩码向量、部首位置向量和汉字位置向量进行拼接并输入至部首到字层级预训练网络中进行自监督学习训练,由于做了掩码处理,可见,预训练的任务之一是对于句子中的某些字的部首做掩码处理并进行预测,使得部首到字之间的关联信息得以被部首到字层级预训练网络监督学习。
以前述句子1的“新”字为例,可获取到对应的部首标记向量为[101,104,112]、汉字掩码向量为[1,0,1],部首位置向量为[0,1,2]、汉字位置向量为[0,0,0],对于中文语料的每个句子而言,每个独立汉字均可获取到上述对应的向量,并输入至部首到字层级预训练网络中进行自监督学习训练,从而学习该句子1中,被掩码的部首是什么,以先学习部首到字之间的关联信息。
S72:将部首到字层级预训练网络的输出和句子标记向量输入至字到句层级预训练网络进行自监督学习训练,以获取目标预训练模型。
其中,在获取到中文语料对应的多个句子中,每个句子对应的句子标记向量之后,将多个句子中对应的句子标记向量和部首到字层级预训练网络的输出,输入至字到句层级预训练网络进行自监督学习训练,以学习字到句子之间的信息。需要说明的是,该字到句层级预训练网络也可以采用目前常用的BERT等预训练网络,且该字到句层级预训练网络也可以使用遮掩语言模型任务进行训练,也就是进行遮掩预测,下面详细说明。
具体地,如图5所示,步骤S72中,也即将部首到字层级预训练网络的输出和句子标记向量输入至字到句层级预训练网络进行自监督学习训练,以获取目标预训练模型,具体包括如下步骤:
S721:对每个独立汉字对应的部首标记向量、部首位置向量、部首掩码向量、和汉字位置向量进行拼接,以获取每个独立汉字的汉字表征向量。
在获取到每个独立汉字对应的部首标记向量、部首掩码向量、部首位置向量和汉字位置向量之后,对每个独立汉字对应的部首标记向量、部首掩码向量、部首位置向量和汉字位置向量进行拼接,以获取每个独立汉字的汉字表征向量。
以前述句子1中的“新”字为例,“新”字对应的部首标记向量为[101,104,112]、汉字掩码向量为[1,0,1],部首位置向量为[0,1,2]、汉字位置向量为[0,0,0],可对该“新”字对应的部首标记向量[101,104,112]、汉字掩码向量[1,0,1],部首位置向量[0,1,2]、汉字位置向量[0,0,0]进行拼接,从而得到该“新”字的汉字表征向量,基于同样的向量获取方式,对于中文语料中的每个分句的汉字均可获取到相应的汉字表征向量,在此不一一说明。
值得注意的是,传统的汉字表征向量中,通常直接对汉字进行编码以进行预训练,而本发明中的汉字表征向量是利用了汉字的全部部首、以及部首间的关联关系表征,能深入文字结构表征向量,有利于后续预训练出更好的目标预训练模型。
S722:将组成句子的所有独立汉字的汉字表征向量序列作为该句子对应的句子标记向量。
在获取到每个分句的独立汉字相应的汉字表征向量之后,将组成该句子的所有独立汉字的汉字表征向量序列作为该句子对应的句子标记向量。例如,以句子1为例,在获取到分句1的所有独立汉字相应的汉字表征向量之后,将组成该句子1的所有独立汉字的汉字表征向量序列作为该句子1对应的句子标记向量。
S723:对句子位于所述中文预料的句子位置信息进行编码,以获取每个句子对应的句子位置向量。
可以理解,每个句子位于中文语料的句子位置信息也有所不同,例如,若存在句子1和句子2,句子1为“新冠病毒已经在全世界蔓延”;句子2为“我们必须对新冠病毒进行防空”,很明显,句子1和句子2在中文语料中的位置也是不同的。例如,句子1位于中文语料的第1个位置,句子2位于中文语料的第2个位置。
为了学习每个句子与句子之间的区别和联系,本发明还会根据句子位于中文预料的句子位置信息进行编码,以获取句子对应的句子位置向量。需要说明的是,为了便于描述和区别,本发明中,将依据句子位于对应句子的句子位置信息所编码得到的向量称为句子位置向量,这与前面的部首位置向量是不同的,句子位置向量是用于表征句子位置信息的向量,部首位置向量是用于表征部首位置信息的向量。
例如,该句子1中,句子1的句子位置向量可以为[0,0,0]。对于其他句子对应的句子位置向量以此类推,均可采用同种向量转化方式,将对应的句子位置信息进行编码,从而得到能表征句子位置信息的句子位置向量,具体这里不一一说明。
S724:将每个句子对应的句子标记向量、句子位置向量和部首到字层级预训练网络的输出,输入至字到句层级预训练网络进行训练,以获取目标预训练模型。
可以理解,在经过前述处理之后,对于中文语料中的多个句子,均可获取到每个句子对应的句子标记向量和句子位置向量,并将多个句子中,每个句子对应的句子标记向量、句子位置向量和部首到字层级预训练网络的输出输入至字到句层级预训练网络,由于做了掩码处理,可见,预训练的任务之一是对于句子中的某些汉字的部首做掩码处理并进行预测,使得句与句之间的关联信息得以被字到句层级预训练网络监督学习。
需要说明的是,前述提出了利用双层的预训练网络结构进行预训练的过程,也即利用部首到字层级预训练网络和字到句层级预训练网络进行预训练的方式,先是利用部首到字层级预训练网络预训练部首到字之间的关联信息,再利用字到句层级预训练网络预训练字到句之间的关联信息,与传统不同的是本方案的预训练网络结构是双层结构,传统的预训练模型多为单层结构,使用本发明的双层结构更能监督学习出部首、字和句子之间的关联,使训练出的目标预训练模型有更能表达语料包含的信息。
在一实施例中,如图6-图8所示,提出了一种部首到字层级预训练网络和字到句层级预训练网络,具体地,部首到字层级预训练网络为第一BERT网络,字到句层级预训练网络为第二BERT网络。第一BERT网络和第二BERT网络各自均包括多个Transformer编码器(ENCODER),每个Transformer编码器具有相同的结构,每个Transformer编码器包括多头注意力层(self-Attention)和前馈神经网络层(Feed Forward),且同个Transformer编码器内的多头注意力层和前馈神经网络层连接,其中,在第一和第二BERT网络中,首级Transformer编码器的多头注意力层为目标预训练模型的网络输入层,尾级Transformer编码器的前馈神经网络层为目标预训练模型的网络输出层,中间层级的Transformer编码器中,上一级Transformer编码器的前馈神经网络层连接至下一级Transformer编码器的多头注意力层。
需要说明的是,关于Transformer编码器,内部的个Transformer编码器和前馈神经网络层的具体结构,与Transformer模型中的编码器(ENCODER)一样,具体本发明实施例不做说明。本发明的重点在于基于Transformer模型的Transformer编码器,提出了一种双层的预训练网络结构,也即包括第一BERT网络和第二BERT网络的目标预训练网络模型,并且,在预训练时,对输入训练向量做了改进。这里,现结合上述第一BERT网络和第二BERT网络对前述预训练过程再做下简单的描述,主要包括两个阶段的预训练。
第一个阶段,部首到字层级预训练,针对第一BERT网络的预训练过程,也即利用第一BERT网络进行预训练的过程,可以理解,在获取到中文语料的每个独立汉字对应的部首标记向量、部首掩码向量、部首位置向量和汉字位置向量,将上述向量作为输入向量输入第一BERT网络进行embedding操作,其中,具体的embedding操作过程可参阅现有的方式,在此不做详细说明。不同的地方在于,本发明进入第一BERT网络进行预训练的是表征中文语料中部首到字级信息的表征向量,继而将部首到字级信息的表征向量输入至第一BERT网络中首级Transformer编码器的多头注意力层,经过首级Transformer编码器多头注意力层的处理后,首级Transformer编码器多头注意力层的将处理结果输出至自身结构的前馈神经网络层,首级Transformer编码器前馈神经网络层的处理结果传输至下一级Transformer编码器进行同样的操作,直至尾级Transformer编码器也处理完毕,经过中文语料的多次训练,第一BERT网络便能学习到字到句层级的关联信息。具体如图5所示,例如,对于中文语料中的句子“新冠病毒正在蔓延”,可将句子中的各个文字进行部首拆解,“新”拆为“立朩斤”,“蔓”拆为“艹日罒又”,“延”拆
Figure BDA0002673579170000121
第二个阶段,字到句层级预训练,针对第二BERT网络的预训练过程,也即利用第二BERT网络进行预训练的过程,可以理解,在获取到中文语料的每个句子对应的句子标记向量、句子位置向量之后,每个句子对应的句子标记向量、句子位置向量,以及第一BERT网络的输出作为第二BERT网络的输入向量进行embedding操作,其中,具体的embedding操作过程也可参阅现有的方式,在此不做详细说明。不同的地方在于,本发明进入第二BERT网络进行预训练的是表征中文语料中部首层级信息的向量以及表征字到句子之间层级信息的向量,继而将两种表征不同层级信息的向量输入至第二BERT网络中首级Transformer编码器的多头注意力层,经过首级Transformer编码器多头注意力层的处理后,第二BERT网络首级Transformer编码器多头注意力层将处理结果输出至自身前馈神经网络层,第二BERT网络首级Transformer编码器的前馈神经网络层将处理结果传输至下一级Transformer编码器进行同样的操作,直至尾级Transformer编码器也处理完毕,经过中文语料的多次训练,第一BERT网络便能学习到部首到字层级的关联信息。其中,多头注意力层的处理过程可参阅常规方式,这里不展开说明,不同的地方在于,输入至多头注意力层的处理向量不同。
需要说明的是,在一实施例中,本发明还提供了一种基于预训练模型的下游任务处理方法,可以理解,经过本发明实施例的训练后,便可获得基于部首训练得到的目标预训练模型。那么基于该目标预训练模型,便可依据下游任务需求,例如文本实体标注需求、文本问答等下游任务,便可获取下游任务训练数据,并通过下游任务训练数据对目标预训练模型进行微调,以获取下游任务处理模型,使用下游任务处理模型对待处理本文数据进行处理,以获取模型处理结果。
以疾病的实体标注为例,传统上,在对预训练模型进行微调以获取实体标注模型时,由于所采用的预训练模型是采样利用逐字构成的词汇表所预训练而成,由于中文文字较多,这样的中文词汇表,除了词表的文字量比较巨大,且无法体现中文象形文字特征,导致预训练模型无法更深入的学习到中文汉字的内部特征,那么基于传统的预训练模型所微调的实体标注模型可能存在准确率或识别效率较差的问题。
对于上述问题,本发明另一实施例提供了一种基于预训练模型的疾病实体标注方法,包括如下步骤:
S101:获取经过人工标注的疾病实体的实体标注文本训练数据。
先是获取大量医用文本,并进行人工标注,以标注出疾病实体,例如糖尿病等疾病实体。并将经过标注的医用文本作为实体标注文本训练数据。
S102:利用实体标注文本训练数据对目标预训练模型进行微调,以获取疾病实体标注模型,所述目标预训练模型为经过前述预训练模型处理方法获取的预训练模型。
随后便可通过实体标注文本训练数据对目标预训练模型进行微调,以获取疾病实体标注模型。其中,目标预训练模型为经过如前述基于词汇表的预训练模型获取方法所获取的预训练模型。具体地微调过程在此不做详细说明。
S103:在需对待识别医用文本进行实体标注时,将所述待识别医用文本输入至所述疾病实体标注模型中,以获取所述疾病实体标注模型输出的疾病实体标注结果。
针对某段待识别医用文本,在具有疾病实体标注需求时,将所述待识别医用文本输入至所述疾病实体标注模型中,以获取所述疾病实体标注模型输出的疾病实体标注结果。
可以理解,经过本发明实施例的处理之后,由于所采用的目标预训练模型是本发明中基于深度学习的预训练模型处理方法所获取的预训练模型,由前述实施例可知,本发明中的目标预训练模型是基于汉字部首以及层级结构的预训练网络结构所预训练得到,体现许多汉字特性,使得目标预训练模型能更深入的学习到中文汉字的特征,能深入理解汉字含义,因此,在一定程度上,能使得基于本发明的目标预训练模型所微调的实体标注模型准确率或识别效率更好。
本发明所提供的目标预训练模型适用于各种各样的自然语言处理下游任务中,具体不做限定。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于深度学习的预训练模型处理装置,该预训练模型处理装置与上述实施例中预训练模型处理方法一一对应。如图9所示,该预训练模型处理装置包括获取模块101、第一拆解模块102、第二拆解模块103、第一获取模块104、第二获取模块105、第三获取模块106和训练模块107。各功能模块详细说明如下:
获取模块101,用于获取中文语料,并将所述中文语料进行句子分割,得到多个句子;
第一拆解模块102,用于对所述多个句子的汉字进行独立拆解,以获取每个句子的多个独立汉字;
第二拆解模块103,将所述多个独立汉字中的每个汉字进行部首拆解,得到每个所述独立汉字的所有部首;
第一获取模块104,用于将组成所述独立汉字的所有部首进行编码处理,以获取每个所述独立汉字对应的部首标记向量;
第二获取模块105,用于根据所述部首标记向量获取每个所述独立汉字的汉字表征向量;
第三获取模块106,用于将组成所述句子的所有独立汉字的汉字表征向量序列作为所述句子对应的句子标记向量;
训练模块107,用于根据所述多个句子中对应的所述部首标记向量和所述句子标记向量对所述中文预料进行自监督学习训练,以获取目标预训练模型。
在一实施例中,所述目标预训练模型的层级网络包括部首到字层级预训练网络和字到句层级预训练网络,所述训练模块107具体用于:
将所述多个句子中对应的所述部首标记向量输入至所述部首到字层级预训练网络中进行自监督学习训练;
将所述部首到字层级预训练网络的输出和所述多个句子对应的所述句子标记向量输入至所述字到句层级预训练网络进行自监督学习训练,以获取所述目标预训练模型。
在一实施方式中,所述训练模块107用于将所述多个句子中对应的所述部首标记向量输入至所述部首到字层级预训练网络中进行自监督学习训练,包括:
所述训练模块107用于:
将所述多个句子中每个所述独立汉字的每个部首的部首位置信息进行编码,以获取每个所述独立汉字对应的部首位置向量;
将组成所述句子的部分独立汉字的部分部首进行掩码处理,以获取每个所述独立汉字对应的部首掩码向量;
对所述独立汉字位于对应句子的汉字位置信息进行编码,以获取每个所述独立汉字对应的汉字位置向量;
将所述多个句子中,每个所述独立汉字对应的所述部首标记向量、部首位置向量、部首掩码向量和汉字位置向量所述输入至所述部首到字层级预训练网络中进行自监督学习训练。
在一实施方式中,所述训练模块107用于将所述部首到字层级网络的输出和所述句子标记向量输入至所述字到句层级网络进行自监督学习训练,以获取所述目标预训练模型,包括:
所述训练模块107用于:
对每个所述独立汉字对应的所述部首标记向量、部首位置向量、部首掩码向量和汉字位置向量进行拼接,以获取每个所述独立汉字的汉字表征向量;
将组成所述句子的所有独立汉字的所述汉字表征向量序列作为句子对应的句子标记向量;
对所述句子位于所述中文预料的句子位置信息进行编码,以获取每个所述句子对应的句子位置向量;
将所述中文语料中每个句子对应的所述句子标记向量、句子位置向量和所述部首到字层级预训练网络的输出,输入至所述字到句层级预训练网络进行训练,以获取所述目标预训练模型。
在一实施方式中,所述部首到字层级预训练网络为第一BERT网络,所述字到句层级预训练网络为第二BERT网络。
在一实施方式中,所述第一BERT网络和所述第二BERT网络各自均包括多个Transformer编码器,所述Transformer编码器包括多头注意力层和前馈神经网络层;
其中,同个所述Transformer编码器内的多头注意力层和前馈神经网络层连接,所述BERT网络中,首级Transformer编码器的多头注意力层为网络输入层,尾级Transformer编码器的前馈神经网络层为网络输出层,中间层级的Transformer编码器中,上一级Transformer编码器的前馈神经网络层连接至下一级Transformer编码器的多头注意力层。
可见,在本发明实施例中,提供了一种基于深度学习的预训练模型处理装置,其中,用于预训练学习的预训练数据中包括了中文的部首标记向量和句子标记向量,可深入到字的内部对字进行表征,这样有利于利用中文的象形文字特征,便于深度理解中文字的含义,使得预训练出的目标预训练模型能学习出更多的文字特征,从而更能深度理解中文字的含义,继而更能理解句子与句子之间的关联性,能学习更多的语言关联信息,从而在进行NLP的下游任务微调时,更加有使用价值,另外,在预训练时所用的词汇表是基于部首的形式,由于将中文字的部首全部单独拆开并转化为预训练向量,也就是说,在建立预训练的输入向量时,是利用了由部首组成的词汇表,可以理解,中文文字是由部首构成的,利用部首并用于训练,相比较于逐字的词汇的词汇表相比,使用部首的词汇表只需要大约500个部首便行,可以极大地降低预训练模型的参数量,特别是用于训练较小模型时候,小词表将使模型参数量得以降低,可提高推理速度慢,提高了预训练的训练效率。
在一实施例中,提供一种基于预训练模型的下游任务处理装置,该下游任务处理装置与上述实施例中下游任务处理方法一一对应。如图10所示,该预训练模型处理装置包括获取模块201、微调模块202和处理模块203。各功能模块详细说明如下:
获取模块201,用于获取目标预训练模型的下游任务训练数据,其中,所述目标预训练模型为前述预训练模型处理方法得到的目标预训练模型;
微调模块202,用于通过所述下游任务训练数据对所述目标预训练模型进行微调,以获取下游任务处理模型,
处理模块203,用于使用所述下游任务处理模型对待处理本文数据进行处理,以获取模型处理结果。
关于预训练模型处理装置、下游任务处理装置的具体限定,可以分别参见上文中对于预训练模型处理方法、下游任务处理方法的限定,在此不再赘述。上述预训练模型处理装置和下游任务处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存储器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信,以获取所需信息或数据。该计算机程序被处理器执行时以实现一种基于深度学习的预训练模型处理方法或基于预训练模型的下游任务处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取中文语料,并将所述中文语料进行句子分割,得到多个句子;
对所述多个句子的汉字进行独立拆解,以获取每个句子的多个独立汉字;
将所述多个独立汉字中的每个汉字进行部首拆解,得到每个所述独立汉字的所有部首;
将组成所述独立汉字的所有部首进行编码处理,以获取每个所述独立汉字对应的部首标记向量;
根据所述部首标记向量获取每个所述独立汉字的汉字表征向量;
将组成所述句子的所有独立汉字的汉字表征向量序列作为所述句子对应的句子标记向量;
根据所述多个句子中对应的所述部首标记向量和所述句子标记向量对所述中文预料进行自监督学习训练,以获取目标预训练模型。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取目标预训练模型的下游任务训练数据,其中,所述目标预训练模型为如经过本发明实施例预训练模型处理方法得到的目标预训练模型;
通过所述下游任务训练数据对所述目标预训练模型进行微调,以获取下游任务处理模型,
使用所述下游任务处理模型对待处理本文数据进行处理,以获取模型处理结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取中文语料,并将所述中文语料进行句子分割,得到多个句子;
对所述多个句子的汉字进行独立拆解,以获取每个句子的多个独立汉字;
将所述多个独立汉字中的每个汉字进行部首拆解,得到每个所述独立汉字的所有部首;
将组成所述独立汉字的所有部首进行编码处理,以获取每个所述独立汉字对应的部首标记向量;
根据所述部首标记向量获取每个所述独立汉字的汉字表征向量;
将组成所述句子的所有独立汉字的汉字表征向量序列作为所述句子对应的句子标记向量;
根据所述多个句子中对应的所述部首标记向量和所述句子标记向量对所述中文预料进行自监督学习训练,以获取目标预训练模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标预训练模型的下游任务训练数据,其中,所述目标预训练模型为如经过本发明实施例预训练模型处理方法得到的目标预训练模型;
通过所述下游任务训练数据对所述目标预训练模型进行微调,以获取下游任务处理模型,
使用所述下游任务处理模型对待处理本文数据进行处理,以获取模型处理结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习的预训练模型处理方法,其特征在于,包括:
获取中文语料,并将所述中文语料进行句子分割,得到多个句子;
对所述多个句子的汉字进行独立拆解,以获取每个句子的多个独立汉字;
将所述多个独立汉字中的每个汉字进行部首拆解,得到每个所述独立汉字的所有部首;
将组成所述独立汉字的所有部首进行编码处理,以获取每个所述独立汉字对应的部首标记向量;
根据所述部首标记向量获取每个所述独立汉字的汉字表征向量;
将组成所述句子的所有独立汉字的汉字表征向量序列作为所述句子对应的句子标记向量;
根据所述多个句子中对应的所述部首标记向量和所述句子标记向量对所述中文预料进行自监督学习训练,以获取目标预训练模型。
2.如权利要求1所述的预训练模型处理方法,其特征在于,所述目标预训练模型的层级网络包括部首到字层级预训练网络和字到句层级预训练网络,所述根据所述多个句子中对应的所述部首标记向量和所述句子标记向量对所述中文预料进行自监督学习训练,以获取目标预训练模型,包括:
将所述多个句子中对应的所述部首标记向量输入至所述部首到字层级预训练网络中进行自监督学习训练;
将所述部首到字层级预训练网络的输出和所述多个句子对应的所述句子标记向量输入至所述字到句层级预训练网络进行自监督学习训练,以获取所述目标预训练模型。
3.如权利要求2所述的预训练模型处理方法,其特征在于,所述将所述多个句子中对应的所述部首标记向量输入至所述部首到字层级预训练网络中进行自监督学习训练,包括:
将所述多个句子中每个所述独立汉字的每个部首的部首位置信息进行编码,以获取每个所述独立汉字对应的部首位置向量;
将组成所述句子的部分独立汉字的部分部首进行掩码处理,以获取每个所述独立汉字对应的部首掩码向量;
对所述独立汉字位于对应句子的汉字位置信息进行编码,以获取每个所述独立汉字对应的汉字位置向量;
将所述多个句子中,每个所述独立汉字对应的所述部首标记向量、部首位置向量、部首掩码向量和汉字位置向量所述输入至所述部首到字层级预训练网络中进行自监督学习训练。
4.如权利要求3所述的预训练模型处理方法,其特征在于,所述将所述部首到字层级网络的输出和所述句子标记向量输入至所述字到句层级网络进行自监督学习训练,以获取所述目标预训练模型,包括:
对每个所述独立汉字对应的所述部首标记向量、部首位置向量、部首掩码向量和汉字位置向量进行拼接,以获取每个所述独立汉字的汉字表征向量;
将组成所述句子的所有独立汉字的所述汉字表征向量序列作为句子对应的句子标记向量;
对所述句子位于所述中文预料的句子位置信息进行编码,以获取每个所述句子对应的句子位置向量;
将所述中文语料中每个句子对应的所述句子标记向量、句子位置向量和所述部首到字层级预训练网络的输出,输入至所述字到句层级预训练网络进行训练,以获取所述目标预训练模型。
5.如权利要求2-4任一项所述的预训练模型处理方法,其特征在于,所述部首到字层级预训练网络为第一BERT网络,所述字到句层级预训练网络为第二BERT网络。
6.如权利要求5所述的预训练模型处理方法,其特征在于,所述第一BERT网络和所述第二BERT网络各自均包括多个Transformer编码器,所述Transformer编码器包括多头注意力层和前馈神经网络层;
其中,同个所述Transformer编码器内的多头注意力层和前馈神经网络层连接,所述BERT网络中,首级Transformer编码器的多头注意力层为网络输入层,尾级Transformer编码器的前馈神经网络层为网络输出层,中间层级的Transformer编码器中,上一级Transformer编码器的前馈神经网络层连接至下一级Transformer编码器的多头注意力层。
7.一种基于预训练模型的下游任务处理方法,其特征在于,包括:
获取目标预训练模型的下游任务训练数据,其中,所述目标预训练模型为如权利要求1-6任一项所述预训练模型处理方法得到的目标预训练模型;
通过所述下游任务训练数据对所述目标预训练模型进行微调,以获取下游任务处理模型,
使用所述下游任务处理模型对待处理本文数据进行处理,以获取模型处理结果。
8.一种基于深度学习的预训练模型处理装置,其特征在于,所述装置包括:
获取模块,用于获取中文语料,并将所述中文语料进行句子分割,得到多个句子;
第一拆解模块,用于对所述多个句子的汉字进行独立拆解,以获取每个句子的多个独立汉字;
第二拆解模块,将所述多个独立汉字中的每个汉字进行部首拆解,得到每个所述独立汉字的所有部首;
第一获取模块,用于将组成所述独立汉字的所有部首进行编码处理,以获取每个所述独立汉字对应的部首标记向量;
第二获取模块,用于根据所述部首标记向量获取每个所述独立汉字的汉字表征向量;
第三获取模块,用于将组成所述句子的所有独立汉字的汉字表征向量序列作为所述句子对应的句子标记向量;
训练模块,用于根据所述多个句子中对应的所述部首标记向量和所述句子标记向量对所述中文预料进行自监督学习训练,以获取目标预训练模型。
9.一种基于预训练模型的下游任务处理装置,其特征在于,所述装置包括:
获取模块,用于获取目标预训练模型的下游任务训练数据,其中,所述目标预训练模型为如权利要求1-6任一项所述预训练模型处理方法得到的目标预训练模型;
微调模块,用于通过所述下游任务训练数据对所述目标预训练模型进行微调,以获取下游任务处理模型,
处理模块,用于使用所述下游任务处理模型对待处理本文数据进行处理,以获取模型处理结果。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的预训练模型处理方法或实现如权利要求8所述的下游任务处理方法。
CN202010940820.4A 2020-09-09 2020-09-09 预训练模型处理、下游任务处理方法、装置及存储介质 Active CN112016300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010940820.4A CN112016300B (zh) 2020-09-09 2020-09-09 预训练模型处理、下游任务处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010940820.4A CN112016300B (zh) 2020-09-09 2020-09-09 预训练模型处理、下游任务处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112016300A true CN112016300A (zh) 2020-12-01
CN112016300B CN112016300B (zh) 2022-10-14

Family

ID=73522532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010940820.4A Active CN112016300B (zh) 2020-09-09 2020-09-09 预训练模型处理、下游任务处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112016300B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786108A (zh) * 2021-01-21 2021-05-11 北京百度网讯科技有限公司 分子理解模型的训练方法、装置、设备和介质
CN113095086A (zh) * 2021-04-08 2021-07-09 思必驰科技股份有限公司 义原预测方法及系统
CN113312454A (zh) * 2021-06-17 2021-08-27 辽宁大学 一种基于自监督的三阶段故事阅读理解训练方法
CN113743120A (zh) * 2021-09-07 2021-12-03 湖北亿咖通科技有限公司 语句处理方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
WO2019052311A1 (zh) * 2017-09-12 2019-03-21 腾讯科技(深圳)有限公司 风格语句的生成方法、模型训练方法、装置及计算机设备
CN110489555A (zh) * 2019-08-21 2019-11-22 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN110619120A (zh) * 2019-08-12 2019-12-27 北京航空航天大学 语言模型的训练方法及装置
US20200012953A1 (en) * 2018-07-03 2020-01-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for generating model
CN110837733A (zh) * 2019-10-31 2020-02-25 创新工场(广州)人工智能研究有限公司 自重建方式的语言模型训练方法、系统及计算机可读介质
WO2020107765A1 (zh) * 2018-11-30 2020-06-04 深圳前海微众银行股份有限公司 语句分析处理方法、装置、设备以及计算机可读存储介质
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
WO2019052311A1 (zh) * 2017-09-12 2019-03-21 腾讯科技(深圳)有限公司 风格语句的生成方法、模型训练方法、装置及计算机设备
US20200012953A1 (en) * 2018-07-03 2020-01-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for generating model
WO2020107765A1 (zh) * 2018-11-30 2020-06-04 深圳前海微众银行股份有限公司 语句分析处理方法、装置、设备以及计算机可读存储介质
CN110619120A (zh) * 2019-08-12 2019-12-27 北京航空航天大学 语言模型的训练方法及装置
CN110489555A (zh) * 2019-08-21 2019-11-22 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN110837733A (zh) * 2019-10-31 2020-02-25 创新工场(广州)人工智能研究有限公司 自重建方式的语言模型训练方法、系统及计算机可读介质
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蔡成彰: "中文电子病历医学实体识别算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786108A (zh) * 2021-01-21 2021-05-11 北京百度网讯科技有限公司 分子理解模型的训练方法、装置、设备和介质
CN112786108B (zh) * 2021-01-21 2023-10-24 北京百度网讯科技有限公司 分子理解模型的训练方法、装置、设备和介质
CN113095086A (zh) * 2021-04-08 2021-07-09 思必驰科技股份有限公司 义原预测方法及系统
CN113095086B (zh) * 2021-04-08 2024-03-01 思必驰科技股份有限公司 义原预测方法及系统
CN113312454A (zh) * 2021-06-17 2021-08-27 辽宁大学 一种基于自监督的三阶段故事阅读理解训练方法
CN113312454B (zh) * 2021-06-17 2024-07-02 辽宁大学 一种基于自监督的三阶段故事阅读理解训练方法
CN113743120A (zh) * 2021-09-07 2021-12-03 湖北亿咖通科技有限公司 语句处理方法及装置
CN113743120B (zh) * 2021-09-07 2023-07-11 亿咖通(湖北)技术有限公司 语句处理方法及装置

Also Published As

Publication number Publication date
CN112016300B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN112016300B (zh) 预训练模型处理、下游任务处理方法、装置及存储介质
US11501182B2 (en) Method and apparatus for generating model
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN107632981B (zh) 一种引入源语组块信息编码的神经机器翻译方法
CN112115267B (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN108829684A (zh) 一种基于迁移学习策略的蒙汉神经机器翻译方法
US20230080671A1 (en) User intention recognition method and apparatus based on statement context relationship prediction
CN112016319B (zh) 预训练模型获取、疾病实体标注方法、装置及存储介质
CN113468877A (zh) 语言模型的微调方法、装置、计算设备和存储介质
CN107145484A (zh) 一种基于隐多粒度局部特征的中文分词方法
US20230244704A1 (en) Sequenced data processing method and device, and text processing method and device
CN113190602B (zh) 融合字词特征与深度学习的事件联合抽取方法
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN113254613B (zh) 对话问答方法、装置、设备及存储介质
CN110598210B (zh) 实体识别模型训练、实体识别方法、装置、设备及介质
WO2023030105A1 (zh) 训练自然语言处理模型和自然语言处理的方法、电子设备
CN114528394B (zh) 一种基于掩码语言模型的文本三元组提取方法及装置
CN112052329A (zh) 文本摘要生成方法、装置、计算机设备及可读存储介质
CN111382568B (zh) 分词模型的训练方法和装置、存储介质和电子设备
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN114416984A (zh) 基于人工智能的文本分类方法、装置、设备及存储介质
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN111125378A (zh) 一种基于自动样本标注的闭环实体抽取方法
CN113919363A (zh) 基于人工智能的句向量生成模型的处理方法、装置及设备
CN113297374A (zh) 一种基于bert和字词特征融合的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant