CN111382568B - 分词模型的训练方法和装置、存储介质和电子设备 - Google Patents

分词模型的训练方法和装置、存储介质和电子设备 Download PDF

Info

Publication number
CN111382568B
CN111382568B CN202010472238.XA CN202010472238A CN111382568B CN 111382568 B CN111382568 B CN 111382568B CN 202010472238 A CN202010472238 A CN 202010472238A CN 111382568 B CN111382568 B CN 111382568B
Authority
CN
China
Prior art keywords
word segmentation
model
language
training
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010472238.XA
Other languages
English (en)
Other versions
CN111382568A (zh
Inventor
杨振
黄申
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010472238.XA priority Critical patent/CN111382568B/zh
Publication of CN111382568A publication Critical patent/CN111382568A/zh
Application granted granted Critical
Publication of CN111382568B publication Critical patent/CN111382568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种分词模型的训练方法和装置、存储介质和电子设备。该方法包括:使用不带分词标注的第一语种的第一语料集合和不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,预训练模型用于对第一语种和第二语种进行建模;使用带分词标注的第一语种的第三语料集合对预训练模型进行优化训练,得到分词模型,分词模型具备对第一语种的句子进行分词的能力;使用带分词标注的第二语种的第四语料集合对分词模型进行优化训练,得到目标分词模型,目标分词模型具备对第二语种的句子进行分词的能力。本发明可应用于人工智能的分词模型的训练和应用中。

Description

分词模型的训练方法和装置、存储介质和电子设备
技术领域
本发明涉及计算机领域,具体而言,涉及一种分词模型的训练方法和装置、存储介质和电子设备。
背景技术
粤语等作为中文普通话的一种地方方言,其被用于日常交流的和信息传递的场合较少。因此,粤语在学术界和工业界得到的关注也相对较少。目前工业界没有可以直接使用的粤语分词系统,学术界也没有提出专门针对粤语分词而行之有效的方法。
目前通用的神经网络分词方法都是将分词看成是一个序列标注任务,大致可以分为两类:基于预训练的方法和不基于预训练的方法。
基于预训练的分词方法主要采用基于自注意力机制(self-attention)的Transformer网络结构,利用类似于基于Transformer模型的双向编码表示(BidirectionalEncoder Representations for Transformer,简称BERT)、通用预训练算法(GenerativePre-Training,简称GPT)的带掩码加噪的语言模型(Masked Language Model,简称MLM)优化算法进行模型预训练,然后在预训练得到的模型的基础上利用大规模标注语料进行优化微调,如图1所示,为基于预训练分词模型结构和训练方法的示意图。这种基于预训练的分词方法能够利用大规模的单语语料来提升分词的准确率,但是由于需要经历预训练和优化训练两个阶段,离线训练时间较长。
不基于预训练的方法模型结构灵活多样,主流模型结构包括递归神经网络(Recurrent Neural Network,简称RNN),长短时记忆网络(Long-short term MemoryNetwork,简称LSTM),以及卷积神经网络(Convolutional Neural Network,简称CNN)等。如图2所示,为基于LSTM的中文分词方法的示意图。这种方法通常在神经网络模型输出端链接一个条件随机场(Conditional Random Field,简称CRF)分类模块,用于预测每个输入字符的分类标签。这些方法需要大量的标注语料,且无法直接利用未标注语料来训练模型的主体结构,因此,其对未标注语料的使用效率不高,分词准确率也比基于预训练的分词方法低。
相关技术中,通用的分词方法虽然可以用于粤语分词,但是这些通用分词方法需要大量的带标注的粤语语料进行模型训练,而这种大规模的标注语料极难获得,人工标注成本很高,存在过度依赖大规模粤语分词的标注语料,无法充分利用容易获得的未标注语料来提升粤语分词性能。
针对相关技术中,针对工业界没有可以直接使用的粤语等方言的分词系统的问题,尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种分词模型的训练方法和装置、存储介质和电子设备,以至少针对工业界没有可以直接使用的粤语等方言的分词系统的技术问题。
根据本发明实施例的一个方面,提供了一种分词模型的训练方法,包括:使用不带分词标注的第一语种的第一语料集合和不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,其中,上述预训练模型用于对上述第一语种和上述第二语种进行建模;使用带分词标注的上述第一语种的第三语料集合对上述预训练模型进行优化训练,得到分词模型,其中,上述分词模型具备对上述第一语种的句子进行分词的能力;使用带分词标注的上述第二语种的第四语料集合对上述分词模型进行优化训练,得到目标分词模型,其中,上述目标分词模型具备对上述第二语种的句子进行分词的能力,上述第一语料集合、上述第二语料集合和上述第三语料集合中的语料的数量均大于上述第四语料集合中的语料的数量。
根据本发明实施例的另一方面,还提供了一种分词模型的训练装置,包括:第一训练单元,用于使用不带分词标注的第一语种的第一语料集合和不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,其中,上述预训练模型用于对上述第一语种和上述第二语种进行建模;第二训练单元,用于使用带分词标注的上述第一语种的第三语料集合对上述预训练模型进行优化训练,得到分词模型,其中,上述分词模型具备对上述第一语种的句子进行分词的能力;第三训练单元,用于使用带分词标注的上述第二语种的第四语料集合对上述分词模型进行优化训练,得到目标分词模型,其中,上述目标分词模型具备对上述第二语种的句子进行分词的能力,上述第一语料集合、上述第二语料集合和上述第三语料集合中的语料的数量均大于上述第四语料集合中的语料的数量。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述分词模型的训练方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述分词模型的训练方法。
在本发明实施例中,首先,使用不带分词标注的第一语种的第一语料集合、以及不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,其中,预训练模型用于对第一语种和第二语种进行建模,然后,使用带分词标注的第一语种的第三语料集合对上述预训练模型进行优化训练,得到分词模型,使得分词模型具备对第一语种的句子进行分词的能力,最后使用带分词标注的上述第二语种的第四语料集合对上述分词模型进行优化训练,得到目标分词模型,使得目标分词模型具备对上述第二语种的句子进行分词的能力,其中,上述第一语料集合、上述第二语料集合和上述第三语料集合中的语料的数量均大于上述第四语料集合中的语料的数量。通过上述方式,首先通过大量不带分词标注的第一语种和第二语种的语料对待训练分词模型进行跨语种预训练,得到预训练模型,然后通过带分词标注的第一语种的语料进行优化训练,得到分词模型,进一步通过少量带分词标注的第二语种的语料进行优化训练,可以得到目标分词模型,在第二语种为粤语等方言的情况下,能够使目标分词模型获得对粤语等方言的分词能力,解决了针对工业界没有可以直接使用的粤语等方言的分词系统的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是相关技术中一种基于预训练分词模型结构和训练方法的示意图;
图2是相关技术中一种基于LSTM的中文分词方法的示意图;
图3是根据本发明实施例的一种分词模型的训练方法的应用环境的示意图;
图4是根据本发明实施例的一种可选的分词模型的训练方法的流程示意图;
图5是根据本发明实施例的另一种可选的分词模型的训练方法的流程示意图;
图6是根据本发明实施例的一种可选的分词模型的网络结构的示意图;
图7是根据本发明实施例的一种可选的分词模型的训练装置的结构示意图;
图8是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例中涉及到的技术术语包括:
1、递归神经网络(Recurrent Neural Network,简称RNN)。
2、长短时记忆网络(Long-short term Memory Network,简称LSTM)。
3、卷积神经网络(Convolutional Neural Network,简称CNN)。
4、自注意力机制Self-attention。
5、基于Transformer模型的双向编码表示(Bidirectional EncoderRepresentations for Transformer,简称Bert)。
6、通用预训练算法(Generative Pre-Training,简称GPT)。
7、带掩码加噪的语言模型(Masked Language Model,简称MLM)。
8、条件随机场(Conditional Random Field,简称CRF)。
9、线性整流函数(Rectified Linear Unit,简称ReLU)。
根据本发明实施例的一个方面,提供了一种分词模型的训练方法。可选地,上述分词模型的训练方法可以但不限于应用于如图3所示的应用环境中。如图3所示,终端设备102或服务器104使用不带分词标注的第一语种的第一语料集合和不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,其中,上述预训练模型用于对上述第一语种和上述第二语种进行建模;使用带分词标注的上述第一语种的第三语料集合对上述预训练模型进行优化训练,得到分词模型,其中,上述分词模型具备对上述第一语种的句子进行分词的能力;使用带分词标注的上述第二语种的第四语料集合对上述分词模型进行优化训练,得到目标分词模型,其中,上述目标分词模型具备对上述第二语种的句子进行分词的能力,上述第一语料集合、上述第二语料集合和上述第三语料集合中的语料的数量均大于上述第四语料集合中的语料的数量。以上仅为一种示例,本申请实施例在此不作限定。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
可选地,上述方法可以应用于人工智能的自然语言处理技术、机器学习/深度学习中,如对普通话、粤语等方言进行分词的场景中,本实施例在此不作任何限定。
需要说明的是,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
可选地,在本实施例中,上述终端设备可以是配置有目标客户端的终端设备,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述只是一种示例,本实施例对此不做任何限定。
可选地,在本实施例中,作为一种可选的实施方式,该方法可以由服务器执行,也可以由终端设备执行,或者由服务器和终端设备共同执行,本实施例中,以由服务器(例如,上述服务器104)执行为例进行说明。如图4所示,上述分词模型的训练方法的流程可以包括步骤:
步骤S202,使用不带分词标注的第一语种的第一语料集合和不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,其中,上述预训练模型用于对上述第一语种和上述第二语种进行建模。
可选地,上述第一语种可以为中文普通话,上述第二语种可以为粤语等方言。
通过利用大规模的第一语料集合(中文普通话未标注语料)和第二语料集合(粤语未标注语料)对待训练分词模型进行跨语言预训练,得到预训练模型,使得预训练模型能够同时对中文普通话和粤语进行建模。
步骤S204,使用带分词标注的上述第一语种的第三语料集合对上述预训练模型进行优化训练,得到分词模型,其中,上述分词模型具备对上述第一语种的句子进行分词的能力。
可选地,在上述预训练模型的基础上,通过大规模第一语种的第三语料集合(中文普通话带分词标注语料)对预训练模型进行优化训练,得到分词模型,使得分词模型具备对第一语种(如中文普通话)的分词能力。
步骤S206,使用带分词标注的上述第二语种的第四语料集合对上述分词模型进行优化训练,得到目标分词模型,其中,上述目标分词模型具备对上述第二语种的句子进行分词的能力,上述第一语料集合、上述第二语料集合和上述第三语料集合中的语料的数量均大于上述第四语料集合中的语料的数量。
可选地,在上述分词模型的基础上,通过少量的第二语种的第四语料集合(粤语带分词标注语料)对分词模型进行进一步迭代优化训练,使得分词模型将第一语种(中文普通话)的分词能力泛化到第二语种(粤语)的分词任务上,从而得到目标分词模型,使得目标分词模型具备高准确度的对第二语种(粤语)的分词能力。
通过本实施例,首先,使用不带分词标注的第一语种的第一语料集合、以及不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,其中,预训练模型用于对第一语种和第二语种进行建模,然后,使用带分词标注的第一语种的第三语料集合对上述预训练模型进行优化训练,得到分词模型,使得分词模型具备对第一语种的句子进行分词的能力,最后使用带分词标注的上述第二语种的第四语料集合对上述分词模型进行优化训练,得到目标分词模型,使得目标分词模型具备对上述第二语种的句子进行分词的能力,其中,上述第一语料集合、上述第二语料集合和上述第三语料集合中的语料的数量均大于上述第四语料集合中的语料的数量。通过上述方式,首先通过大量不带分词标注的第一语种和第二语种的语料对待训练分词模型进行跨语种预训练,得到预训练模型,然后通过带分词标注的第一语种的语料进行优化训练,得到分词模型,进一步通过少量带分词标注的第二语种的语料进行优化训练,可以得到目标分词模型,在第二语种为粤语等方言的情况下,能够使目标分词模型获得对粤语等方言的分词能力,解决了针对工业界没有可以直接使用的粤语等方言的分词系统的问题。
可选地,在本实施例中,上述使用不带分词标注的第一语种的第一语料集合和不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,包括:重复执行以下步骤,直到结束对上述待训练分词模型进行跨语种预训练,其中,上述待训练分词模型中具有N层编码器,i的初始值为1,上述N为大于0的自然数:通过上述待训练分词模型中的第i层编码器的多个自注意力网络对第一字符向量进行编码,得到多个第一编码向量,并将上述多个第一编码向量进行拼接,得到第一拼接向量,其中,上述第一字符向量为第一文本对应的字符向量,上述第一文本为从上述第一语料集合和上述第二语料集合中未输入至上述待训练分词模型的文本中选择的一个文本,上述第一文本包括一个或至少两个字符;通过上述第i层编码器的前向连接层对上述第一拼接向量进行编码,得到第二编码向量,并对上述第i层编码器的预设参数进行更新;在上述i小于上述N的情况下,将上述第二编码向量输入至上述待训练分词模型中的上述第i+1层编码器中,并将i更新为i+1;在上述i等于上述N、且上述第一语料集合和上述第二语料集合中存在未输入至上述待训练分词模型的文本情况下,从上述第一语料集合和上述第二语料集合中未输入至上述待训练分词模型的文本中选择一个文本作为上述第一文本,并将i更新为1;在上述i等于上述N、且上述第一语料集合和上述第二语料集合中的文本均已输入至上述待训练分词模型的情况下,结束对上述待训练分词模型进行跨语种预训练,并将结束时的上述待训练分词模型确定为上述预训练模型。
可选地,上述待训练分词模型具有编码器,该编码器可以由N(可以由经验值设定,如设定为8个相同的编码器层堆叠而成,该N值还可以根据语料规模进行调整。也就是说,待训练分词模型具有N层编码器,对于上述N层编码器中的每层编码器来说,每层编码器层都可以由自注意力层(Self-attention Layer)和前向连接层(Feed-forward Layer)组合而成。
需要说明的是,可以按照以下步骤得到上述预训练模型:
重复执行以下步骤,直到结束对上述待训练分词模型进行跨语种预训练,其中,上述待训练分词模型中具有N(如8)层编码器,i的初始值为1,上述N为大于0的自然数:
首先,从上述第一语料集合和上述第二语料集合中选择一个未输入至上述待训练分词模型的中的一个文本,该文本为第一文本,该第一文本包括一个或至少两个字符,然后将该第一文本输入至待训练分词模型,并通过上述待训练分词模型中的第1层编码器的多个自注意力网络开始对第一字符向量进行编码,得到多个第一编码向量,并将上述多个第一编码向量进行拼接,得到第一拼接向量;
然后,通过第1(i)层编码器的前向连接层对上述第一拼接向量进行编码,得到第二编码向量,并对第1(i)层编码器的预设参数进行更新;然后,将第1(i)层编码器的输出结果即第二编码向量输入到第2(i+1)层编码器中,继续按照第1(i)层编码器的方式对第二编码向量进行处理。
直到上述i等于上述N(如8)、并且上述第一语料集合和上述第二语料集合中存在未输入至上述待训练分词模型的文本情况下,再次从上述第一语料集合和上述第二语料集合中未输入至上述待训练分词模型的文本中选择一个文本作为上述第一文本,并将i更新为1;
在上述i(如8)等于上述N、且上述第一语料集合和上述第二语料集合中的文本均已输入至上述待训练分词模型的情况下,结束对上述待训练分词模型进行跨语种预训练,并将结束时的上述待训练分词模型确定为上述预训练模型。
通过本实施例,通过N个堆叠的编码器对第一语料集合和第二语料集合进行编码,能够使结束训练得到的预训练模型更加准确的完成对第一语种的语料和第二语种的语料的学习,提高了预训练模型的准确率。
可选地,在本实施例中,上述将上述多个第一编码向量进行拼接,得到第一拼接向量,包括:通过以下公式确定上述第一拼接向量:
Figure 898360DEST_PATH_IMAGE001
,其中,
Figure 278657DEST_PATH_IMAGE002
Figure 108072DEST_PATH_IMAGE003
,其中,上述
Figure 760771DEST_PATH_IMAGE004
为上述多个第一编码向量中的第j个第一编码向量,上述
Figure 724047DEST_PATH_IMAGE005
为上述第一拼接向量,上述
Figure 83485DEST_PATH_IMAGE006
为上述第一字符向量,上述
Figure 221817DEST_PATH_IMAGE007
分别为上述Q,K,V对应的映射向量,上述
Figure 299495DEST_PATH_IMAGE008
表示上述多个第一编码向量中的一个编码向量的维度,上述
Figure 66463DEST_PATH_IMAGE009
为上述多个自注意力网络中第j个自注意力网络的参数,
Figure 280406DEST_PATH_IMAGE010
为归一化指数函数。
可选地,可以通过以下公式确定上述第一拼接向量:
Figure 592570DEST_PATH_IMAGE011
其中,
Figure 954281DEST_PATH_IMAGE002
A
Figure 134727DEST_PATH_IMAGE012
其中,上述
Figure 593390DEST_PATH_IMAGE004
为上述多个第一编码向量中的第j个第一编码向量,上述
Figure 201089DEST_PATH_IMAGE005
为上述第一拼接向量,其中,Concat表示分别将多个注意力网络计算的结果进行拼接,得到上述第一拼接向量,上述
Figure 863145DEST_PATH_IMAGE006
为上述第一字符向量(或者Q,K,V还可以理解为分别是多个自注意力网络的Query,Key,Value),上述
Figure 581703DEST_PATH_IMAGE007
分别为上述Q,K,V对应的映射向量,上述
Figure 160452DEST_PATH_IMAGE008
表示上述多个第一编码向量中的一个编码向量的维度,上述
Figure 939052DEST_PATH_IMAGE009
为上述多个自注意力网络中第j个自注意力网络的参数。
其中,Softmax()函数为一种归一化指数函数,例如,对一个三分类问题的预测结果为-3、1.5、2.7,通过Softmax()函数可以将预测结果转换为概率,得到-3、1.5、2.7对应的概率分别为0.0026、0.2308、0.7666。可理解,上述仅为一种示例,本实施例对此不作具体限定。
可选地,在本实施例中,上述对上述第i层编码器的预设参数进行更新,包括:对上述第i层编码器的上述多个自注意力网络的上述
Figure 275355DEST_PATH_IMAGE009
进行更新,其中,上述预设参数包括上述
Figure 672970DEST_PATH_IMAGE009
可选地,上述第i层编码器可以具有多个自注意力网络,在更新第i层编码器的预设参数时,可以对该多个自注意力网络中的第j个自注意力网络的参数即
Figure 981591DEST_PATH_IMAGE009
进行更新。
可选地,在本实施例中,上述第i层编码器的上述多个自注意力网络中的每个自注意力网络的上述
Figure 55726DEST_PATH_IMAGE009
均不同。
可选地,由于第i层编码器可以包括多个自注意力网络,对于每个自注意力网络的上述
Figure 817009DEST_PATH_IMAGE009
来说,
Figure 15385DEST_PATH_IMAGE009
的值可以不同,或者,
Figure 912934DEST_PATH_IMAGE009
的值可以相同,或者,
Figure 157970DEST_PATH_IMAGE009
的值可以部分相同。可理解,以上仅为一种示例,本实施例在此不作任何限定。
可选地,在本实施例中,上述通过上述第i层编码器的前向连接层对上述第一拼接向量进行编码,得到第二编码向量,包括:通过以下公式确定上述第二编码向量:
Figure 672128DEST_PATH_IMAGE013
,其中,上述
Figure 332916DEST_PATH_IMAGE014
表示上述第二编码向量,上述x为上述第一拼接向量,上述W1、W2、b1、b2为上述前向连接层的参数。
可选地,在通过上述步骤得到第一拼接向量之火,还可以通过第i层编码器的前向连接层对上述第一拼接向量进行编码,得到第二编码向量,具体过程如下:
可以通过以下公式来确定第二编码向量:
Figure 225917DEST_PATH_IMAGE015
其中,上述
Figure 517221DEST_PATH_IMAGE014
表示上述第二编码向量,上述x为上述第一拼接向量,上述W1、W2、b1、b2为上述前向连接层的参数。其中,上述预设参数包括W1、W2、b1、b2
可选地,在本实施例中,上述对上述第i层编码器的预设参数进行更新,包括:对上述第i层编码器的上述前向连接层的上述W1、W2、b1、b2进行更新,其中,上述预设参数包括上述W1、W2、b1、b2
可选地,在对第i层编码器的预设参数进行更新时,需要对第i层编码器的上述前向连接层的上述W1、W2、b1、b2同时进行更新,其中,上述预设参数包括上述W1、W2、b1、b2
可选地,在本实施例中,上述N层编码器的每一层编码器的上述前向连接层的上述W1、W2、b1、b2均不同。
可选地,对于预训练模型、分词模型以及目标分词模型来说,均具有N层编码器,每层编码器都包括前向连接层,并且该N层编码器中任意两层编码器的前向连接层的参数W1、W2、b1、b2均可以不同,或者,部分相同,或者,全部相同。可理解,上述仅为一种示例,本实施例在此不作任何限定。
可选地,在本实施例中,上述使用带分词标注的上述第一语种的第三语料集合对上述预训练模型进行优化训练,得到分词模型,包括:将上述第三语料集合输入至上述预训练模型;对上述预训练模型进行优化,以调整上述预训练模型的目标参数,其中,上述目标参数包括每一层编码器的上述预设参数;重复执行以下步骤:将第二文本输入至上述待训练分词模型的CRF网络中,通过上述CRF网络对上述第二文本进行处理,得到上述第二文本中每个字符的第一分词标签,在上述第三语料集合中的文本均已输入至上述CRF网络的情况下,结束对上述预训练模型的优化,并将结束时的上述预训练模型确定为上述分词模型,其中,上述第一分词标签用于标记上述第二文本中的分词,上述第二文本为从上述第三语料集合中未输入至上述CRF网络的文本中选择的一个文本,上述第二文本包括一个或至少两个字符。
可选地,待训练分词模型还可以包括CRF网络。CRF网络在编码器抽象得到的第二文本对应的句子信息的基础上进行CRF训练,CRF网络通过维特比(Viterbi algorrithm)搜索算法,能够更加精确的预测第二文本中每个分词的分词标签。
可选地,在完成对待训练分词模型的跨语种预训练,得到预训练模型之后,需要对预训练模型进行进一步的优化训练,具体过程如下:
首先,将上述第三语料集合(如100万带分词标注的中文普通话语料)输入至上述预训练模型,对上述预训练模型进行优化,以调整上述预训练模型的目标参数,其中,上述目标参数包括每一层上述编码器的上述预设参数。
然后,重复执行以下步骤:将第二文本输入至上述待训练分词模型的CRF网络中(可以连接在预训练模型之后),通过上述CRF网络对上述第二文本进行处理,得到上述第二文本中每个字符的第一分词标签,在上述第三语料集合中的文本均已输入至上述CRF网络的情况下,结束对上述预训练模型的优化,并将结束时的上述预训练模型确定为上述分词模型,其中,上述第一分词标签用于标记上述第二文本中的分词,上述第二文本为从上述第三语料集合中未输入至上述CRF网络的文本中选择的一个文本,上述第二文本包括一个或至少两个字符。
需要说明的是,通过上述过程得到分词模型具备对第一语种(如中文普通话)的分词能力。
通过本实施例,通过带分词标注的第一语种的第三语料集合对预训练模型进行优化训练,可以使分词模型具备对第一语种的分词能力,提高了模型的分词能力。
可选地,在本实施例中,上述使用带分词标注的上述第二语种的第四语料集合对上述分词模型进行优化训练,得到目标分词模型,包括:将上述第四语料集合输入至上述分词模型;对上述分词模型进行优化,以调整上述分词模型的目标参数,其中,上述目标参数包括每一层编码器的上述预设参数;重复执行以下步骤:将第三文本输入至上述分词模型的CRF网络中,通过上述CRF网络对上述第三文本进行处理,得到上述第三文本中每个字符的第二分词标签,在上述第四语料集合中的文本均已输入至上述CRF网络的情况下,结束对上述分词模型的优化,并将结束时的上述分词模型确定为上述目标分词模型,其中,上述第二分词标签用于标记上述第三文本中的分词,上述第三文本为从上述第四语料集合中未输入至上述CRF网络的文本中选择的一个文本,上述第三文本包括一个或至少两个字符。
可选地,在完成对预训练模型的优化训练,得到分词模型之后,需要对分词模型进行进一步的优化训练,具体过程如下:
首先,将上述第四语料集合(如人工标注的2万带标注的粤语分词语料)输入至上述分词模型,对上述分词模型进行优化,以调整上述分词模型的目标参数,其中,上述目标参数包括每一层上述编码器的上述预设参数。
然后,重复执行以下步骤:将第三文本输入至上述分词模型的CRF网络中,通过上述CRF网络对上述第三文本进行处理,得到上述第三文本中每个字符的第二分词标签,在上述第四语料集合中的文本均已输入至上述CRF网络的情况下,结束对上述分词模型的优化,并将结束时的上述分词模型确定为上述目标分词模型,其中,上述第二分词标签用于标记上述第三文本中的分词,上述第三文本为从上述第四语料集合中未输入至上述CRF网络的文本中选择的一个文本,上述第三文本包括一个或至少两个字符。
需要说明的是,通过上述过程能够将分词模型的分词能力泛化到目标分词模型上,使得目标分词模型具备对第二语种(如粤语)的分词能力。
需要说明的是,最终得到的目标分词模型具有N层编码器。
通过本实施例,通过带分词标注的第二语种的第四语料集合对分词模型进行优化训练,可以使得到的目标分词模型具备对第二语种的分词能力,提高了模型的分词能力。
可选地,在本实施例中,在使用带分词标注的上述第二语种的第四语料集合对上述分词模型进行优化训练,得到目标分词模型之后,上述方法还包括:将目标文本输入至上述目标分词模型;根据上述目标文本和上述目标文本的语种确定第二字符向量,其中,上述第二字符向量为上述目标文本对应的字符向量,上述目标文本包括一个或至少两个字符;重复执行以下步骤,直到得到上述目标分词模型的第N层编码器对上述第二字符向量进行编码后的第一目标编码向量,其中,上述目标分词模型中具有N层编码器,i的初始值为1,上述N为大于0的自然数:通过上述目标分词模型中的上述第i层编码器的上述多个自注意力网络对上述第二字符向量进行编码,得到多个第二目标编码向量,并将上述多个第二目标编码向量进行拼接,得到第二拼接向量;通过上述第i层编码器的上述前向连接层对上述第二拼接向量进行编码,得到第三目标编码向量;在上述i小于上述N的情况下,将上述第三目标编码向量输入至上述目标分词模型中的上述第i+1层编码器中,并将i更新为i+1;在上述i等于上述N的情况下,得到上述目标分词模型的第N层编码器对上述第二字符向量进行编码后的上述第一目标编码向量;将上述第一目标编码向量输入至上述目标分词模型的CRF网络中,通过上述CRF网络对上述第一目标编码向量进行处理,得到与上述第一目标编码向量中的每个字符的对应的第三分词标签,其中,上述第三分词标签用于标记上述目标文本中的分词。
可选地,通过上述对待训练分词模型的跨语种预训练、优化训练,可以得到最终的目标分词模型,此时,可以通过目标分词模型对非训练样本进行分词,首先,获取未分词且非训练样本的目标文本,然后将该目标文本输入至目标分词模型中。然后,根据目标文本和目标文本的语种来确定第二字符向量,其中,第二字符向量是目标文本对应的字符向量,上述目标文本包括一个或至少两个字符。
然后,重复执行以下步骤,直到得到通过目标分词模型的第N层编码器对目标文本对应的第二字符向量进行编码后的第一目标编码向量,设置i的初始值为1,通过上述目标分词模型中的上述第i(如1)层编码器的上述多个自注意力网络对上述第二字符向量进行编码,得到多个第二目标编码向量,并将上述多个第二目标编码向量进行拼接,得到第二拼接向量;通过上述第i(如1)层编码器的上述前向连接层对上述第二拼接向量进行编码,得到第三目标编码向量;在上述i(如1)小于上述N的情况下,将上述第三目标编码向量输入至上述目标分词模型中的上述第i+1(如2)层编码器中,并将i(如1)更新为i+1(如2);在上述i(如8)等于上述N(如8)的情况下,得到上述目标分词模型的第N层编码器对上述第二字符向量进行编码后的上述第一目标编码向量。此时,目标分词模型完成了对目标文本的编码过程。
最后,将第一目标编码向量输入至目标分词模型的CRF网络中,并通过CRF网络对第一目标编码向量进行进一步的处理,预测出第一目标编码向量中的每个字符的对应的第三分词标签,其中,该第三分词标签用于标记目标文本中的分词。
需要说明的是,在上述目标文本的语种为中文普通话时,上述目标分词模型可以实现对未知的中文普通话的分词,在上述目标文本为粤语时,上述目标分词模型也可以实现对未知的粤语的分词。
通过本实施例,实现了对目标文本的分词标签的确定,在目标文本是粤语时,能够实现对粤语的分词标签的确定,提高了目标分词模型确定分词标签的能力。
可选地,在本实施例中,上述第一语种为中文普通话,上述第二语种为粤语。
下面结合可选示例对分词模型的训练方法的流程进行说明。该方法具体如下上述:
如图5所示,为分词模型的训练流程图,主要包括以下三个步骤:
步骤S501,利用大规模的粤语和中文普通话未标注语料对分词模型进行跨语言预训练,使分词模型能够同时对中文普通话和粤语进行建模。具体过程如下:
需要说明的是,下述预训练过程可以采用500万中文普通话和粤语未标注语料进行预训练。
在一种可选的实施例中,如图6所示,为本发明实施例提供的一种待训练分词模型具体模型结构图,通过该模型可以实现对待训练分词模型(如粤语分词模型)的预训练过程。
在图6所示的网络结构中,第一部分是模型输入层(Input)。通过该模型输入层(Input)输入句子,然后基于字符进行建模,将输入的句子看成一个字符序列,可以限定字符序列的最大长度为512。
在图6所示的网络结构中,第二部分是语种向量层(Language Embedding)。采用跨语言预训练的方法,涉及到粤语和中文普通话两个语种,该语种向量层包含表示两个语种的向量,如设置粤语语种为1,中文普通话语种为0。每个向量维度设为512,还可以设置语种向量层的权重参数尺寸为[2,512]。
在图6所示的网络结构中,第三部分是字符向量层(Token Embedding)。字符向量层能够将输入字符转化成对应的向量,向量维度设为512。
在图6所示的网络结构中,第四部分是模型的编码器,该编码器由N(经验值设定)个相同的编码器层堆叠而成,N可以根据语料规模进行调整。编码器层由自注意力层(Self-attention Layer)和前向连接层(Feed-forward Layer)组合而成。自注意力层采用多头自注意力网络对输入信息(如上述第一文本)进行编码,得到多个第一编码向量,多头自注意力网络计算公式为:
Figure 377730DEST_PATH_IMAGE016
Figure 45472DEST_PATH_IMAGE017
(1)
在上述公式(1)中,上述
Figure 714350DEST_PATH_IMAGE004
为上述多个第一编码向量中的第j个第一编码向量,Q,K,V分别是多头自注意力网络的Query,Key,Value。在本发明中,Q,K,V均等于上一个编码器层的输出。
Figure 317501DEST_PATH_IMAGE007
分别是针对Q,K,V的映射向量。上述Concat表示分别将多个注意力网络计算的结果进行拼接,得到最终的计算结果(如上述第一拼接向量),上述
Figure 540672DEST_PATH_IMAGE005
为上述第一拼接向量。其中,Attention表示单头注意力网络(上述多个自注意力网络中的一个网络),其计算公式为:
Figure 871159DEST_PATH_IMAGE003
(2)
在公式(2)中,Q,K,V是单头自注意力网络的Query,Key,Value。上述
Figure 863386DEST_PATH_IMAGE008
表示上述多个第一编码向量中的一个编码向量的维度,上述
Figure 371859DEST_PATH_IMAGE009
为上述多个自注意力网络中第j个自注意力网络的参数,
Figure 816747DEST_PATH_IMAGE010
为归一化指数函数。
编码器层除了自注意力网络以外,还包含一个前向连接层。前向连接层由两个带有ReLU激活函数的线性变换级联而成,计算公式为:
Figure 950925DEST_PATH_IMAGE015
通过前向连接层对上述第一拼接向量进行编码,得到第二编码向量,其中,上述
Figure 859975DEST_PATH_IMAGE014
表示上述第二编码向量,上述x为上述第一拼接向量,上述W1、W2、b1、b2为上述前向连接层的参数。
公式中描述的前向连接层在实际实现中也可以用两个核为1等CNN网络级联而成。
步骤S502,在大规模中文普通话带分词标注语料上进行优化训练,使得模型具备中文普通话的分词能力。
可选地,在按照步骤S501对待训练分词模型的预训练结束,得到了预训练模型的情况下,需要进一步对预训练模型进行优化训练。
需要说明的是,下述优化训练过程可以采用100万带分词标注的中文普通话语料进行优化训练。
在一种可选的实施例中,按照如图6所示的网络结构对预训练模型进行进一步的优化训练,使预训练模型的参数更加精确。
具体地,使用大规模中文普通话带分词标注语料输入至该预训练模型中,并进行优化训练,调整预训练模型中的参数。
然后,在图6所示的网络结构中,第五部分是一个CRF网络层。CRF网络在编码器抽象得到的100万带分词标注的中文普通话语料中的每个第二文本的句子信息进行CRF训练。CRF通过Viterbi搜索算法,能够更加精确的预测每个第二文本每个字符的分词标签,使得预训练模型具备中文普通话的分词能力,得到分词模型。
步骤S503,在少量的带分词标注的粤语语料上进行进一步迭优化,使得模型将中文普通话的分词能力泛化到粤语分词任务上,实现高准确度的粤语分词。
需要说明的是,下述优化训练过程可以采用人工标注的2万带标注的粤语分词语料进行迭代优化。
在一种可选的实施例中,按照如图6所示的网络结构对分词模型进行进一步的优化训练,使分词模型的参数更加精确。
具体地,使用少量的带分词标注的粤语语料输入至该分词模型中,并进行优化训练,调整分词模型中的参数。
然后,在图6所示的网络结构中,第五部分是一个CRF网络层。CRF网络在编码器抽象得到的2万带标注的粤语分词语料中的每个第三文本的句子信息进行CRF训练。CRF通过Viterbi搜索算法,能够更加精确的预测每个第三文本每个字符的分词标签,将分词模型的中文普通话的分词能力泛化到粤语分词上,得到最终的目标分词模型。
举例来说,通过上述目标分词模型,当输入一个句子:我 是 中国 人,可以得到该句子的分词标签结果为:O O B/LOC I/LOC O。可理解,以上仅为一种示例,本实施例在此不作任何限定。
在一种可选的实施例中,可以按照以下方式对目标分词模型进行评价,如采用F1值作为最终评价指标,测试结果如表1所示。在表1中,baseline_1为只用中文普通话标注语料进行优化调整的测试结果,baseline_2为在分词系统中加入人工标注的粤语词典的测试结果。从表1的测试结果中可以看出,本发明提出的基于跨语言预训练的分词模型取得了比baseline_1和baseline_2系统更好的性能。
在一种可能的实施方式中,上述
Figure 663983DEST_PATH_IMAGE018
,精确率可以理解为在被所有预测为正的样本中实际为正样本的概率,召回率可以理解为在实际为正的样本中被预测为正样本的概率。
表1
[00130] 测试系统 [00131] F1
[00132] baseline_1 [00133] 80
[00134] baseline_2 [00135] 87
[00136] baseline_1+粤语分词标注语料优化 [00137] 90
需要说明的是,上述方法可用于任何基于神经网络的粤语分词模型中。尤其是在没有大规模粤语标注语料的情况下能够快速上线一个高准确率的粤语分词工具。
通过本实施例,本发明提出的基于跨语言预训练的粤语分词算法能够在不依赖于大规模粤语分词标注语料的情况下,实现高准确度的粤语分词;由于分词是自然语言处理领域最基础最核心的模块之一,因此,本发明的技术方案能够应用于所有需要进行粤语分词的自然语言处理的任务中,提高了对粤语分词的能力。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的又一方面,还提供了一种分词模型的训练装置,如图7所示,该装置包括:
第一训练单元702,用于使用不带分词标注的第一语种的第一语料集合和不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,其中,上述预训练模型用于对上述第一语种和上述第二语种进行建模;
第二训练单元704,用于使用带分词标注的上述第一语种的第三语料集合对上述预训练模型进行优化训练,得到分词模型,其中,上述分词模型具备对上述第一语种的句子进行分词的能力;
第三训练单元706,用于使用带分词标注的上述第二语种的第四语料集合对上述分词模型进行优化训练,得到目标分词模型,其中,上述目标分词模型具备对上述第二语种的句子进行分词的能力,上述第一语料集合、上述第二语料集合和上述第三语料集合中的语料的数量均大于上述第四语料集合中的语料的数量。
通过本实施例,首先,使用不带分词标注的第一语种的第一语料集合、以及不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,其中,预训练模型用于对第一语种和第二语种进行建模,然后,使用带分词标注的第一语种的第三语料集合对上述预训练模型进行优化训练,得到分词模型,使得分词模型具备对第一语种的句子进行分词的能力,最后使用带分词标注的上述第二语种的第四语料集合对上述分词模型进行优化训练,得到目标分词模型,使得目标分词模型具备对上述第二语种的句子进行分词的能力,其中,上述第一语料集合、上述第二语料集合和上述第三语料集合中的语料的数量均大于上述第四语料集合中的语料的数量。通过上述方式,首先通过大量不带分词标注的第一语种和第二语种的语料对待训练分词模型进行跨语种预训练,得到预训练模型,然后通过带分词标注的第一语种的语料进行优化训练,得到分词模型,进一步通过少量带分词标注的第二语种的语料进行优化训练,可以得到目标分词模型,在第二语种为粤语等方言的情况下,能够使目标分词模型获得对粤语等方言的分词能力,解决了针对工业界没有可以直接使用的粤语等方言的分词系统的问题。
作为一种可选的技术方案,上述第一训练单元,包括:
第一处理模块,用于重复执行以下步骤,直到结束对上述待训练分词模型进行跨语种预训练,其中,上述待训练分词模型中具有N层编码器,i的初始值为1,上述N为大于0的自然数:
通过上述待训练分词模型中的第i层编码器的多个自注意力网络对第一字符向量进行编码,得到多个第一编码向量,并将上述多个第一编码向量进行拼接,得到第一拼接向量,其中,上述第一字符向量为第一文本对应的字符向量,上述第一文本为从上述第一语料集合和上述第二语料集合中未输入至上述待训练分词模型的文本中选择的一个文本,上述第一文本包括一个或至少两个字符;
第二处理模块,用于通过上述第i层编码器的前向连接层对上述第一拼接向量进行编码,得到第二编码向量,并对上述第i层编码器的预设参数进行更新;
第一输入模块,用于在上述i小于上述N的情况下,将上述第二编码向量输入至上述待训练分词模型中的上述第i+1层编码器中,并将i更新为i+1;
选择模块,用于在上述i等于上述N、且上述第一语料集合和上述第二语料集合中存在未输入至上述待训练分词模型的文本情况下,从上述第一语料集合和上述第二语料集合中未输入至上述待训练分词模型的文本中选择一个文本作为上述第一文本,并将i更新为1;
第三处理模块,用于在上述i等于上述N、且上述第一语料集合和上述第二语料集合中的文本均已输入至上述待训练分词模型的情况下,结束对上述待训练分词模型进行跨语种预训练,并将结束时的上述待训练分词模型确定为上述预训练模型。
作为一种可选的技术方案,上述第一处理模块,还用于通过以下公式确定上述第一拼接向量:
Figure 570120DEST_PATH_IMAGE019
Figure 852197DEST_PATH_IMAGE020
Figure 943650DEST_PATH_IMAGE021
其中,上述
Figure 918559DEST_PATH_IMAGE004
为上述多个第一编码向量中的第j个第一编码向量,上述
Figure 400356DEST_PATH_IMAGE005
为上述第一拼接向量,上述
Figure 627069DEST_PATH_IMAGE006
为上述第一字符向量,上述
Figure 448394DEST_PATH_IMAGE007
分别为上述Q,K,V对应的映射向量,上述
Figure 984418DEST_PATH_IMAGE008
表示上述多个第一编码向量中的一个编码向量的维度,上述
Figure 625615DEST_PATH_IMAGE009
为上述多个自注意力网络中第j个自注意力网络的参数,
Figure 390440DEST_PATH_IMAGE010
为归一化指数函数。
作为一种可选的技术方案,上述第二处理模块,还用于对上述第i层编码器的上述多个自注意力网络的上述
Figure 128589DEST_PATH_IMAGE009
进行更新,其中,上述预设参数包括上述
Figure 445300DEST_PATH_IMAGE009
作为一种可选的技术方案,上述第i层编码器的上述多个自注意力网络中的每个自注意力网络的上述
Figure 964006DEST_PATH_IMAGE009
均不同。
作为一种可选的技术方案,上述第二处理模块,还用于通过以下公式确定上述第二编码向量:
Figure 391577DEST_PATH_IMAGE015
其中,上述
Figure 62861DEST_PATH_IMAGE014
表示上述第二编码向量,上述x为上述第一拼接向量,上述W1、W2、b1、b2为上述前向连接层的参数。
作为一种可选的技术方案,上述第二处理模块,还用于对上述第i层编码器的上述前向连接层的上述W1、W2、b1、b2进行更新,其中,上述预设参数包括上述W1、W2、b1、b2
作为一种可选的技术方案,上述N层编码器的每一层编码器的上述前向连接层的上述W1、W2、b1、b2均不同。
作为一种可选的技术方案,上述第二训练单元,包括:
第二输入模块,用于将上述第三语料集合输入至上述预训练模型;
第一优化模块,用于对上述预训练模型进行优化,以调整上述预训练模型的目标参数,其中,上述目标参数包括每一层编码器的上述预设参数;
第四处理模块,用于重复执行以下步骤:将第二文本输入至上述待训练分词模型的CRF网络中,通过上述CRF网络对上述第二文本进行处理,得到上述第二文本中每个字符的第一分词标签,在上述第三语料集合中的文本均已输入至上述CRF网络的情况下,结束对上述预训练模型的优化,并将结束时的上述预训练模型确定为上述分词模型,其中,上述第一分词标签用于标记上述第二文本中的分词,上述第二文本为从上述第三语料集合中未输入至上述CRF网络的文本中选择的一个文本,上述第二文本包括一个或至少两个字符。
作为一种可选的技术方案,上述第三训练单元,包括:
第三输入模块,用于将上述第四语料集合输入至上述分词模型;
第二优化模块,用于对上述分词模型进行优化,以调整上述分词模型的目标参数,其中,上述目标参数包括每一层编码器的上述预设参数;
第五处理模块,用于重复执行以下步骤:将第三文本输入至上述分词模型的CRF网络中,通过上述CRF网络对上述第三文本进行处理,得到上述第三文本中每个字符的第二分词标签,在上述第四语料集合中的文本均已输入至上述CRF网络的情况下,结束对上述分词模型的优化,并将结束时的上述分词模型确定为上述目标分词模型,其中,上述第二分词标签用于标记上述第三文本中的分词,上述第三文本为从上述第四语料集合中未输入至上述CRF网络的文本中选择的一个文本,上述第三文本包括一个或至少两个字符。
作为一种可选的技术方案,上述装置还包括:
第一确定单元,用于将目标文本输入至上述目标分词模型;根据上述目标文本和上述目标文本的语种确定第二字符向量,其中,上述第二字符向量为上述目标文本对应的字符向量,上述目标文本包括一个或至少两个字符;
第一处理单元,用于重复执行以下步骤,直到得到上述目标分词模型的第N层编码器对上述第二字符向量进行编码后的第一目标编码向量,其中,上述目标分词模型中具有N层编码器,i的初始值为1,上述N为大于0的自然数:通过上述目标分词模型中的上述第i层编码器的上述多个自注意力网络对上述第二字符向量进行编码,得到多个第二目标编码向量,并将上述多个第二目标编码向量进行拼接,得到第二拼接向量;通过上述第i层编码器的上述前向连接层对上述第二拼接向量进行编码,得到第三目标编码向量;在上述i小于上述N的情况下,将上述第三目标编码向量输入至上述目标分词模型中的上述第i+1层编码器中,并将i更新为i+1;在上述i等于上述N的情况下,得到上述目标分词模型的第N层编码器对上述第二字符向量进行编码后的上述第一目标编码向量;
第二处理单元,用于将上述第一目标编码向量输入至上述目标分词模型的CRF网络中,通过上述CRF网络对上述第一目标编码向量进行处理,得到与上述第一目标编码向量中的每个字符的对应的第三分词标签,其中,上述第三分词标签用于标记上述目标文本中的分词。
作为一种可选的技术方案,上述第一语种为中文普通话,上述第二语种为粤语。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,使用不带分词标注的第一语种的第一语料集合和不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,其中,上述预训练模型用于对上述第一语种和上述第二语种进行建模;
S2,使用带分词标注的上述第一语种的第三语料集合对上述预训练模型进行优化训练,得到分词模型,其中,上述分词模型具备对上述第一语种的句子进行分词的能力;
S3,使用带分词标注的上述第二语种的第四语料集合对上述分词模型进行优化训练,得到目标分词模型,其中,上述目标分词模型具备对上述第二语种的句子进行分词的能力,上述第一语料集合、上述第二语料集合和上述第三语料集合中的语料的数量均大于上述第四语料集合中的语料的数量。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来命令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取器)、磁盘或光盘等。
根据本发明实施例的又一个方面,还提供了一种用于实施上述分词模型的训练方法的电子设备,该电子设备可以是图3所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图8所示,该电子设备包括存储器802和处理器804,该存储器802中存储有计算机程序,该处理器804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,使用不带分词标注的第一语种的第一语料集合和不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,其中,上述预训练模型用于对上述第一语种和上述第二语种进行建模;
S2,使用带分词标注的上述第一语种的第三语料集合对上述预训练模型进行优化训练,得到分词模型,其中,上述分词模型具备对上述第一语种的句子进行分词的能力;
S3,使用带分词标注的上述第二语种的第四语料集合对上述分词模型进行优化训练,得到目标分词模型,其中,上述目标分词模型具备对上述第二语种的句子进行分词的能力,上述第一语料集合、上述第二语料集合和上述第三语料集合中的语料的数量均大于上述第四语料集合中的语料的数量。
可选地,本领域普通技术人员可以理解,图8所示的结构仅为示意,其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图8中所示更多或者更少的组件(如网络接口等),或者具有与图8所示不同的配置。
其中,存储器802可用于存储软件程序以及模块,如本发明实施例中的分词模型的训练方法和装置对应的程序命令/模块,处理器804通过运行存储在存储器802内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的分词模型的训练方法。存储器802可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器802可进一步包括相对于处理器804远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例,如图8所示,上述存储器802中可以但不限于包括上述分词模型的训练装置中的第一训练单元702,第二训练单元704、第三训练单元706。此外,还可以包括但不限于上述分词模型的训练装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置806包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置806为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:连接总线808,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来命令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干命令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上上述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种分词模型的训练方法,其特征在于,包括:
使用不带分词标注的第一语种的第一语料集合和不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,其中,所述预训练模型用于对所述第一语种和所述第二语种进行建模;
使用带分词标注的所述第一语种的第三语料集合对所述预训练模型进行优化训练,得到分词模型,其中,所述分词模型具备对所述第一语种的句子进行分词的能力;
使用带分词标注的所述第二语种的第四语料集合对所述分词模型进行优化训练,得到目标分词模型,其中,所述目标分词模型具备对所述第二语种的句子进行分词的能力,所述第一语料集合、所述第二语料集合和所述第三语料集合中的语料的数量均大于所述第四语料集合中的语料的数量。
2.根据权利要求1所述的方法,其特征在于,所述使用不带分词标注的第一语种的第一语料集合和不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,包括:
重复执行以下步骤,直到结束对所述待训练分词模型进行跨语种预训练,其中,所述待训练分词模型中具有N层编码器,i的初始值为1,所述N为大于0的自然数:
通过所述待训练分词模型中的第i层编码器的多个自注意力网络对第一字符向量进行编码,得到多个第一编码向量,并将所述多个第一编码向量进行拼接,得到第一拼接向量,其中,所述第一字符向量为第一文本对应的字符向量,所述第一文本为从所述第一语料集合和所述第二语料集合中未输入至所述待训练分词模型的文本中选择的一个文本,所述第一文本包括一个或至少两个字符;
通过所述第i层编码器的前向连接层对所述第一拼接向量进行编码,得到第二编码向量,并对所述第i层编码器的预设参数进行更新;
在所述i小于所述N的情况下,将所述第二编码向量输入至所述待训练分词模型中的第i+1层编码器中,并将i更新为i+1;
在所述i等于所述N、且所述第一语料集合和所述第二语料集合中存在未输入至所述待训练分词模型的文本情况下,从所述第一语料集合和所述第二语料集合中未输入至所述待训练分词模型的文本中选择一个文本作为所述第一文本,并将i更新为1;
在所述i等于所述N、且所述第一语料集合和所述第二语料集合中的文本均已输入至所述待训练分词模型的情况下,结束对所述待训练分词模型进行跨语种预训练,并将结束时的所述待训练分词模型确定为所述预训练模型。
3.根据权利要求2所述的方法,其特征在于,所述将所述多个第一编码向量进行拼接,得到第一拼接向量,包括:
通过以下公式确定所述第一拼接向量:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
其中,headj=Attention(QWQ j,KWK j,VWV j)
Figure DEST_PATH_IMAGE002
其中,所述headj为所述多个第一编码向量中的第j个第一编码向量,所述MultiHead(Q,K,V)为所述第一拼接向量,所述Q,K,V为所述第一字符向量,所述WQ j,WK j,WV j分别为所述Q,K,V对应的映射向量,所述
Figure DEST_PATH_IMAGE004
表示所述多个第一编码向量中的一个编码向量的维度,所述WQ j,WK j,WV j,WO为所述多个自注意力网络中第j个自注意力网络的参数,Softmax()为归一化指数函数。
4.根据权利要求3所述的方法,其特征在于,所述对所述第i层编码器的预设参数进行更新,包括:
对所述第i层编码器的所述多个自注意力网络的所述WQ j,WK j,WV j,WO进行更新,其中,所述预设参数包括所述WQ j,WK j,WV j,WO
5.根据权利要求4所述的方法,其特征在于,所述第i层编码器的所述多个自注意力网络中的每个自注意力网络的所述WQ j,WK j,WV j,WO均不同。
6.根据权利要求2所述的方法,其特征在于,所述通过所述第i层编码器的前向连接层对所述第一拼接向量进行编码,得到第二编码向量,包括:
通过以下公式确定所述第二编码向量:
FFN(x)=max(0,xW1+b1)W2+b2
其中,所述FFN(x)表示所述第二编码向量,所述x为所述第一拼接向量,所述W1、W2、b1、b2为所述前向连接层的参数。
7.根据权利要求6所述的方法,其特征在于,所述对所述第i层编码器的预设参数进行更新,包括:
对所述第i层编码器的所述前向连接层的所述W1、W2、b1、b2进行更新,其中,所述预设参数包括所述W1、W2、b1、b2
8.根据权利要求7所述的方法,其特征在于,所述N层编码器的每一层编码器的所述前向连接层的所述W1、W2、b1、b2均不同。
9.根据权利要求2至8中任一项所述的方法,其特征在于,所述使用带分词标注的所述第一语种的第三语料集合对所述预训练模型进行优化训练,得到分词模型,包括:
将所述第三语料集合输入至所述预训练模型;
对所述预训练模型进行优化,以调整所述预训练模型的目标参数,其中,所述目标参数包括每一层编码器的所述预设参数;
重复执行以下步骤:将第二文本输入至所述待训练分词模型的CRF网络中,通过所述CRF网络对所述第二文本进行处理,得到所述第二文本中每个字符的第一分词标签,在所述第三语料集合中的文本均已输入至所述CRF网络的情况下,结束对所述预训练模型的优化,并将结束时的所述预训练模型确定为所述分词模型,其中,所述第一分词标签用于标记所述第二文本中的分词,所述第二文本为从所述第三语料集合中未输入至所述CRF网络的文本中选择的一个文本,所述第二文本包括一个或至少两个字符。
10.根据权利要求2至8中任一项所述的方法,其特征在于,所述使用带分词标注的所述第二语种的第四语料集合对所述分词模型进行优化训练,得到目标分词模型,包括:
将所述第四语料集合输入至所述分词模型;
对所述分词模型进行优化,以调整所述分词模型的目标参数,其中,所述目标参数包括每一层编码器的所述预设参数;
重复执行以下步骤:将第三文本输入至所述分词模型的CRF网络中,通过所述CRF网络对所述第三文本进行处理,得到所述第三文本中每个字符的第二分词标签,在所述第四语料集合中的文本均已输入至所述CRF网络的情况下,结束对所述分词模型的优化,并将结束时的所述分词模型确定为所述目标分词模型,其中,所述第二分词标签用于标记所述第三文本中的分词,所述第三文本为从所述第四语料集合中未输入至所述CRF网络的文本中选择的一个文本,所述第三文本包括一个或至少两个字符。
11.根据权利要求2至8中任一项所述的方法,其特征在于,在使用带分词标注的所述第二语种的第四语料集合对所述分词模型进行优化训练,得到目标分词模型之后,所述方法还包括:
将目标文本输入至所述目标分词模型;根据所述目标文本和所述目标文本的语种确定第二字符向量,其中,所述第二字符向量为所述目标文本对应的字符向量,所述目标文本包括一个或至少两个字符;
重复执行以下步骤,直到得到所述目标分词模型的第N层编码器对所述第二字符向量进行编码后的第一目标编码向量,其中,所述目标分词模型中具有N层编码器,i的初始值为1,所述N为大于0的自然数:通过所述目标分词模型中的所述第i层编码器的所述多个自注意力网络对所述第二字符向量进行编码,得到多个第二目标编码向量,并将所述多个第二目标编码向量进行拼接,得到第二拼接向量;通过所述第i层编码器的所述前向连接层对所述第二拼接向量进行编码,得到第三目标编码向量;在所述i小于所述N的情况下,将所述第三目标编码向量输入至所述目标分词模型中的所述第i+1层编码器中,并将i更新为i+1;在所述i等于所述N的情况下,得到所述目标分词模型的第N层编码器对所述第二字符向量进行编码后的所述第一目标编码向量;
将所述第一目标编码向量输入至所述目标分词模型的CRF网络中,通过所述CRF网络对所述第一目标编码向量进行处理,得到与所述第一目标编码向量中的每个字符的对应的第三分词标签,其中,所述第三分词标签用于标记所述目标文本中的分词。
12.根据权利要求1至8中任一项所述的方法,其特征在于,所述第一语种为中文普通话,所述第二语种为粤语。
13.一种分词模型的训练装置,其特征在于,包括:
第一训练单元,用于使用不带分词标注的第一语种的第一语料集合和不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,其中,所述预训练模型用于对所述第一语种和所述第二语种进行建模;
第二训练单元,用于使用带分词标注的所述第一语种的第三语料集合对所述预训练模型进行优化训练,得到分词模型,其中,所述分词模型具备对所述第一语种的句子进行分词的能力;
第三训练单元,用于使用带分词标注的所述第二语种的第四语料集合对所述分词模型进行优化训练,得到目标分词模型,其中,所述目标分词模型具备对所述第二语种的句子进行分词的能力,所述第一语料集合、所述第二语料集合和所述第三语料集合中的语料的数量均大于所述第四语料集合中的语料的数量。
14.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至12任一项中所述的方法。
15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至12任一项中所述的方法。
CN202010472238.XA 2020-05-29 2020-05-29 分词模型的训练方法和装置、存储介质和电子设备 Active CN111382568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010472238.XA CN111382568B (zh) 2020-05-29 2020-05-29 分词模型的训练方法和装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010472238.XA CN111382568B (zh) 2020-05-29 2020-05-29 分词模型的训练方法和装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN111382568A CN111382568A (zh) 2020-07-07
CN111382568B true CN111382568B (zh) 2020-09-11

Family

ID=71222046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010472238.XA Active CN111382568B (zh) 2020-05-29 2020-05-29 分词模型的训练方法和装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN111382568B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749556B (zh) * 2020-08-04 2022-09-13 腾讯科技(深圳)有限公司 多语言模型的训练方法和装置、存储介质和电子设备
CN112765977B (zh) * 2021-01-11 2023-12-12 百果园技术(新加坡)有限公司 一种基于跨语言数据增强的分词方法及装置
CN113591475B (zh) * 2021-08-03 2023-07-21 美的集团(上海)有限公司 无监督可解释分词的方法、装置和电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10579940B2 (en) * 2016-08-18 2020-03-03 International Business Machines Corporation Joint embedding of corpus pairs for domain mapping
US10593321B2 (en) * 2017-12-15 2020-03-17 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for multi-lingual end-to-end speech recognition
CN108256561B (zh) * 2017-12-29 2020-06-16 中山大学 一种基于对抗学习的多源域适应迁移方法及系统
CN109446535A (zh) * 2018-10-22 2019-03-08 内蒙古工业大学 一种基于三角架构的蒙汉神经机器翻译方法
CN109753566B (zh) * 2019-01-09 2020-11-24 大连民族大学 基于卷积神经网络的跨领域情感分析的模型训练方法
CN110363122B (zh) * 2019-07-03 2022-10-11 昆明理工大学 一种基于多层特征对齐的跨域目标检测方法
CN110334187A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于迁移学习的缅语情感分析方法及装置
CN110377913B (zh) * 2019-07-24 2022-08-30 腾讯科技(深圳)有限公司 一种情感分析方法及其装置、电子设备和存储介质
CN110413736B (zh) * 2019-07-25 2022-02-25 百度在线网络技术(北京)有限公司 跨语言文本表示方法和装置
CN111178092B (zh) * 2019-12-20 2023-04-07 沈阳雅译网络技术有限公司 一种动态调整长度惩罚及译文长度的翻译模型优化方法

Also Published As

Publication number Publication date
CN111382568A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN108717574B (zh) 一种基于连词标记和强化学习的自然语言推理方法
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN111382568B (zh) 分词模型的训练方法和装置、存储介质和电子设备
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN111241295A (zh) 基于语义句法交互网络的知识图谱关系数据抽取方法
CN111008293A (zh) 基于结构化语义表示的视觉问答方法
CN116415654A (zh) 一种数据处理方法及相关设备
CN109684449B (zh) 一种基于注意力机制的自然语言语义表征方法
CN112257858A (zh) 一种模型压缩方法及装置
CN110232122A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN111143536A (zh) 基于人工智能的信息抽取方法及存储介质和相关装置
CN104699797B (zh) 一种网页数据结构化解析方法和装置
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN109284361A (zh) 一种基于深度学习的实体抽取方法及系统
CN114676234A (zh) 一种模型训练方法及相关设备
Mukherjee et al. Utilization of oversampling for multiclass sentiment analysis on amazon review dataset
CN110796160A (zh) 一种文本分类方法、装置和存储介质
CN113128232B (zh) 一种基于albert与多重词信息嵌入的命名实体识别方法
CN113901191A (zh) 问答模型的训练方法及装置
CN114881042A (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112328748A (zh) 一种用于保险配置意图识别的方法
Yao Attention-based BiLSTM neural networks for sentiment classification of short texts
CN113297374A (zh) 一种基于bert和字词特征融合的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025786

Country of ref document: HK