CN109800298B - 一种基于神经网络的中文分词模型的训练方法 - Google Patents

一种基于神经网络的中文分词模型的训练方法 Download PDF

Info

Publication number
CN109800298B
CN109800298B CN201910085499.3A CN201910085499A CN109800298B CN 109800298 B CN109800298 B CN 109800298B CN 201910085499 A CN201910085499 A CN 201910085499A CN 109800298 B CN109800298 B CN 109800298B
Authority
CN
China
Prior art keywords
word segmentation
text sentence
word
training
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910085499.3A
Other languages
English (en)
Other versions
CN109800298A (zh
Inventor
李正华
朱运
黄德朋
张民
陈文亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201910085499.3A priority Critical patent/CN109800298B/zh
Publication of CN109800298A publication Critical patent/CN109800298A/zh
Application granted granted Critical
Publication of CN109800298B publication Critical patent/CN109800298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于神经网络的中文分词模型的训练方法,为多种分词规范设置相应的语料特征向量,在获取多种分词规范的训练语料后,根据字的嵌入向量和语料特征向量确定字的向量表示,最后将文本句中各个字的向量表示输入中文分词模型,得到预测结果并据此调整模型参数,以完成训练。可见,该方法无需改变模型结构,只需在字的向量表示中增加相应的语料特征向量,并利用该向量表示对模型进行训练,不仅实现了扩充训练语料的目的,而且能够让模型学习不同分词规范之间的共性,从而达到提升单一分词规范下的分词性能的目的。此外,本发明还提供了一种基于神经网络的中文分词模型的训练装置、设备及计算机可读存储介质,其作用与上述方法相对应。

Description

一种基于神经网络的中文分词模型的训练方法
技术领域
本发明涉及自然语言处理领域,特别涉及一种基于神经网络的中文分词模型的训练方法、装置、设备及计算机可读存储介质。
背景技术
中文分词是一个将文本句切分成词序列的过程,相关学者提出了多种分词规范,并且为不同的分词规范人工标注了相应的训练语料。随着神经网络的发展,通过训练基于神经网络的模型来进行中文分词越来越普遍。
目前,大多数中文分词模型都侧重于利用同一分词规范的训练语料提升该分词规范下的分词性能,这种方式受到训练语料的数量限制,难以提升模型的分词性能。当然也有利用多种分词规范的训练语料提升分词性能的方法,目前两种主流的利用多种分词规范的训练语料提升模型分词性能的方法分别为Multi-Task learning方法和使用转化语料的方法。
其中,Multi-Task learning采用BiLSTM-CRF作为基础模型,其主要原理为所有标准共享BiLSTM层,私有MLP层和CRF层,共享的BiLSTM层用来共享所有语料的知识,私有的MLP层CRF层分别用来计算单个标准下每个标签的得分并预测标签序列。以CTB为例,训练语料是CTB、MSR、PKU三种语料混合,通过共享的BiLSTM来共享三种语料之间的信息,然后将BiLSTM层的输出给与CTB对应的MLP层来计算得分,并将MLP层的输出给与CTB对应CRF来进行预测。这样,CTB对应的MLP层和CRF层的输入中就包含了MSR和PKU语料上的分词信息。
然而,Multi-Task learning采用的BiLSTM-CRF模型,虽然保持原有的BiLSTM层不变,但是,在BiLSTM层的输出之后分裂出多个MLP和CRF分支,每种标准都有各自对应的分支,因此需要对模型进行变化,使得模型的复杂程度变高,此外,每种标准都私有一个MLP和CRF分支,因此不能共享所有的网络。
而使用转化语料的方法,其主要思路为训练一个转化模型以便于对其他标准的人工标注数据进行数据转化,然后将转化出来的语料融合到原有训练语料中扩大数据规模。以CTB为例,将MSR和PKU上的分词语料经过一个转化模型转化成对应的CTB语料,这样就能扩大CTB语料的规模。
但是,这种方式存在一个弊端,就是转化语料的质量受到转化模型的限制,目前也不存在转化率达到100%的转化模型。当存在错误传递,使用转化出来的存在错误的语料训练模型,为模型提供信息的同时也会为模型带来噪声。
综上,目前常见的两种通过采用多种分词规范的训练语料对中文分词模型进行训练的方法,存在模型复杂程度较高或为模型带来噪声的弊端。
发明内容
本发明的目的是提供一种基于神经网络的中文分词模型的训练方法、装置、设备及计算机可读存储介质,用以解决传统的通过多种分词规范的训练语料对中文分词模型进行训练的方法,存在提高模型复杂程度或降低模型分词性能的弊端的问题。
为解决上述技术问题,本发明提供了一种基于神经网络的中文分词模型的训练方法,包括:
获取多种分词规范的训练语料,其中,所述训练语料包括文本句以及与所述文本句对应的标签序列;
根据所述文本句中多个字的嵌入向量以及语料特征向量,得到各个字的向量表示,其中,所述语料特征向量用于表明所述文本句为何种分词规范的训练语料;
将所述文本句中各个字的向量表示输入预先创建的中文分词模型,预测得到所述文本句的标签序列;
根据预测得到的标签序列以及在训练语料中与所述文本句对应的标签序列,对所述中文分词模型的模型参数进行调整,在达到预设条件时完成训练。
可选的,所述将所述文本句中各个字的向量表示输入预先创建的中文分词模型,预测得到所述文本句的标签序列,包括:
将所述文本句中各个字的向量表示输入预先创建的BiLSTM-CRF模型,预测得到所述文本句的标签序列。
可选的,所述将所述文本句中各个字的向量表示输入预先创建的BiLSTM-CRF模型,预测得到所述文本句的标签序列,包括:
将所述文本句中各个字的向量表示输入BiLSTM单元,得到各个字在所述文本句中的上下文特征;
将所述文本句中各个字的上下文特征输入MLP单元,得到各个字对应各个分词标签的得分;
将所述文本句中各个字对应各个分词标签的得分输入CRF单元,预测得到所述文本句的标签序列。
可选的,在所述根据预测得到的标签序列以及在训练语料中与所述文本句对应的标签序列,对所述中文分词模型的模型参数进行调整,在达到预设条件时完成训练之后,还包括:
获取待分词的目标文本句以及为所述目标文本句指定的目标分词规范;
确定所述目标文本句中多个字的嵌入向量,并确定与所述目标分词规范对应的语料特征向量;
根据所述目标文本句中各个字的嵌入向量以及所述语料特征向量,得到各个字的向量表示;
将所述目标文本句中各个字的向量表示输入训练完成的中文分词模型,得到按照所述目标分词规范进行分词的分词结果。
可选的,所述根据所述文本句中多个字的嵌入向量以及语料特征向量,得到各个字的向量表示,包括:
根据所述文本句中多个字的单元嵌入向量、双元嵌入向量、以及语料特征向量,得到各个字的向量表示。
相应的,本发明还提供了一种基于神经网络的中文分词模型的训练装置,包括:
训练语料获取模块:用于获取多种分词规范的训练语料,其中,所述训练语料包括文本句以及与所述文本句对应的标签序列;
向量表示确定模块:用于根据所述文本句中多个字的嵌入向量以及语料特征向量,得到各个字的向量表示,其中,所述语料特征向量用于表明所述文本句为何种分词规范的训练语料;
预测模块:用于将所述文本句中各个字的向量表示输入预先创建的中文分词模型,预测得到所述文本句的标签序列;
调整模块:用于根据预测得到的标签序列以及在训练语料中与所述文本句对应的标签序列,对所述中文分词模型的模型参数进行调整,在达到预设条件时完成训练。
可选的,所述预测模块具体用于:
将所述文本句中各个字的向量表示输入预先创建的BiLSTM-CRF模型,预测得到所述文本句的标签序列。
此外,本发明还提供了一种基于神经网络的中文分词模型的训练设备,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序以实现如上所述的一种基于神经网络的中文分词模型的训练方法的步骤。
最后,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的一种基于神经网络的中文分词模型的训练方法的步骤。
本发明所提供的一种基于神经网络的中文分词模型的训练方法,预先为多种分词规范设置了相应的语料特征向量,在获取该多种分词规范的训练语料后,根据文本句中字的嵌入向量和语料特征向量确定该字的向量表示,最后将文本句中各个字的向量表示输入中文分词模型,得到预测出的标签序列,并根据预测出的标签序列来调整模型参数,达到训练的目的。可见,该方法不需要改变中文分词模型的模型结构,只需要在字的向量表示中增加相应的语料特征向量,并根据增加了语料特征向量的向量表示来对模型进行训练,不仅实现了扩充训练语料的目的,而且通过训练能够让模型学习不同分词规范训练语料之间的共性,从而达到提升单一分词规范下的分词性能的目的。
此外,本发明还提供了一种基于神经网络的中文分词模型的训练装置、设备及计算机可读存储介质,其作用与上述方法相对应,这里不再赘述。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种基于神经网络的中文分词模型的训练方法实施例一的实现流程图;
图2为本发明所提供的一种基于神经网络的中文分词模型的训练方法实施例二的实现流程图;
图3为本发明所提供的一种基于神经网络的中文分词模型的训练方法实施例二中全标注标签序列的示意图;
图4为本发明所提供的一种基于神经网络的中文分词模型的训练方法实施例二中字的向量表示的组成示意图;
图5为本发明所提供的一种基于神经网络的中文分词模型的训练方法实施例二中BiLSTM-CRF模型的结构示意图;
图6为本发明所提供的一种基于神经网络的中文分词模型的测试过程的流程示意图;
图7为本发明所提供的一种基于神经网络的中文分词模型的训练装置实施例的功能示意图;
图8为本发明所提供的一种基于神经网络的中文分词模型的训练设备的结构示意图。
具体实施方式
本发明的核心是提供一种基于神经网络的中文分词模型的训练方法、装置、设备及计算机可读存储介质,实现了在不增加模型复杂程度且不增加噪声的条件下,利用多种分词规范的训练语料提升模型在单一分词规范下的分词性能的目的。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面对本发明提供的一种基于神经网络的中文分词模型的训练方法实施例一进行介绍,参见图1,实施例一包括:
步骤S101:获取多种分词规范的训练语料。
上述分词规范是指对文本句进行分词的规则和依据,目前,已知的分词规范有CTB、PKU、MSR等等,不同的分词规范对于同一文本句有着不同但合理的词切分方法。如表1所示,按照不同的分词规范,“全国各地”可以切分为“全国各地”、“全国/各地”、以及“全/国/各/地”等多种词序列。
表1
分词规范 分词结果
CTB 全|国|各|地
PKU 全国|各地
MSR 全国各地
上述训练语料是指按照某种分词规范进行划分的文本句,训练语料中除了文本句本身,还包括该文本句的分词结果,具体可以为该文本句的标签序列。这里需要说明的是,在分词过程中,对文本句进行序列化标注是一种常见的手段,换句话说,中文分词可以被转化为一个对文字进行序列标注的过程,即文本句中的每个字从左到右依次被标记一个相应的分词切割标签。作为一种可选的实施方式,在本实施例中可以采用标签集T={B,M,E,S}来表示分词标签,其中,B、M、E分别表示当前字位于一个词的开始、中间、结尾,S表示当前字单字成词。因此,本实施例的训练语料中包括文本句,还包括与该文本句对应的标签序列,该标签序列表明了该文本句的分词结果,该分词结果是按照某一分词规范进行划分得到的。
步骤S102:根据文本句中多个字的嵌入向量以及语料特征向量,得到各个字的向量表示。
在文本句进入神经网络模型之前,需要将文本句中的每个字表示为向量,具体的,当训练语料足够多的时候,可以随机初始化嵌入向量,也就是随机生成字的嵌入向量,得到一个嵌入向量查询表。在后续需要将一个文本句中的字“翻译”为嵌入向量时,可以通过查询该嵌入向量查询表获取该字的嵌入向量。作为一种可选的实施方式,可以通过n-gram算法来实现上述过程。我们知道,当n-gram中的n=1时称为unigram(以下称为单元嵌入向量),n=2称为bigram(以下称为双元嵌入向量),n=3称为trigram,以此类推,需要说明的是,本实施例不限定n的取值,甚至不限定n的取值的数量,举例来说,可以选取字的单元嵌入向量和双元嵌入向量,通过拼接得到该字的向量表示。
如上所述,本实施例获取了多种分词规范的训练语料,也就是在训练语料里面混合了多种不同规范的语料。由于不同分词规范的语料直接混合会给模型带来噪声,因此,为了在扩大语料的同时实现区分不同分词规范的语料的目的,在实际应用中,本实施例定义了一个向量,该向量可以理解为一种标识信息,用于表明语料属于按照何种分词规范划分的训练语料,我们将这个向量称为语料特征向量。各个语料特征向量互不相同,且根据一个语料特征向量可以唯一的确定一种分词规范。
以上对语料特征向量的定义进行了介绍,下面对语料特征向量的获取方式进行介绍。具体的,本实施例为步骤S101中涉及的多种分词规范中的各个分词规范均设置了对应的语料特征向量,换句话说,本实施例预先设置了各个分词规范与各个语料特征向量之间的对应关系,具体表现形式可以为“分词规范—语料特征向量”关系对应表。假设训练语料包括CTB、PKU、MSR三种分词规范下的训练语料,那么,如表2所示,本实施例会预先设置这三种分词规范各自对应的语料特征向量,得到关系对应表。在将字转化为向量表示时,首先确定该字所在的文本句为按照何种分词规范进行划分的训练语料,后续即可通过查询该关系对应表,确定对应的语料特征向量,最终对该字的嵌入向量与查询到的语料特征向量进行拼接,得到最终的向量表示。
表2
分词规范 对应的语料特征向量
CTB 第一语料特征向量
PKU 第二语料特征向量
MSR 第三语料特征向量
步骤S103:将文本句中各个字的向量表示输入预先创建的中文分词模型,预测得到文本句的标签序列。
上述中文分词模型为基于神经网络的模型,在将文本句中各个字的向量表示输入模型之后,模型会计算各个字为某一标签的概率,并筛选出最优的标签,最终得到文本句中各个字的最优的标签,也就是标签序列。在训练过程中,模型会学习该字的向量表示与标签之间的关系,并筛选出有益于提升分词性能的特征,以便于保证一定程度的分词性能。基于神经网络的中文分词模型较为常见,本实施例不再详细介绍,作为一种可选的实施方式,本实施例可选取BiLSTM-CRF模型。
步骤S104:根据预测得到的标签序列以及在训练语料中与文本句对应的标签序列,对中文分词模型的模型参数进行调整,在达到预设条件时完成训练。
具体的,上述模型参数的调整过程可以为一个自动的过程。模型训练完成的判决条件,可以为迭代次数达到预设次数,也可以是模型在经过一定次数的迭代过程后,性能没有达到预期的提升时,确定模型训练完成,具体依据实际需求来确定,本实施例不做具体限定。
需要说明的是,理论上来说,通过本实施例训练得到的中文分词模型能够实现前述多种分词规范中任意一种的分词规范对应的划分方式,且在前述多种分词规范中的任意一种分词规范下的分词性能都有所提升。具体的,在测试过程中,为待分词的目标文本句指定预期的分词规范,根据预期的分词规范,在目标文本句的各个字的向量表示中加入对应的语料特征向量,并将文本句的各个字的向量表示输入中文分词模型,该模型即可按照预期的分词规范对目标文本句进行划分。对于上述多种分词规范中的任意一种规范,由于本实施例有效利用了多种分词规范之间的共性,因此,相较于基于某一种分词规范的训练语料进行训练的模型,通过本实施例训练得到的中文分词模型在上述多种分词规范中的任意一种分词规范下的分词性能都有所提升。
综上,本实施例所提供一种基于神经网络的中文分词模型的训练方法,预先为多种分词规范设置了相应的语料特征向量,在获取该多种分词规范的训练语料后,根据文本句中字的嵌入向量和语料特征向量确定该字的向量表示,最后将文本句中各个字的向量表示输入中文分词模型,得到预测出的标签序列,并根据预测出的标签序列来调整模型参数,达到训练的目的。可见,该方法不需要改变中文分词模型的模型结构,只需要在字的向量表示中增加相应的语料特征向量,并根据增加了语料特征向量的向量表示来对模型进行训练,不仅实现了扩充训练语料的目的,而且通过训练能够让模型学习不同分词规范训练语料之间的共性,从而达到提升单一分词规范下的分词性能的目的。
下面开始详细介绍本发明提供的本实施例所提供一种基于神经网络的中文分词模型的训练方法实施例二,实施例二基于上述实施例一实现,并在实施例一的基础上进行了一定程度上的拓展。
实施例二作为一种具体的实施方式展开,在实施例二中,对于分词规范,选取了三种分词规范对模型进行训练,分别为CTB、MSR、PKU;在字的向量表示方面,选取了字的单元嵌入向量和双元嵌入向量来组成字的向量表示;在中文分词模型上,选取了BiLSTM-CRF模型。
参见图2,实施例二具体包括:
步骤S201:获取CTB、MSR、以及PKU的训练语料。
上述训练语料包括文本句,还包括与文本句对应的标签序列。在全标注场景中,当分词规范唯一确定时,文本句的每个字甚至每个标点符号都有一个确定的标签,因此,一个文本句仅有一个合理的标签序列。如图3所示,文本句“我是中国人。”在图中对应的分词标签序列就是(S,S,B,M,E,S)。
步骤S202:对文本句中各个字的单元嵌入向量、双元嵌入向量、以及语料特征向量进行拼接,得到各个字的向量表示,并根据向量表示确定各个字的向量表示。
传统的方法在将文字转化为向量表示时,文字的向量表示主要由该字的嵌入向量组成,而本实施例在字在向量表示中增加了语料特征向量,如图4所示,虚线部分即为语料特征向量。另外,作为一种可选的实施方式,对于嵌入向量,本实施例同时采用了单元嵌入向量以及双元嵌入向量。总之,如图4所示,本实施例中字的向量表示为语料特征向量、单元嵌入向量、双元嵌入向量三者进行拼接得到的。具体的,可以采用随机初始化的方式来初始化一个词嵌入向量查询表,通过查询索引表来获取字的unigram嵌入向量以及bigram嵌入向量。给定一个文本句S=c1,c2,...,cn,ci表示文本句中第i个字或符号,n表示文本句的长度。对于文本句中的任意字符ci,该字的向量表示如下述公式所示:
Figure SMS_1
其中,xi表示字的向量表示,e(ci)和e(ci-1ci)分别表示ci的unigram嵌入向量和bigram嵌入向量,e(d)表示语料特征向量。
步骤S203:将文本句中各个字的向量表示输入预先创建的BiLSTM-CRF模型,预测得到文本句的标签序列。
本实施例采用BiLSTM-CRF模型作为基础的中文分词模型,如图5所示,该模型包含三个部分,分别为:编码层、得分层和预测层四部分。其中,编码层通过BiLSTM(Bidirectional Long Short-Term Memory)进行句子信息编码,得分层通过MLP(Multilayer Preceptron)计算每个标签得分,预测层使用CRF(Conditional RandomField)计算出文本句的最优标签序列。下面对三个部分进行详细介绍:
首先,编码层中使用BiLSTM单元对句子信息进行编码,BiLSTM由前向LSTM与后向LSTM组合而成,使用LSTM可以很好的捕捉到较长距离的依赖关系,因为LSTM在训练过程可以学到记忆哪些信息和遗忘哪些信息,而通过BiLSTM则再次基础上可以更好的捕捉双向的语义依赖。
将前述向量表示Xi作为LSTM的输入,通过LSTM对整个句子序列进行编码得到字符ci的全局信息hi,该过程涉及的主要公式包括:
ii=σ(Win·[hi-1,xi]+bin) (2)
fi=σ(Wfg·[hi-1,xi]+bfg) (3)
oi=σ(Wout·[hi-1,xi]+bout) (4)
ci=fi·ci-1+ii·tanh(Wc·[hi-1,xi]+bc) (5)
hi=oi·tanh(ci) (6)
其中,ii,fi,oi,ci分别表示第i个字对应的输入门、遗忘门、输出门、细胞状态的输出,xi和hi表示第i个字对应的输入和隐藏层输出。σ表示sigmoid激活函数,W和b分别为相应门的权重以及偏置。
然而,上述LSTM仅能编码单个方向的文本句信息,在实际应用中,BiLSTM单元中的一个LSTM沿着正向顺序获取文本句的上文信息,另一个沿着逆向顺序获取文本句的下文信息,最后将上文信息和下文信息拼接起来,至此,我们得到字符ci的BiLSTM表示hi
Figure SMS_2
然后,在得分层中,我们采用MLP计算得到每个标签的得分。我们将BiLSTM单元的输出hi作为输入,计算得到文本句中每个字对应的每个标签的得分Pi
Pi=Wmlphi+bmlp (8)
最后,在预测层中,我们采用CRF进行最终的标签序列优化。我们知道,全标注场景下,文本句中每个字都有一个明确的分词标签,所以在包含N个句子的全标注数据集D中,长度为n的句子S在标签集合T上所有可能的Tn种标签序列中仅有一条正确的标签序列Y。对于Y=(y1,y2,...,yn),我们定义Score(S,Y)为句子S被标记为Y的得分,p(Y|S)表示句子S被标记为序列Y的概率。那么全标注CRF的学习目标就是最大化权重W下句子S被标记为Y的对数似然函数LL(D;W):
Figure SMS_3
Figure SMS_4
Figure SMS_5
Figure SMS_6
其中,A表示转移矩阵,Ai,j表示标签集合T中i标签转移到j标签的分数,Z(S)表示句子S的Tn种可能得分之和。
步骤S204:根据预测得到的标签序列以及在训练语料中与文本句对应的标签序列,对BiLSTM-CRF模型的模型参数进行调整,在达到预设迭代次数时结束训练。
表3
Train Dev Test
CTB-Train CTB-Dev CTB-Test
表4
Figure SMS_7
综上所述,本实施例保持基础的BiLSTM-CRF模型不变,实现了提高中文分词模型在单一分词规范下的分词性能的目的,这里的单一分词规范为训练语料所包括的多种分词规范中的任意一种。假设,现有一个实际应用场景的目的在于提高模型在CTB分词规范下的分词性能,那么,在实验数据设置方面,传统的分词模型的数据集设置如表3所示,相应的输入输出如表4所示,而应用本实施例则采取的措施如表5所示,即在原有的CTB语料上加上PKU语料和MSR语料,但Dev和Test数据集还是CTB语料不变。考虑到在训练语料里面混合了多种不同规范的语料,而不同分词规范的语料可能给模型带来噪声,因此,本实施例将字表示为向量时,在向量中添加了相应的分词规范的语料特征。本实施例中模型的输入输出如表6-1、表6-2、表6-3所示,将三种数据处理成表中的格式,混合在一起进行训练,同时将Dev和Test处理成CTB规范格式的数据进行预测即可。
表5
Figure SMS_8
表6-1
Figure SMS_9
Figure SMS_10
表6-2
Figure SMS_11
表6-3
Figure SMS_12
综上所述,本实施例提供的一种基于神经网络的中文分词模型的训练方法,相比Multi-Task learning,该方法不修改原有模型,且所有的规范都共享整个网络层,因此,不会提升模型的复杂度;相比转化语料,该方法直接使用人工标注的语料,不对人工标注的语料进行任何转化,所以不需要额外的转化模型且不存在错误传递,且由于设置了语料特征向量,因此不同分词规范的规则不会发生冲突。可见,本实施例在满足以上两点的前提下,通过利用多种分词规范的训练语料扩充了训练样本,显著提升了模型的分词性能。
以上对一种基于神经网络的中文分词模型的训练过程进行了描述,下面简要介绍中文分词模型的测试过程,如图6所示,该过程主要包括:
步骤S301:获取待分词的目标文本句以及为目标文本句指定的目标分词规范。
需要说明的是,以上目标分词规范可以为中文分词模型在训练过程中采用的训练语料所涉及的多种分词规范中的任意一种。
步骤S302:确定目标文本句中多个字的嵌入向量,并确定与目标分词规范对应的语料特征向量。
步骤S303:根据目标文本句中各个字的嵌入向量以及语料特征向量,得到各个字的向量表示。
步骤S304:将目标文本句中各个字的向量表示输入训练完成的中文分词模型,得到按照目标分词规范进行分词的分词结果。
如上所述,本实施例为训练过程中用到的每种分词规范都设置了对应的语料特征向量,在测试过程中,确定了预期的分词规范即上述目标分词规范,就唯一确定了语料特征向量,在将目标文本句中的字转化为向量表示时,需要在向量表示中加入这种语料特征向量。再将目标文本句的各个字的向量表示输入中文分词模型之后,中文分词模型就可以依据向量表示中的语料特征确定分词的规则和标准,最终实现按照目标分词规范进行分词的目的。
此外,由于该中文分词模型为通过多种分词规范的训练语料进行训练得到的,且通过为不同分词规范的训练语料增加对应的语料特征向量,在扩充语料的同时加入语料特征可以使得模型可以识别语料的来源,防止引入不同规范的分词语料给模型带来噪声,因此,该模型在训练过程中会学习到不同训练语料之间的共性,强化了中文分词模型在单一分词规范下的分词性能,需要说明的是,这里的单一分词规范为训练过程中采用的训练语料所涉及的多种分词规范中的任意一种。
下面对本发明实施例提供的一种基于神经网络的中文分词模型的训练装置进行介绍,下文描述的一种基于神经网络的中文分词模型的训练装置与上文描述的一种基于神经网络的中文分词模型的训练方法可相互对应参照。
如图7所示,该装置包括:
训练语料获取模块701:用于获取多种分词规范的训练语料,其中,所述训练语料包括文本句以及与所述文本句对应的标签序列。
向量表示确定模块702:用于根据所述文本句中多个字的嵌入向量以及语料特征向量,得到各个字的向量表示,其中,所述语料特征向量用于表明所述文本句为何种分词规范的训练语料。
预测模块703:用于将所述文本句中各个字的向量表示输入预先创建的中文分词模型,预测得到所述文本句的标签序列。
调整模块704:用于根据预测得到的标签序列以及在训练语料中与所述文本句对应的标签序列,对所述中文分词模型的模型参数进行调整,在达到预设条件时完成训练。
作为一种可选的实施方式,所述预测模块703具体用于:将所述文本句中各个字的向量表示输入预先创建的BiLSTM-CRF模型,预测得到所述文本句的标签序列。
本实施例的一种基于神经网络的中文分词模型的训练装置用于实现前述的一种基于神经网络的中文分词模型的训练方法,因此该装置中的具体实施方式可见前文中的一种基于神经网络的中文分词模型的训练方法的实施例部分,例如,训练语料获取模块701、向量表示确定模块702、预测模块703、调整模块704,分别用于实现上述一种基于神经网络的中文分词模型的训练方法中步骤S101,S102,S103,S104。所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的一种基于神经网络的中文分词模型的训练装置用于实现前述的一种基于神经网络的中文分词模型的训练方法,因此其作用与上述方法的作用相对应,这里不再赘述。
此外,本发明还提供了一种基于神经网络的中文分词模型的训练设备实施例,如图8所示,该设备包括:
存储器801:用于存储计算机程序;
处理器802:用于执行所述计算机程序以实现如上所述的一种基于神经网络的中文分词模型的训练方法的步骤。
最后,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的一种基于神经网络的中文分词模型的训练方法的步骤。
本实施例的一种基于神经网络的中文分词模型的训练设备、计算机可读存储介质用于实现前述的一种基于神经网络的中文分词模型的训练方法,因此该设备及计算机可读存储介质的具体实施方式可见前文中的一种基于神经网络的中文分词模型的训练方法的实施例部分,且二者的作用与上述方法实施例相对应,这里不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种基于神经网络的中文分词模型的训练方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (6)

1.一种基于神经网络的中文分词模型的训练方法,其特征在于,包括:
获取多种分词规范的训练语料,其中,所述训练语料包括文本句以及与所述文本句对应的标签序列;
根据所述文本句中多个字的嵌入向量以及语料特征向量,得到各个字的向量表示,其中,所述语料特征向量用于表明所述文本句为何种分词规范的训练语料;
将所述文本句中各个字的向量表示输入预先创建的中文分词模型,预测得到所述文本句的标签序列;
根据预测得到的标签序列以及在训练语料中与所述文本句对应的标签序列,对所述中文分词模型的模型参数进行调整,在达到预设条件时完成训练;
所述将所述文本句中各个字的向量表示输入预先创建的中文分词模型,预测得到所述文本句的标签序列,包括:
将所述文本句中各个字的向量表示输入预先创建的BiLSTM-CRF模型,预测得到所述文本句的标签序列;
所述将所述文本句中各个字的向量表示输入预先创建的BiLSTM-CRF模型,预测得到所述文本句的标签序列,包括:
将所述文本句中各个字的向量表示输入BiLSTM单元,得到各个字在所述文本句中的上下文特征;
将所述文本句中各个字的上下文特征输入MLP单元,得到各个字对应各个分词标签的得分;
将所述文本句中各个字对应各个分词标签的得分输入CRF单元,预测得到所述文本句的标签序列。
2.权利要求1所述的方法,其特征在于,在所述根据预测得到的标签序列以及在训练语料中与所述文本句对应的标签序列,对所述中文分词模型的模型参数进行调整,在达到预设条件时完成训练之后,还包括:
获取待分词的目标文本句以及为所述目标文本句指定的目标分词规范;
确定所述目标文本句中多个字的嵌入向量,并确定与所述目标分词规范对应的语料特征向量;
根据所述目标文本句中各个字的嵌入向量以及所述语料特征向量,得到各个字的向量表示;
将所述目标文本句中各个字的向量表示输入训练完成的中文分词模型,得到按照所述目标分词规范进行分词的分词结果。
3.如权利要求1或2所述的方法,其特征在于,所述根据所述文本句中多个字的嵌入向量以及语料特征向量,得到各个字的向量表示,包括:
根据所述文本句中多个字的单元嵌入向量、双元嵌入向量、以及语料特征向量,得到各个字的向量表示。
4.一种基于神经网络的中文分词模型的训练装置,其特征在于,包括:
训练语料获取模块:用于获取多种分词规范的训练语料,其中,所述训练语料包括文本句以及与所述文本句对应的标签序列;
向量表示确定模块:用于根据所述文本句中多个字的嵌入向量以及语料特征向量,得到各个字的向量表示,其中,所述语料特征向量用于表明所述文本句为何种分词规范的训练语料;
预测模块:用于将所述文本句中各个字的向量表示输入预先创建的中文分词模型,预测得到所述文本句的标签序列;
调整模块:用于根据预测得到的标签序列以及在训练语料中与所述文本句对应的标签序列,对所述中文分词模型的模型参数进行调整,在达到预设条件时完成训练;
所述预测模块具体用于将所述文本句中各个字的向量表示输入预先创建的BiLSTM-CRF模型,预测得到所述文本句的标签序列;
所述将所述文本句中各个字的向量表示输入预先创建的BiLSTM-CRF模型,预测得到所述文本句的标签序列,包括:
将所述文本句中各个字的向量表示输入BiLSTM单元,得到各个字在所述文本句中的上下文特征;
将所述文本句中各个字的上下文特征输入MLP单元,得到各个字对应各个分词标签的得分;
将所述文本句中各个字对应各个分词标签的得分输入CRF单元,预测得到所述文本句的标签序列。
5.一种基于神经网络的中文分词模型的训练设备,其特征在于,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序以实现如权利要求1-3任意一项所述的一种基于神经网络的中文分词模型的训练方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-3任意一项所述的一种基于神经网络的中文分词模型的训练方法的步骤。
CN201910085499.3A 2019-01-29 2019-01-29 一种基于神经网络的中文分词模型的训练方法 Active CN109800298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910085499.3A CN109800298B (zh) 2019-01-29 2019-01-29 一种基于神经网络的中文分词模型的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910085499.3A CN109800298B (zh) 2019-01-29 2019-01-29 一种基于神经网络的中文分词模型的训练方法

Publications (2)

Publication Number Publication Date
CN109800298A CN109800298A (zh) 2019-05-24
CN109800298B true CN109800298B (zh) 2023-06-16

Family

ID=66559131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910085499.3A Active CN109800298B (zh) 2019-01-29 2019-01-29 一种基于神经网络的中文分词模型的训练方法

Country Status (1)

Country Link
CN (1) CN109800298B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210035B (zh) * 2019-06-04 2023-01-24 苏州大学 序列标注方法、装置及序列标注模型的训练方法
CN112052671B (zh) * 2019-06-06 2023-10-27 阿里巴巴集团控股有限公司 负样本采样方法、文本处理方法、装置、设备及介质
CN110288980A (zh) * 2019-06-17 2019-09-27 平安科技(深圳)有限公司 语音识别方法、模型的训练方法、装置、设备及存储介质
CN110457478B (zh) * 2019-08-09 2022-07-26 泰康保险集团股份有限公司 文本合规性检查方法及装置、电子设备和计算机可读介质
CN110489760B (zh) * 2019-09-17 2023-09-22 达观数据有限公司 基于深度神经网络文本自动校对方法及装置
CN110852040B (zh) * 2019-11-05 2023-08-04 中电科大数据研究院有限公司 一种标点预测模型训练方法及文本标点确定方法
CN111222335A (zh) * 2019-11-27 2020-06-02 上海眼控科技股份有限公司 语料修正方法、装置、计算机设备和计算机可读存储介质
US11494647B2 (en) * 2019-12-06 2022-11-08 Adobe Inc. Slot filling with contextual information
CN111523308B (zh) * 2020-03-18 2024-01-26 大箴(杭州)科技有限公司 中文分词的方法、装置及计算机设备
CN112036183B (zh) * 2020-08-31 2024-02-02 湖南星汉数智科技有限公司 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质
CN112214994B (zh) * 2020-10-10 2021-06-01 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质
CN112464663A (zh) * 2020-12-01 2021-03-09 小牛思拓(北京)科技有限公司 一种多特征融合的中文分词方法
CN112541602A (zh) * 2020-12-21 2021-03-23 交控科技股份有限公司 城轨运维系统数据处理方法及城轨运维系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220220A (zh) * 2016-03-22 2017-09-29 索尼公司 用于文本处理的电子设备和方法
CN107273357B (zh) * 2017-06-14 2020-11-10 北京百度网讯科技有限公司 基于人工智能的分词模型的修正方法、装置、设备和介质
CN107729312B (zh) * 2017-09-05 2021-04-20 苏州大学 基于序列标注建模的多粒度分词方法及系统

Also Published As

Publication number Publication date
CN109800298A (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN109800298B (zh) 一种基于神经网络的中文分词模型的训练方法
CN111309915B (zh) 联合学习的自然语言训练方法、系统、设备及存储介质
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN111414464A (zh) 一种问题生成方法、装置、设备及存储介质
CN108932226A (zh) 一种对无标点文本添加标点符号的方法
CN109711465B (zh) 基于mll和asca-fr的图像字幕生成方法
CN112417092B (zh) 基于深度学习的智能化文本自动生成系统及其实现方法
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN115795009A (zh) 基于生成式多语言模型的跨语言问答系统构建方法和装置
CN109344413A (zh) 翻译处理方法和装置
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN116011456B (zh) 基于提示学习的中文建筑规范文本实体识别方法及系统
CN116596347B (zh) 基于云平台的多学科交互教学系统及教学方法
CN111428470A (zh) 文本连贯性判定及其模型训练方法、电子设备及可读介质
CN111783478A (zh) 机器翻译质量估计方法、装置、设备及存储介质
CN113673228A (zh) 文本纠错方法、装置、计算机存储介质及计算机程序产品
CN112446221B (zh) 翻译评估方法、装置、系统及计算机存储介质
CN116822464A (zh) 一种文本纠错方法、系统、设备及存储介质
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和系统
CN110210035B (zh) 序列标注方法、装置及序列标注模型的训练方法
CN104572629B (zh) 生成单语解析模型的方法和装置以及语言转换装置
CN110287487B (zh) 主谓语识别方法、装置、设备及计算机可读存储介质
CN115017924B (zh) 跨语际语言翻译的神经机器翻译模型构建及其翻译方法
CN113420121B (zh) 文本处理模型训练方法、语音文本处理方法及装置
Chen A deep learning-based intelligent quality detection model for machine translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant