CN106844345B - 一种基于参数线性约束的多任务分词方法 - Google Patents

一种基于参数线性约束的多任务分词方法 Download PDF

Info

Publication number
CN106844345B
CN106844345B CN201710065928.1A CN201710065928A CN106844345B CN 106844345 B CN106844345 B CN 106844345B CN 201710065928 A CN201710065928 A CN 201710065928A CN 106844345 B CN106844345 B CN 106844345B
Authority
CN
China
Prior art keywords
participle
character
label
model
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710065928.1A
Other languages
English (en)
Other versions
CN106844345A (zh
Inventor
苏劲松
阮志伟
纪荣嵘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201710065928.1A priority Critical patent/CN106844345B/zh
Publication of CN106844345A publication Critical patent/CN106844345A/zh
Application granted granted Critical
Publication of CN106844345B publication Critical patent/CN106844345B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种基于参数线性约束的多任务分词方法,涉及基于深度学习的自然语言处理。使用不同分词标准的数据对不同分词模型进行初步训练;对于不同分词模型,共享部分参数,对另外的参数建立线性约束关系;建立统一的目标函数,进行不同分词模型的训练。利用参数的线性约束来建模不同分词模型之间的关系,使得不同分词标准模型的训练能够使用另外分词标准的训练数据。本发明算法明确、思路清晰,利用这个方法能够扩增现有分词模型的训练数据,提高中文分词任务的性能,更好地服务于基于分词的其他自然语言处理任务。

Description

一种基于参数线性约束的多任务分词方法
技术领域
本发明涉及基于深度学习的自然语言处理,尤其是涉及一种基于参数线性约束的多任务分词方法。
背景技术
自然语言处理是计算机学科人工智能的一个重要研究方向,它研究如何使得人与计算机之间能够使用自然语言进行有效通信。它是一门融语言学、计算机科学、数学于一体的学科。中文分词是自然语言处理的基础任务,是许多上游任务比如情感分类、机器翻译等的预处理步骤。
中文分词研究一直是学术界的热点。传统的方法使用面向特定任务的人工定义的特征,起到了很好的效果,但是对于特定任务如何定义有效人工特征并不是一件容易的事情。近年来随着神经网络的兴起,不少工作探索了如何使用神经网络来对中文分词进行建模(参见文献:[1~7]),效果达到甚至超过了传统方法。使用神经网络进行建模的优点在于不需要人工定义特征,网络模型能够学习有益分词任务的特征表示。工作(参见文献:[3])中使用一个长短时记忆(Long-short Term Memory,简称LSTM)神经网络模型进行中文分词任务,效果达到了目前最好的水平。另一方面,学术界对分词任务的基础即词的基本定义有着不用的看法。许多研究者提出了不同的分词标准,并且人工标注了相应的分词语料数据。传统研究基于特定分词标准的数据集,训练出一个中文分词模型。然而这些研究受限于数据集的大小,无法充分利用不同的分词标准的数据集。对此,近年来许多研究者对如何利用不同分词标准的数据集展开了深入研究(参见文献[8~10])。文献[8]和[9]都是先在某个分词标准的数据集上训练出一个初步的分词模型,然后使用这个模型的输出作为其他分词标准的分词模型的特征。文献[10]中探索了不同分词标准的标签映射,这样可以达到数据映射的目的。但是,目前没有相关研究探索如何在深度学习中同时应用不同分词标准的数据来联合训练不同的分词模型,该问题值得深入研究。参考文献:
[1]Pei W,Ge T,Chang B.Max-Margin Tensor Neural Network for ChineseWord Segmentation[C]//ACL(1).2014:293-303.
[2]Zheng X,Chen H,Xu T.Deep Learning for Chinese Word Segmentationand POS Tagging[C]//EMNLP.2013:647-657.
[3]Chen X,Qiu X,Zhu C,et al.Long short-term memory neural networksfor chinese word segmentation[C]//Proceedings of the Conference on EmpiricalMethods in Natural Language Processing.2015:1385-1394.
[4]Chen X,Qiu X,Zhu C,et al.Gated recursive neural network forChinese word segmentation[C]//Proceedings of Annual Meeting of theAssociation for Computational Linguistics.pendency parsing using twoheterogeneous gated recursive neural networks.In Proceedings of theConference on Empirical Methods in Natural Language Processing.2015.
[5]Chen X,Qiu X,Huang X.A Long Dependency Aware Deep Architecture forJoint Chinese Word Segmentation and POS Tagging[J].arXiv preprint arXiv:1611.05384,2016.
[6]Xu J,Sun X.Dependency-based gated recursive neural network forchinese word segmentation[C]//The 54th Annual Meeting of the Association forComputational Linguistics.2016:567.
[7]Yao Y,Huang Z.Bi-directional LSTM Recurrent Neural Network forChinese Word Segmentation[J].arXiv preprint arXiv:1602.04874,2016.
[8]Jiang W,Huang L,Liu Q.Automatic adaptation of annotationstandards:Chinese word segmentation and POS tagging:a case study[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL andthe 4th International Joint Conference on Natural Language Processing of theAFNLP:Volume 1-Volume 1.Association for Computational Linguistics,2009:522-530.
[9]Sun W,Wan X.Reducing approximation and estimation errors forChinese lexical processing with heterogeneous annotations[C]//Proceedings ofthe 50th Annual Meeting of the Association for Computational Linguistics:LongPapers-Volume 1.Association for Computational Linguistics,2012:232-241.
[10]Qiu X,Zhao J,Huang X.Joint Chinese Word Segmentation and POSTagging on Heterogeneous Annotated Corpora with Multiple Task Learning[C]//EMNLP.2013:658-668.
[11]Duchi J,Hazan E,Singer Y.Adaptive subgradient methods for onlinelearning and stochastic optimization[J].Journal of Machine Learning Research,2011,12(Jul):2121-2159.
发明内容
本发明的目的在于提供一种基于参数线性约束的多任务分词方法。
本发明包括以下步骤:
1)使用不同分词标准的数据对不同中文分词模型进行初步训练;
2)对于不同中文分词模型,共享部分参数,对另外的参数建立线性约束关系;
3)建立统一的目标函数,进行不同分词模型的训练。
在步骤1)中,所述使用不同分词标准的数据对不同分词模型进行初步训练的具体方法可为:
(1)对基于长短时记忆(Long-short Term Memory,简称LSTM)的中文分词模型,字符的嵌入表示如下:
用神经网络处理字符数据的第一步是用向量来表示字符的语义,即CharacterEmbedding,用C表示大小为|C|的字符词典,任何在字典中的字符c都用一个实数向量vc∈Rd表示,其中d是向量空间的维度,所有字符的嵌入表示组成字符嵌入表示矩阵M(M∈R|C|×d),矩阵M中的每一行都表示对应某个字符的嵌入表示,某个字符对应的行可以通过查找表找到;
标签打分如下:
把中文分词看成一个分类问题,任何一个字符可以被分成四类B,M,E,S标签中的一类,分别表示一个词的开头,中间,结尾和单独一个字作为词,给定一个字符序列x=(x1,x2,…,xn),使用LSTM网络对标签进行打分;对于字符xt(1≤t≤n),网络的输入为:
其中,表示拼接,k1、k2分别表示当前字符左边和右边的窗口大小,将x输入到LSTM单元,进一步得到:
ht=ot⊙tanh(ct)
其中,ct,ht分别表示LSTM单元在t时刻的记忆单元和隐层状态,向量it,ot,ft分别表示时刻t的LSTM输入,输出和遗忘门,用于控制LSTM单元信息记忆存储,⊙表示对应的元素相乘。W1,b1是模型的参数;
再根据以下公式计算在当前上下文下各个标签的分数:
st=W2ht+b2
其中,W2和b2也为网络的参数;
为了建模标签之间的关系,进一步引入来度量从标签yt-1转移到yt的概率,yt表示xt对应的标签,经过上述过程,输入句子x的标签序列y的分数计算如下:
其中,y表示标签序列,表示网络对应于标签yt的输出分数,θ表示模型的参数,n为x的长度;给定一个训练样本(x,y),用表示预测得到的标签序列,则:
其中,Y(x)为序列x所有可能的标签序列集合。
定义边缘损失为:
其中,1{*}为指示函数,当时,取值为1,否则为0,而η为折扣因子。
最后,在给定一个数据集D,目标函数定义为:
其中,λ为正则化项对应的权重;
(2)基于多任务学习的中文分词模型
将步骤(1)的建模过程推广到不同分词标准的分词模型建模,使用多任务学习框架来进行不同模型的联合训练,对于不同的模型,共享字符嵌入表示矩阵M和LSTM模型参数,而对于分词标签的相关参数,即W2、b2,使用线性约束来建模他们之间的关系;
用i、j分别表示两个不同的模型,这两者之间的约束关系可以表示成:
其中, 表示第i个模型的分词标签相关参数,表示网络的参数;
综上述,多任务学习框架下模型的目标函数包含分词损失以及约束损失:
其中,Jii)表模型i的分词损失,λw表示模型约束项对应的权重,N表示模型个数。
(3)模型训练
采用Mini-batch的训练方式,同时使用不同分词标准的数据来联合训练不同标准分词模型;在这个过程中,使用AdaGrad(参见文献:[11])进行参数优化求解。
本发明以多任务学习为基本框架主要包括如下几个内容:
(1)共享不同的分词模型的部分参数,对另外的参数引入线性约束;
(2)对不同的分词模型,建立统一的目标函数,进行联合训练。
本发明利用参数的线性约束来建模不同分词模型之间的关系,使得不同分词标准模型的训练能够使用另外分词标准的训练数据。本发明算法明确、思路清晰,利用这个方法能够扩增现有分词模型的训练数据,提高中文分词任务的性能,更好地服务于基于分词的其他自然语言处理任务。
本发明提供了一种新的中文分词模型的多任务训练方法。该方法基于多任务学习框架对不同的分词模型进行联合训练。对不同分词标准的模型建立参数线性约束来建模不同分词模型之间的关系。使得不同模型能够共享不同分词标准数据的特征属性,同时根据不同分词任务保留各自模型的特性。
本发明的具体思想如下:
把不同分词标注模型的训练过程看成一个多任务学习的建模过程,不同分词标准模型的部分参数可以共享,而部分参数不能共享但是相关,对此,在不同分词模型之间引入参数线性映射来建模这种约束关系。
附图说明
图1为本发明基于LSTM中文分词模型结构图。在图1中,加下标的x表示输入的字符;x由所有输入字符的向量表示拼接而成;d表示字符向量表示的维度;ht,ct表示LSTM单元的隐层状态和记忆;W2,b2,A是模型参数;B、M、E、S是分词标签。
具体实施方式
本发明具体实施方式如下:
第一步使用不同分词标准的数据对不同分词模型进行初步训练;
第二步对于不同分词模型,共享部分参数,对另外的参数建立线性约束关系;
第三步建立统一的目标函数,进行不同分词模型的训练。
对于训练不同的分词模型,首先在第一部分介绍分词模型模型的训练,在第二部分介绍如何通过建立线性约束建立统一的目标函数,在第三部分说明模型的训练方式,下面介绍具体的实现细节:
1.基于LSTM的中文分词模型
模型的网络结构如图所示。
1)字符的嵌入表示
用神经网络处理字符数据的第一步是用向量来表示字符的语义,即CharacterEmbedding。用C表示大小为|C|的字符词典。任何在字典中的字符c都用一个实数向量vc∈Rd表示,其中d是向量空间的维度。所有字符的嵌入表示组成字符嵌入表示矩阵M(M∈R|C|×d),矩阵M中的每一行都表示对应某个字符的嵌入表示,某个字符对应的行可以通过查找表找到。
2)标签打分
把中文分词看成一个分类问题,任何一个字符可以被分成四类B,M,E,S标签中的一类,分别表示一个词的开头,中间,结尾和单独一个字作为词。给定一个字符序列x=(x1,x2,…,xn),使用LSTM网络对标签进行打分。对于字符xt(1≤t≤n),网络的输入为:
其中,表示拼接,k1、k2分别表示当前字符左边和右边的窗口大小。将x输入到LSTM单元,进一步得到:
ht=ot⊙tanh(ct)
其中,ct,ht分别表示LSTM单元在t时刻的记忆单元和隐层状态,向量it,ot,ft分别表示时刻t的LSTM输入,输出和遗忘门,用于控制LSTM单元信息记忆存储。⊙表示对应的元素相乘。W1,b1是模型的参数。
然后,根据下面的公式计算在当前上下文下各个标签的分数:
st=W2ht+b2
这里的W2和b2也为网络的参数。
为了建模标签之间的关系,进一步引入来度量从标签yt-1转移到yt的概率,yt表示xt对应的标签。经过上述过程,输入句子x的标签序列y的分数计算如下:
其中,y表示标签序列,表示网络对应于标签yt的输出分数,θ表示模型的参数,n为x的长度。给定一个训练样本(x,y),用表示预测得到的标签序列,则:
其中,Y(x)为序列x所有可能的标签序列集合。
定义边缘损失为:
其中,1{*}为指示函数,当时,取值为1,否则为0,而η为折扣因子。
最后,在给定一个数据集D,目标函数定义为:
其中,λ为正则化项对应的权重。
2.基于多任务学习的中文分词模型
将上述步骤的建模过程推广到不同分词标准的分词模型建模。具体而言,使用多任务学习框架来进行不同模型的联合训练。不同的是,对于不同的模型共享字符嵌入表示矩阵M和LSTM模型参数,而对于分词标签的相关参数,即W2、b2,使用线性约束来建模他们之间的关系。
用i、j分别表示两个不同的模型,这两者之间的约束关系可以表示成:
其中, 表示第i个模型的分词标签相关参数,表示网络的参数。
综上述,多任务学习框架下模型的目标函数包含分词损失以及约束损失:
其中,Jii)表模型i的分词损失,λw表示模型约束项对应的权重,N表示模型个数。
3.模型训练
采用Mini-batch的训练方式,同时使用不同分词标准的数据来联合训练不同标准分词模型。特别地,在这个过程中,使用AdaGrad(参见文献:[11])进行参数优化求解。

Claims (1)

1.一种基于参数线性约束的多任务分词方法,其特征在于其包括以下步骤:
1)使用不同分词标准的数据对不同分词模型进行初步训练,具体方法为:
(1)对基于LSTM的中文分词模型,字符的嵌入表示如下:
用神经网络处理字符数据的第一步是用向量来表示字符的语义,即CharacterEmbedding,用C表示大小为|C|的字符词典,任何在字典中的字符c都用一个实数向量vc∈Rd表示,其中d是向量空间的维度,所有字符的嵌入表示组成字符嵌入表示矩阵M,M∈R|C|×d,矩阵M中的每一行都表示对应某个字符的嵌入表示,某个字符对应的行通过查找表找到;
标签打分如下:
把中文分词看成一个分类问题,任何一个字符被分成四类B,M,E,S标签中的一类,分别表示一个词的开头,中间,结尾和单独一个字作为词,给定一个字符序列x=(x1,x2,…,xn),使用LSTM网络对标签进行打分;对于字符xt,1≤t≤n,,网络的输入为:
其中,表示拼接,k1、k2分别表示当前字符左边和右边的窗口大小,将x输入到LSTM单元,进一步得到:
ht=ot⊙tanh(ct)
其中,ct,ht分别表示LSTM单元在t时刻的记忆单元和隐层状态,向量it,ot,ft分别表示时刻t的LSTM输入、输出和遗忘门,用于控制LSTM单元信息记忆存储,⊙表示对应的元素相乘,W1,b1是模型的参数;
再根据以下公式计算在当前上下文各个标签的分数:
st=W2ht+b2
其中,W2和b2也为网络的参数;
为了建模标签之间的关系,进一步引入来度量从标签yt-1转移到yt的概率,yt表示xt对应的标签,经过上述过程,输入句子x的标签序列y的分数计算如下:
其中,y表示标签序列,表示网络对应于标签yt的输出分数,θ表示模型的参数,n为x的长度;给定一个训练样本(x,y),用表示预测得到的标签序列,则:
其中,Y(x)为序列x所有可能的标签序列集合;
定义边缘损失为:
其中,1{*}为指示函数,当时,取值为1,否则为0,而η为折扣因子;
最后,在给定一个数据集D,目标函数定义为:
其中,λ为正则化项对应的权重;
(2)基于多任务学习的中文分词模型
将步骤(1)的建模过程推广到不同分词标准的分词模型建模,使用多任务学习框架来进行不同模型的联合训练,对于不同的模型,共享字符嵌入表示矩阵M和LSTM模型参数,而对于分词标签的相关参数,即W2、b2,使用线性约束来建模他们之间的关系;
用i、j分别表示两个不同的模型,这两者之间的约束关系表示为:
其中,表示第i个模型的分词标签相关参数,表示网络的参数;
综上述,多任务学习框架下模型的目标函数包含分词损失以及约束损失:
其中,Jii)表示模型i的分词损失,λw表示模型约束项对应的权重,N表示模型个数;
(3)模型训练
采用Mini-batch的训练方式,同时使用不同分词标准的数据来联合训练不同标准分词模型;在这个过程中,使用AdaGrad进行参数优化求解;
2)对于不同分词模型,共享部分参数,对另外的参数建立线性约束关系;
3)建立统一的目标函数,进行不同分词模型的训练。
CN201710065928.1A 2017-02-06 2017-02-06 一种基于参数线性约束的多任务分词方法 Expired - Fee Related CN106844345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710065928.1A CN106844345B (zh) 2017-02-06 2017-02-06 一种基于参数线性约束的多任务分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710065928.1A CN106844345B (zh) 2017-02-06 2017-02-06 一种基于参数线性约束的多任务分词方法

Publications (2)

Publication Number Publication Date
CN106844345A CN106844345A (zh) 2017-06-13
CN106844345B true CN106844345B (zh) 2019-07-09

Family

ID=59121563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710065928.1A Expired - Fee Related CN106844345B (zh) 2017-02-06 2017-02-06 一种基于参数线性约束的多任务分词方法

Country Status (1)

Country Link
CN (1) CN106844345B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273357B (zh) 2017-06-14 2020-11-10 北京百度网讯科技有限公司 基于人工智能的分词模型的修正方法、装置、设备和介质
CN107943783A (zh) * 2017-10-12 2018-04-20 北京知道未来信息技术有限公司 一种基于lstm‑cnn的分词方法
CN107967252A (zh) * 2017-10-12 2018-04-27 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的分词方法
CN107894975A (zh) * 2017-10-12 2018-04-10 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的分词方法
CN107844475A (zh) * 2017-10-12 2018-03-27 北京知道未来信息技术有限公司 一种基于lstm的分词方法
CN110188358B (zh) * 2019-05-31 2023-10-24 鼎富智能科技有限公司 自然语言处理模型的训练方法及装置
CN114510924B (zh) * 2022-02-14 2022-09-20 哈尔滨工业大学 一种基于预训练语言模型的文本生成方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408153A (zh) * 2014-12-03 2015-03-11 中国科学院自动化研究所 一种基于多粒度主题模型的短文本哈希学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060150A1 (en) * 2003-09-15 2005-03-17 Microsoft Corporation Unsupervised training for overlapping ambiguity resolution in word segmentation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408153A (zh) * 2014-12-03 2015-03-11 中国科学院自动化研究所 一种基于多粒度主题模型的短文本哈希学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Long Short-Term Memory Neural Networks for Chinese Word Segmentation;Xinchi Chen et al.;《Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing》;20150917;第1197-1206页
一种基于循环神经网络的古文断句方法;王博立 等;《北京大学学报(自然科学版)》;20161130;第53卷(第2期);第255-261页
融合分词隐层特征的汉语基本块识别;李国臣 等;《中文信息学报》;20160331;第30卷(第2期);第12-17页

Also Published As

Publication number Publication date
CN106844345A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106844345B (zh) 一种基于参数线性约束的多任务分词方法
CN107239444B (zh) 一种融合词性与位置信息的词向量训练方法及系统
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN112417880A (zh) 一种面向法院电子卷宗的案情信息自动抽取方法
CN110110061B (zh) 基于双语词向量的低资源语种实体抽取方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN109597988A (zh) 跨语言的词汇义原预测方法、装置与电子设备
Gao et al. Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF
CN111651973A (zh) 一种基于句法感知的文本匹配方法
CN111144119A (zh) 一种改进知识迁移的实体识别方法
CN112966508A (zh) 一种通用自动术语提取方法
CN109766546A (zh) 一种基于神经网络的自然语言推理方法
CN115795056A (zh) 非结构化信息构建知识图谱的方法、服务器及存储介质
Han et al. CNN-BiLSTM-CRF model for term extraction in Chinese corpus
Ding et al. Chinese keyword extraction model with distributed computing
Zhang et al. Construction of English translation model based on neural network fuzzy semantic optimal control
MohammadiBaghmolaei et al. Word embedding for emotional analysis: an overview
Zhu et al. A Semantic Similarity Computing Model based on Siamese Network for Duplicate Questions Identification.
CN114943235A (zh) 一种基于多类语言模型的命名实体识别方法
Zhang et al. Cross-domain aspect-based sentiment classification by exploiting domain-invariant semantic-primary feature
Tian et al. An adversarial joint learning model for low-resource language semantic textual similarity
Zhu et al. Construction of transformer substation fault knowledge graph based on a depth learning algorithm
Zuo et al. College English teaching evaluation model using natural language processing technology and neural networks
Li An English Writing Grammar Error Correction Technology Based on Similarity Algorithm
CN109871539A (zh) 一种基于多任务神经网络的语言检测与情感分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190709

Termination date: 20200206

CF01 Termination of patent right due to non-payment of annual fee