CN110516229B - 一种基于深度学习的领域自适应中文分词方法 - Google Patents

一种基于深度学习的领域自适应中文分词方法 Download PDF

Info

Publication number
CN110516229B
CN110516229B CN201910620157.7A CN201910620157A CN110516229B CN 110516229 B CN110516229 B CN 110516229B CN 201910620157 A CN201910620157 A CN 201910620157A CN 110516229 B CN110516229 B CN 110516229B
Authority
CN
China
Prior art keywords
output
character
model
dictionary
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910620157.7A
Other languages
English (en)
Other versions
CN110516229A (zh
Inventor
张旻
黄涛
姜明
汤景凡
吴俊磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910620157.7A priority Critical patent/CN110516229B/zh
Publication of CN110516229A publication Critical patent/CN110516229A/zh
Application granted granted Critical
Publication of CN110516229B publication Critical patent/CN110516229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的领域自适应中文分词方法。本发明包括如下步骤:步骤1、对文本序列进行处理得到BERT模型的输出、词典模块的输出和语言模型的输出;步骤2、使用类似门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出;步骤3、使用softmax函数,得到每个字符对应的预测概率。本发明在BERT模型中融入了词典和目标领域的无标注集信息,这种方法极大增强了中文分词模型的领域适应性。

Description

一种基于深度学习的领域自适应中文分词方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于深度学习的领域自适应中文分词方法。
背景技术
近几年,基于神经网络的中文分词模型在分词准确率上取得了突破性的进展。然而,这类分词模型仍存在领域适应性弱的问题。这个问题是由于训练集与测试集分属不同领域而引发的,具体来说就是测试集中包含很多在训练集中没有的领域相关词汇。不借助额外资源,只改进神经网络结构,无法很好地识别未出现词。因为词典和目标领域的无标注集中包含很多领域相关词汇,所以许多研究者会将它们作为额外资源,结合BiLSTM模型,来增强模型的领域适应性。然而,部分研究者提出的模型在训练好之后,仅仅只能适用于某一特定领域,如果要适用于另一领域,还需要重新训练。这种做法可以称为跨领域分词,即模型能在主领域(标注集所属领域)训练好后,适用于特定的目标领域(测试集所属领域)。然而,跨领域分词不能与模型的领域适应性划等号。模型的领域适应性是指模型在不重新训练的情况下,能在不同领域上体现较好的分词效果。因此,增强模型的领域适应性应从分词准确率和通用性两方面进行考虑。
发明内容
针对基于深度学习的中文分词模型领域适应性弱的问题,本发明提供了一种基于深度学习的领域自适应中文分词方法,该方法能增强模型领域适应性。
为解决技术问题,本发明提供的技术方案包括如下步骤:
步骤1、对文本序列进行处理得到BERT模型的输出、词典模块的输出和语言模型的输出。
1-1、获得BERT模型的输出:
将文本序列传入BERT模型,对于一个文本序列,将之输入BERT中文预训练模型,可以得到此BERT模型的输出。
Figure GDA0002396242010000021
其中,Ei表示字符i的词向量。
Figure GDA0002396242010000022
是表示字符i-1的前向隐层状态,
Figure GDA0002396242010000023
表示字符i+1的后向隐层状态。
1-2获得词典模块的输出:
为文本序列中每个字符构造一个词典特征向量,将之传入双向循环神经网络,得到词典模块的输出;对于一个输入序列C=(c1,c2,…,cn),用一个四维的特征向量fi来表示其对应的字符ci,可以得到特征序列F=(f1,f2,…,fn)。fi的四个维度分别对应B、M、E、S(词的首字符、中间字符、末尾字符、单个字符成词)。例如,fi2表示fii的第二个维度,它的值表示ci标识M的概率。
对于每个字符ci,获取其特征向量fi的具体算法流程如下:
①.初始化,设置flag=0,fi=(0.1,0.1,0.1,0.1)(因为字符匹配无法完整地考虑上下文信息,所以我们将概率设为0.9和0.1,而不是1和0)。
②.计算出ci的n-grams窗口词汇,如表1所示。
③.判断每个词汇是否存在于词典中,如果存在,转步骤④,不存在,重复步骤③。遍历完所有词汇后转步骤⑤;
④.设置flag=1,索引ci在这个词汇中的位置index,如果index=0,fi1=0.9(表示ci标识B的可能性为0.9),如果index=len(词汇长度)-1,fi3=0.9,否则fi2=0.9。转步骤③。
⑤.如果flag=0,表示所有窗口词汇都不在词典中,此时设置fi4=0.9。
将词典特征向量传入双向循环神经网络。由于词典信息没有充分考虑上下文信息,而借助双向循环神经网络能够让单个字符对应的表征向量更好地表达它在词中的位置信息,此模块的输出如下:
Figure GDA0002396242010000024
其中,fi是字符ci的特征向量,
Figure GDA0002396242010000025
是第i-1个字符前向隐藏层状态,
Figure GDA0002396242010000031
是第i+1个字符后向隐藏层状态,θ是BiLSTM的参数。
1-3获得语言模型的输出:
利用目标领域的无标注集预训练好语言模型,对于传入的文本序列,能够得到语言模型的输出,公式如下:
Figure GDA0002396242010000032
其中
Figure GDA0002396242010000033
表示前向的语言模型的输出,
Figure GDA0002396242010000034
表示后向的语言模型的输出。
步骤2、使用类似门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出,公式如下:
Figure GDA0002396242010000035
z=σ(UzhDICT+LM+WZhBERT+bz)
r=σ(UrhDICT+LM+WrhBERT+br)
Figure GDA0002396242010000036
Figure GDA0002396242010000037
其中,z和r分别表示更新门和重置门,Uz、WZ表示更新门的权重矩阵,bz表示更新门的偏置量。r表示重置门。Ur、Wr表示重置门的权重矩阵、br表示重置门的偏置量。
Figure GDA00023962420100000310
是候选隐藏状态,
Figure GDA00023962420100000312
表示权重矩阵,
Figure GDA00023962420100000311
表示偏置量。h是一个新的隐藏层状态。
步骤3、使用softmax函数,得到每个字符对应的预测概率
Figure GDA00023962420100000313
公式如下:
3-1使用softmax函数,得到每个字符对应的预测概率
Figure GDA00023962420100000314
公式如下:
Figure GDA0002396242010000038
其中,W是一个权重矩阵,b是偏置量。
3-2.给出一个序列的正确标注y1,y2,…,yn,其中yi使用独热编码表示。交叉熵损失函数表示如下:
Figure GDA0002396242010000039
其中,Y={y1,y2,…,yn},
Figure GDA0002396242010000041
通过最小化交叉熵损失函数,模型实现了反向传播。
本发明有益效果如下:
本发明在BERT模型中融入了词典和目标领域的无标注集信息,构造了一种新的中文分词神经网络模型。为了提取有利于分词的词典信息,本发明构造了一种词典特征向量,并通过双向循环神经网络,使得词典向量能紧密结合上下文信息。对于无标注集信息的提取,本发明使用了语言模型。实验证明,在融入词典和无标注集信息后,该模型的领域适应性要高于单纯的BERT分词模型。另外,该模型只需要在标注集所在领域训练一次,就可以适用于其他不同领域。因此,它的训练成本极低,而领域适应性却极强。
附图说明
图1是本发明的整体实施方案流程图;
图2是本发明的神经网络结构图;
图3是对图2中BERT模块的展开;
图4是对图2中DICT模块的展开。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1-4所示,一种基于深度学习的领域自适应中文分词方法,具体实现步骤如下:
步骤1、对文本序列进行处理得到BERT模型的输出、词典模块的输出和语言模型的输出。如图3所示,将文本序列输入图3所示BERT中文预训练模型。
1-1、获得BERT模型的输出:
将文本序列传入BERT模型,对于一个文本序列,将之输入BERT中文预训练模型,可以得到此BERT模型的输出。
Figure GDA0002396242010000042
其中,Ei表示字符i的词向量。
Figure GDA0002396242010000043
是表示字符i-1的前向隐层状态,
Figure GDA0002396242010000051
表示字符i+1的后向隐层状态。
1-2获得词典模块的输出:
为文本序列中每个字符构造一个词典特征向量,将之传入双向循环神经网络,得到词典模块的输出;对于一个输入序列C=(c1,c2,…,cn),用一个四维的特征向量fi来表示其对应的字符ci,可以得到特征序列F=(f1,f2,…,fn)。fi的四个维度分别对应B、M、E、S(词的首字符、中间字符、末尾字符、单个字符成词)。例如,fi2表示fi的第二个维度,它的值表示ci标识M的概率。
对于每个字符ci,获取其特征向量fi的具体算法流程如下:
①.初始化,设置flag=0,fi=(0.1,0.1,0.1,0.1)(因为字符匹配无法完整地考虑上下文信息,所以我们将概率设为0.9和0.1,而不是1和0)。
②.计算出ci的n-grams窗口词汇,如表1所示。
③.判断每个词汇是否存在于词典中,如果存在,转步骤④,不存在,重复步骤③。遍历完所有词汇后转步骤⑤;
④.设置flag=1,索引ci在这个词汇中的位置index,如果index=0,fi1=0.9(表示ci标识B的可能性为0.9),如果index=len(词汇长度)-1,fi3=0.9,否则fi2=0.9。转步骤③。
⑤.如果flag=0,表示所有窗口词汇都不在词典中,此时设置fi4=0.9。
将词典特征向量传入双向循环神经网络。由于词典信息没有充分考虑上下文信息,而借助双向循环神经网络能够让单个字符对应的表征向量更好地表达它在词中的位置信息,此模块的输出如下:
Figure GDA0002396242010000052
其中,fi是字符Ci的特征向量,
Figure GDA0002396242010000053
是第i-1个字符前向隐藏层状态,
Figure GDA0002396242010000054
是第i+1个字符后向隐藏层状态,θ是BiLSTM的参数。
1-3获得语言模型的输出:
利用目标领域的无标注集预训练好语言模型,对于传入的文本序列,能够得到语言模型的输出,公式如下:
Figure GDA0002396242010000061
其中
Figure GDA0002396242010000062
表示前向的语言模型的输出,
Figure GDA0002396242010000063
表示后向的语言模型的输出。
步骤2、使用类似门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出,公式如下:
Figure GDA0002396242010000064
z=σ(UzhDICT+LM+WZhBERT+bz)
r=σ(UrhDICT+LM+WrhBERT+br)
Figure GDA0002396242010000065
Figure GDA0002396242010000066
其中,z和r分别表示更新门和重置门,Uz、WZ表示更新门的权重矩阵,bz表示更新门的偏置量。r表示重置门。Ur、Wr表示重置门的权重矩阵、br表示重置门的偏置量。
Figure GDA0002396242010000067
是候选隐藏状态,
Figure GDA0002396242010000068
表示权重矩阵,
Figure GDA0002396242010000069
表示偏置量。h是一个新的隐藏层状态。
步骤3、使用softmax函数,得到每个字符对应的预测概率yi,公式如下:
3-1使用softmax函数,得到每个字符对应的预测概率
Figure GDA00023962420100000610
公式如下:
Figure GDA00023962420100000611
其中,W是一个权重矩阵,b是偏置量。
3-2.给出一个序列的正确标注y1,y2,…,yn,其中yi使用独热编码表示。交叉熵损失函数表示如下:
Figure GDA00023962420100000612
其中,Y={y1,y2,…,yn},
Figure GDA00023962420100000613
通过最小化交叉熵损失函数,模型实现了反向传播。最终得到结果,该发明极大增强了中文分词模型的领域适应性。

Claims (4)

1.一种基于深度学习的领域自适应中文分词方法,其特征在于包括如下步骤:
步骤1、对文本序列进行处理得到BERT模型的输出、词典模块的输出和语言模型的输出;
步骤2、使用门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出;
步骤3、使用softmax函数,得到每个字符对应的预测概率;
步骤1具体实现如下:
1-1、获得BERT模型的输出:
将文本序列传入BERT模型,得到此BERT模型的输出;
Figure FDA0002396239000000011
其中,Ei表示字符i的词向量;
Figure FDA0002396239000000012
是表示字符i-1的前向隐层状态,
Figure FDA0002396239000000013
表示字符i+1的后向隐层状态;
1-2获得词典模块的输出:
为文本序列中每个字符构造一个词典特征向量,将之传入双向循环神经网络,得到词典模块的输出;对于一个输入序列C=(c1,c2,…,cn),用一个四维的特征向量fi来表示其对应的字符ci,得到特征序列F=(f1,f2,…,fn);fi的四个维度分别对应B、M、E、S;
将词典特征向量传入词典模块,此模块的输出如下:
Figure FDA0002396239000000014
其中,fi是字符ci的特征向量,
Figure FDA0002396239000000015
是第i-1个字符前向隐藏层状态,
Figure FDA0002396239000000016
是第i+1个字符后向隐藏层状态,θ是BiLSTM的参数;
1-3获得语言模型的输出:
利用目标领域的无标注集预训练好语言模型,对于传入的文本序列,能够得到语言模型的输出,公式如下:
Figure FDA0002396239000000017
其中
Figure FDA0002396239000000018
表示前向的语言模型的输出,
Figure FDA0002396239000000019
表示后向的语言模型的输出。
2.根据权利要求1所述的一种基于深度学习的领域自适应中文分词方法,其特征在于步骤1-2中,对于每个字符ci,获取其特征向量fi的具体流程如下:
①.初始化,设置flag=0,fi=(0.1,0.1,0.1,0.1);
②.计算出ci的n-grams窗口词汇;
③.判断每个词汇是否存在于词典中,如果存在,转步骤④,不存在,重复步骤③;遍历完所有词汇后转步骤⑤;
④.设置flag=1,索引ci在这个词汇中的位置index,如果index=0,fi1=0.9,fi1表示ci标识B的可能性为0.9,如果index=len-1,len表示词汇长度,fi3=0.9;否则fi2=0.9;转步骤③;
⑤.如果flag=0,表示所有窗口词汇都不在词典中,此时设置fi4=0.9。
3.根据权利要求2所述的一种基于深度学习的领域自适应中文分词方法,其特征在于步骤2所述的使用类似门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出,具体公式如下:
Figure FDA0002396239000000021
z=σ(UzhDICT+LM+WZhBERT+bz)
r=σ(UrhDICT+LM+WrhBERT+br)
Figure FDA0002396239000000022
Figure FDA0002396239000000023
其中,z和r分别表示更新门和重置门,Uz、WZ表示更新门的权重矩阵,bz表示更新门的偏置量;r表示重置门;Ur、Wr表示重置门的权重矩阵、br表示重置门的偏置量;
Figure FDA0002396239000000024
是候选隐藏状态,
Figure FDA0002396239000000025
表示权重矩阵,
Figure FDA0002396239000000026
表示偏置量;h是一个新的隐藏层状态。
4.根据权利要求3所述的一种基于深度学习的领域自适应中文分词方法,其特征在于步骤3具体实现如下:
3-1使用softmax函数,得到每个字符对应的预测概率
Figure FDA0002396239000000027
公式如下:
Figure FDA0002396239000000028
其中,W是一个权重矩阵,b是偏置量;
3-2.给出一个序列的正确标注y1,y2,...,yn,其中yi使用独热编码表示;交叉熵损失函数表示如下:
Figure FDA0002396239000000031
其中,Y={y1,y2,...,yn},
Figure FDA0002396239000000032
通过最小化交叉熵损失函数,模型实现了反向传播。
CN201910620157.7A 2019-07-10 2019-07-10 一种基于深度学习的领域自适应中文分词方法 Active CN110516229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910620157.7A CN110516229B (zh) 2019-07-10 2019-07-10 一种基于深度学习的领域自适应中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910620157.7A CN110516229B (zh) 2019-07-10 2019-07-10 一种基于深度学习的领域自适应中文分词方法

Publications (2)

Publication Number Publication Date
CN110516229A CN110516229A (zh) 2019-11-29
CN110516229B true CN110516229B (zh) 2020-05-05

Family

ID=68622642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910620157.7A Active CN110516229B (zh) 2019-07-10 2019-07-10 一种基于深度学习的领域自适应中文分词方法

Country Status (1)

Country Link
CN (1) CN110516229B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126037B (zh) * 2019-12-18 2021-10-29 昆明理工大学 一种基于孪生循环神经网络的泰文句子切分方法
CN111767718B (zh) * 2020-07-03 2021-12-07 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN113641793B (zh) * 2021-08-16 2024-05-07 国网安徽省电力有限公司电力科学研究院 一种针对电力标准的长文本匹配优化的检索系统
CN115329069B (zh) * 2022-06-10 2023-10-13 黑龙江省网络空间研究中心 基于bert无监督文本分类的舆情分析方法和系统
CN118093834A (zh) * 2024-04-22 2024-05-28 邦宁数字技术股份有限公司 一种基于aigc大模型的语言处理问答系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145483A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法
CN107526355A (zh) * 2016-06-17 2017-12-29 苗玉水 自适应能自动导航的外语语音云计算集群遥控的执行系统
CN107908618A (zh) * 2017-11-01 2018-04-13 中国银行股份有限公司 一种热点词发现方法和装置
CN109086267A (zh) * 2018-07-11 2018-12-25 南京邮电大学 一种基于深度学习的中文分词方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526355A (zh) * 2016-06-17 2017-12-29 苗玉水 自适应能自动导航的外语语音云计算集群遥控的执行系统
CN107145483A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法
CN107908618A (zh) * 2017-11-01 2018-04-13 中国银行股份有限公司 一种热点词发现方法和装置
CN109086267A (zh) * 2018-07-11 2018-12-25 南京邮电大学 一种基于深度学习的中文分词方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"领域自适应中文分词系统的研究与实现";张少阳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170815(第8期);第I138-545 页 *

Also Published As

Publication number Publication date
CN110516229A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN110516229B (zh) 一种基于深度学习的领域自适应中文分词方法
CN109086267B (zh) 一种基于深度学习的中文分词方法
Zhang et al. A joint model of intent determination and slot filling for spoken language understanding.
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN110418210A (zh) 一种基于双向循环神经网络和深度输出的视频描述生成方法
CN109635124A (zh) 一种结合背景知识的远程监督关系抽取方法
CN107346340A (zh) 一种用户意图识别方法及系统
CN111291534A (zh) 面向中文长文本自动摘要的全局编码方法
CN108920468B (zh) 一种基于强化学习的蒙汉双语种互译方法
CN108491372B (zh) 一种基于seq2seq模型的中文分词方法
CN111506732B (zh) 一种文本多层次标签分类方法
CN113486669B (zh) 应急救援输入语音的语义识别方法
CN113806494B (zh) 一种基于预训练语言模型的命名实体识别方法
CN115292463B (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN115617955B (zh) 分级预测模型训练方法、标点符号恢复方法及装置
CN113673535B (zh) 一种多模态特征融合网络的图像描述生成方法
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
Hong et al. Residual BiRNN based Seq2Seq model with transition probability matrix for online handwritten mathematical expression recognition
CN111651993A (zh) 融合局部-全局字符级关联特征的中文命名实体识别方法
CN111651985A (zh) 一种用于中文分词的方法与装置
CN110134950A (zh) 一种字词结合的文本自动校对方法
CN110298046B (zh) 一种翻译模型训练方法、文本翻译方法及相关装置
Yu et al. Cross-Domain Slot Filling as Machine Reading Comprehension.
CN117633239A (zh) 一种结合组合范畴语法的端到端方面情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20191129

Assignee: Hangzhou Yuanchuan New Technology Co.,Ltd.

Assignor: HANGZHOU DIANZI University

Contract record no.: X2020330000104

Denomination of invention: A domain adaptive Chinese word segmentation method based on deep learning

Granted publication date: 20200505

License type: Common License

Record date: 20201125