CN110516229A - 一种基于深度学习的领域自适应中文分词方法 - Google Patents
一种基于深度学习的领域自适应中文分词方法 Download PDFInfo
- Publication number
- CN110516229A CN110516229A CN201910620157.7A CN201910620157A CN110516229A CN 110516229 A CN110516229 A CN 110516229A CN 201910620157 A CN201910620157 A CN 201910620157A CN 110516229 A CN110516229 A CN 110516229A
- Authority
- CN
- China
- Prior art keywords
- output
- character
- model
- indicate
- door
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的领域自适应中文分词方法。本发明包括如下步骤:步骤1、对文本序列进行处理得到BERT模型的输出、词典模块的输出和语言模型的输出;步骤2、使用类似门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出;步骤3、使用softmax函数,得到每个字符对应的预测概率。本发明在BERT模型中融入了词典和目标领域的无标注集信息,这种方法极大增强了中文分词模型的领域适应性。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于深度学习的领域自适应中文分词方法。
背景技术
近几年,基于神经网络的中文分词模型在分词准确率上取得了突破性的进展。然而,这类分词模型仍存在领域适应性弱的问题。这个问题是由于训练集与测试集分属不同领域而引发的,具体来说就是测试集中包含很多在训练集中没有的领域相关词汇。不借助额外资源,只改进神经网络结构,无法很好地识别未出现词。因为词典和目标领域的无标注集中包含很多领域相关词汇,所以许多研究者会将它们作为额外资源,结合BiLSTM模型,来增强模型的领域适应性。然而,部分研究者提出的模型在训练好之后,仅仅只能适用于某一特定领域,如果要适用于另一领域,还需要重新训练。这种做法可以称为跨领域分词,即模型能在主领域(标注集所属领域)训练好后,适用于特定的目标领域(测试集所属领域)。然而,跨领域分词不能与模型的领域适应性划等号。模型的领域适应性是指模型在不重新训练的情况下,能在不同领域上体现较好的分词效果。因此,增强模型的领域适应性应从分词准确率和通用性两方面进行考虑。
发明内容
针对基于深度学习的中文分词模型领域适应性弱的问题,本发明提供了一种基于深度学习的领域自适应中文分词方法,该方法能增强模型领域适应性。
为解决技术问题,本发明提供的技术方案包括如下步骤:
步骤1、对文本序列进行处理得到BERT模型的输出、词典模块的输出和语言模型的输出。
1-1、获得BERT模型的输出:
将文本序列传入BERT模型,对于一个文本序列,将之输入BERT中文预训练模型,可以得到此BERT模型的输出。
其中,Ei表示字符i的词向量。是表示字符i-1的前向隐层状态,表示字符i+1的后向隐层状态。
1-2获得词典模块的输出:
为文本序列中每个字符构造一个词典特征向量,将之传入双向循环神经网络,得到词典模块的输出;对于一个输入序列C=(c1,c2,…,cn),用一个四维的特征向量fi来表示其对应的字符ci,可以得到特征序列F=(f1,f2,…,fn)。fi的四个维度分别对应B、M、E、S(词的首字符、中间字符、末尾字符、单个字符成词)。例如,fi2表示fi的第二个维度,它的值表示ci标识M的概率。
对于每个字符ci,获取其特征向量fi的具体算法流程如下:
①.初始化,设置flag=0,fi=(0.1,0.1,0.1,0.1)(因为字符匹配无法完整地考虑上下文信息,所以我们将概率设为0.9和0.1,而不是1和0)。
②.计算出ci的n-grams窗口词汇,如表1所示。
③.判断每个词汇是否存在于词典中,如果存在,转步骤④,不存在,重复步骤③。遍历完所有词汇后转步骤⑤;
④.设置flag=1,索引ci在这个词汇中的位置index,如果index=0,fi1=0.9(表示ci标识B的可能性为0.9),如果index=len(词汇长度)-1,fi3=0.9,否则fi2=0.9。转步骤③。
⑤.如果flag=0,表示所有窗口词汇都不在词典中,此时设置fi4=0.9。
将词典特征向量传入双向循环神经网络。由于词典信息没有充分考虑上下文信息,而借助双向循环神经网络能够让单个字符对应的表征向量更好地表达它在词中的位置信息,此模块的输出如下:
其中,fi是字符ci的特征向量,是第i-1个字符前向隐藏层状态,是第i+1个字符后向隐藏层状态,θ是BiLSTM的参数。
1-3获得语言模型的输出:
利用目标领域的无标注集预训练好语言模型,对于传入的文本序列,能够得到语言模型的输出,公式如下:
其中表示前向的语言模型的输出,表示后向的语言模型的输出。
步骤2、使用类似门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出,公式如下:
z=σ(UzhDICT+LM+WZhBERT+bz)
r=σ(UrhDICT+LM+WrhBERT+br)
其中,z和r分别表示更新门和重置门,Uz、WZ表示更新门的权重矩阵,bz表示更新门的偏置量。r表示重置门。Ur、Wr表示重置门的权重矩阵、br表示重置门的偏置量。是候选隐藏状态,表示权重矩阵,表示偏置量。h是一个新的隐藏层状态。
步骤3、使用softmax函数,得到每个字符对应的预测概率公式如下:
3-1使用softmax函数,得到每个字符对应的预测概率公式如下:
其中,W是一个权重矩阵,b是偏置量。
3-2.给出一个序列的正确标注y1,y2,...,yn,其中yi使用独热编码表示。交叉熵损失函数表示如下:
其中,Y={y1,y2,...,yn},
通过最小化交叉熵损失函数,模型实现了反向传播。
本发明有益效果如下:需要再添加3-4行
本发明在BERT模型中融入了词典和目标领域的无标注集信息,构造了一种新的中文分词神经网络模型。为了提取有利于分词的词典信息,本发明构造了一种词典特征向量,并通过双向循环神经网络,使得词典向量能紧密结合上下文信息。对于无标注集信息的提取,本发明使用了语言模型。实验证明,在融入词典和无标注集信息后,该模型的领域适应性要高于单纯的BERT分词模型。另外,该模型只需要在标注集所在领域训练一次,就可以适用于其他不同领域。因此,它的训练成本极低,而领域适应性却极强。
附图说明
图1是本发明的整体实施方案流程图;
图2是本发明的神经网络结构图;
图3是对图2中BERT模块的展开;
图4是对图2中DICT模块的展开。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1-4所示,一种基于深度学习的领域自适应中文分词方法,具体实现步骤如下:
步骤1、对文本序列进行处理得到BERT模型的输出、词典模块的输出和语言模型的输出。如图3所示,将文本序列输入图3所示BERT中文预训练模型。
1-1、获得BERT模型的输出:
将文本序列传入BERT模型,对于一个文本序列,将之输入BERT中文预训练模型,可以得到此BERT模型的输出。
其中,Ei表示字符i的词向量。是表示字符i-1的前向隐层状态,表示字符i+1的后向隐层状态。
1-2获得词典模块的输出:
为文本序列中每个字符构造一个词典特征向量,将之传入双向循环神经网络,得到词典模块的输出;对于一个输入序列C=(c1,c2,…,cn),用一个四维的特征向量fi来表示其对应的字符ci,可以得到特征序列F=(f1,f2,…,fn)。fi的四个维度分别对应B、M、E、S(词的首字符、中间字符、末尾字符、单个字符成词)。例如,fi2表示fi的第二个维度,它的值表示ci标识M的概率。
对于每个字符ci,获取其特征向量fi的具体算法流程如下:
①.初始化,设置flag=0,fi=(0.1,0.1,0.1,0.1)(因为字符匹配无法完整地考虑上下文信息,所以我们将概率设为0.9和0.1,而不是1和0)。
②.计算出ci的n-grams窗口词汇,如表1所示。
③.判断每个词汇是否存在于词典中,如果存在,转步骤④,不存在,重复步骤③。遍历完所有词汇后转步骤⑤;
④.设置flag=1,索引ci在这个词汇中的位置index,如果index=0,fi1=0.9(表示ci标识B的可能性为0.9),如果index=len(词汇长度)-1,fi3=0.9,否则fi2=0.9。转步骤③。
⑤.如果flag=0,表示所有窗口词汇都不在词典中,此时设置fi4=0.9。
将词典特征向量传入双向循环神经网络。由于词典信息没有充分考虑上下文信息,而借助双向循环神经网络能够让单个字符对应的表征向量更好地表达它在词中的位置信息,此模块的输出如下:
其中,fi是字符ci的特征向量,是第i-1个字符前向隐藏层状态,是第i+1个字符后向隐藏层状态,θ是BiLSTM的参数。
1-3获得语言模型的输出:
利用目标领域的无标注集预训练好语言模型,对于传入的文本序列,能够得到语言模型的输出,公式如下:
其中表示前向的语言模型的输出,表示后向的语言模型的输出。
步骤2、使用类似门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出,公式如下:
z=σ(UzhDICT+LM+WZhBERT+bz)
r=σ(UrhDICT+LM+WrhBERT+br)
其中,z和r分别表示更新门和重置门,Uz、WZ表示更新门的权重矩阵,bz表示更新门的偏置量。r表示重置门。Ur、Wr表示重置门的权重矩阵、br表示重置门的偏置量。是候选隐藏状态,表示权重矩阵,表示偏置量。h是一个新的隐藏层状态。
步骤3、使用softmax函数,得到每个字符对应的预测概率yi,公式如下:
3-1使用softmax函数,得到每个字符对应的预测概率公式如下:
其中,W是一个权重矩阵,b是偏置量。
3-2.给出一个序列的正确标注y1,y2,...,yn,其中yi使用独热编码表示。交叉熵损失函数表示如下:
其中,Y={y1,y2,...,yn},
通过最小化交叉熵损失函数,模型实现了反向传播。最终得到结果,该发明极大增强了中文分词模型的领域适应性。
Claims (5)
1.一种基于深度学习的领域自适应中文分词方法,其特征在于包括如下步骤:
步骤1、对文本序列进行处理得到BERT模型的输出、词典模块的输出和语言模型的输出;
步骤2、使用类似门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出;
步骤3、使用softmax函数,得到每个字符对应的预测概率。
2.根据权利要求1所述的一种基于深度学习的领域自适应中文分词方法,其特征在于步骤1具体实现如下:
1-1、获得BERT模型的输出:
将文本序列传入BERT模型,得到此BERT模型的输出;
其中,Ei表示字符i的词向量;是表示字符i-1的前向隐层状态,表示字符i+1的后向隐层状态;
1-2获得词典模块的输出:
为文本序列中每个字符构造一个词典特征向量,将之传入双向循环神经网络,得到词典模块的输出;对于一个输入序列C=(C1,C2,…,cn),用一个四维的特征向量fi来表示其对应的字符ci,得到特征序列F=(f1,f2,…,fn);fi的四个维度分别对应B、M、E、S;
将词典特征向量传入词典模块,此模块的输出如下:
其中,fi是字符ci的特征向量,是第i-1个字符前向隐藏层状态,是第i+1个字符后向隐藏层状态,θ是BiLSTM的参数;
1-3获得语言模型的输出:
利用目标领域的无标注集预训练好语言模型,对于传入的文本序列,能够得到语言模型的输出,公式如下:
其中表示前向的语言模型的输出,表示后向的语言模型的输出。
3.根据权利要求1所述的一种基于深度学习的领域自适应中文分词方法,其特征在于步骤1-2中,对于每个字符ci,获取其特征向量fi的具体流程如下:
①.初始化,设置flag=0,fi=(0.1,0.1,0.1,0.1);
②.计算出ci的n-grams窗口词汇;
③.判断每个词汇是否存在于词典中,如果存在,转步骤④,不存在,重复步骤③;遍历完所有词汇后转步骤⑤;
④.设置flag=1,索引ci在这个词汇中的位置index,如果index=0,fi1=0.9,fi1表示ci标识B的可能性为0.9,如果index=len-1,len表示词汇长度,fi3=0.9;否则fi2=0.9;转步骤③;
⑤.如果flag=0,表示所有窗口词汇都不在词典中,此时设置fi4=0.9。
4.根据权利要求2或3所述的一种基于深度学习的领域自适应中文分词方法,其特征在于步骤2所述的使用类似门控循环单元的门结构来处理BERT模型、词典模块和语言模型的输出,具体公式如下:
z=σ(UzhDICT+LM+WZhBERT+bz)
r=σ(UrhDICT+LM+WrhBERT+br)
其中,z和r分别表示更新门和重置门,Uz、WZ表示更新门的权重矩阵,bz表示更新门的偏置量;r表示重置门;Ur、Wr表示重置门的权重矩阵、br表示重置门的偏置量;是候选隐藏状态,表示权重矩阵,表示偏置量;h是一个新的隐藏层状态。
5.根据权利要求4所述的一种基于深度学习的领域自适应中文分词方法,其特征在于步骤3具体实现如下:
3-1使用softmax函数,得到每个字符对应的预测概率公式如下:
其中,W是一个权重矩阵,b是偏置量;
3-2.给出一个序列的正确标注y1,y2,...,yn,其中yi使用独热编码表示;交叉熵损失函数表示如下:
其中,Y={y1,y2,...,yn},
通过最小化交叉熵损失函数,模型实现了反向传播。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910620157.7A CN110516229B (zh) | 2019-07-10 | 2019-07-10 | 一种基于深度学习的领域自适应中文分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910620157.7A CN110516229B (zh) | 2019-07-10 | 2019-07-10 | 一种基于深度学习的领域自适应中文分词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516229A true CN110516229A (zh) | 2019-11-29 |
CN110516229B CN110516229B (zh) | 2020-05-05 |
Family
ID=68622642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910620157.7A Active CN110516229B (zh) | 2019-07-10 | 2019-07-10 | 一种基于深度学习的领域自适应中文分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516229B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126037A (zh) * | 2019-12-18 | 2020-05-08 | 昆明理工大学 | 一种基于孪生循环神经网络的泰文句子切分方法 |
CN111767718A (zh) * | 2020-07-03 | 2020-10-13 | 北京邮电大学 | 一种基于弱化语法错误特征表示的中文语法错误更正方法 |
CN113641793A (zh) * | 2021-08-16 | 2021-11-12 | 国网安徽省电力有限公司电力科学研究院 | 一种针对电力标准的长文本匹配优化的检索系统 |
CN115329069A (zh) * | 2022-06-10 | 2022-11-11 | 黑龙江省网络空间研究中心 | 基于bert无监督文本分类的舆情分析方法和系统 |
CN118093834A (zh) * | 2024-04-22 | 2024-05-28 | 邦宁数字技术股份有限公司 | 一种基于aigc大模型的语言处理问答系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145483A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
CN107526355A (zh) * | 2016-06-17 | 2017-12-29 | 苗玉水 | 自适应能自动导航的外语语音云计算集群遥控的执行系统 |
CN107908618A (zh) * | 2017-11-01 | 2018-04-13 | 中国银行股份有限公司 | 一种热点词发现方法和装置 |
CN109086267A (zh) * | 2018-07-11 | 2018-12-25 | 南京邮电大学 | 一种基于深度学习的中文分词方法 |
-
2019
- 2019-07-10 CN CN201910620157.7A patent/CN110516229B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526355A (zh) * | 2016-06-17 | 2017-12-29 | 苗玉水 | 自适应能自动导航的外语语音云计算集群遥控的执行系统 |
CN107145483A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
CN107908618A (zh) * | 2017-11-01 | 2018-04-13 | 中国银行股份有限公司 | 一种热点词发现方法和装置 |
CN109086267A (zh) * | 2018-07-11 | 2018-12-25 | 南京邮电大学 | 一种基于深度学习的中文分词方法 |
Non-Patent Citations (1)
Title |
---|
张少阳: ""领域自适应中文分词系统的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126037A (zh) * | 2019-12-18 | 2020-05-08 | 昆明理工大学 | 一种基于孪生循环神经网络的泰文句子切分方法 |
CN111126037B (zh) * | 2019-12-18 | 2021-10-29 | 昆明理工大学 | 一种基于孪生循环神经网络的泰文句子切分方法 |
CN111767718A (zh) * | 2020-07-03 | 2020-10-13 | 北京邮电大学 | 一种基于弱化语法错误特征表示的中文语法错误更正方法 |
CN113641793A (zh) * | 2021-08-16 | 2021-11-12 | 国网安徽省电力有限公司电力科学研究院 | 一种针对电力标准的长文本匹配优化的检索系统 |
CN113641793B (zh) * | 2021-08-16 | 2024-05-07 | 国网安徽省电力有限公司电力科学研究院 | 一种针对电力标准的长文本匹配优化的检索系统 |
CN115329069A (zh) * | 2022-06-10 | 2022-11-11 | 黑龙江省网络空间研究中心 | 基于bert无监督文本分类的舆情分析方法和系统 |
CN115329069B (zh) * | 2022-06-10 | 2023-10-13 | 黑龙江省网络空间研究中心 | 基于bert无监督文本分类的舆情分析方法和系统 |
CN118093834A (zh) * | 2024-04-22 | 2024-05-28 | 邦宁数字技术股份有限公司 | 一种基于aigc大模型的语言处理问答系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110516229B (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516229A (zh) | 一种基于深度学习的领域自适应中文分词方法 | |
CN109635124B (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN107133220B (zh) | 一种地理学科领域命名实体识别方法 | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
Bod | An all-subtrees approach to unsupervised parsing | |
CN106294593B (zh) | 结合从句级远程监督和半监督集成学习的关系抽取方法 | |
CN106383816B (zh) | 基于深度学习的中文少数民族地区地名的识别方法 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
CN108765383B (zh) | 基于深度迁移学习的视频描述方法 | |
CN109684642B (zh) | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 | |
CN105868184A (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN106407333A (zh) | 基于人工智能的口语查询识别方法及装置 | |
CN107480132A (zh) | 一种基于图像内容的古诗词生成方法 | |
CN107844473B (zh) | 基于语境相似度计算的词义消歧方法 | |
CN110879831A (zh) | 基于实体识别技术的中医药语句分词方法 | |
CN112733533A (zh) | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 | |
CN109684928B (zh) | 基于互联网检索的中文文档识别方法 | |
CN110633467A (zh) | 一种基于改进特征融合的语义关系抽取方法 | |
CN110162789A (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN109614626A (zh) | 基于万有引力模型的关键词自动抽取方法 | |
CN108509521A (zh) | 一种自动生成文本索引的图像检索方法 | |
CN112364623A (zh) | 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20191129 Assignee: Hangzhou Yuanchuan New Technology Co.,Ltd. Assignor: HANGZHOU DIANZI University Contract record no.: X2020330000104 Denomination of invention: A domain adaptive Chinese word segmentation method based on deep learning Granted publication date: 20200505 License type: Common License Record date: 20201125 |
|
EE01 | Entry into force of recordation of patent licensing contract |