CN113111654A - 一种基于分词工具共性信息和部分监督学习的分词方法 - Google Patents

一种基于分词工具共性信息和部分监督学习的分词方法 Download PDF

Info

Publication number
CN113111654A
CN113111654A CN202110381471.1A CN202110381471A CN113111654A CN 113111654 A CN113111654 A CN 113111654A CN 202110381471 A CN202110381471 A CN 202110381471A CN 113111654 A CN113111654 A CN 113111654A
Authority
CN
China
Prior art keywords
word segmentation
model
data
label
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110381471.1A
Other languages
English (en)
Other versions
CN113111654B (zh
Inventor
张旻
夏小勇
姜明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110381471.1A priority Critical patent/CN113111654B/zh
Publication of CN113111654A publication Critical patent/CN113111654A/zh
Application granted granted Critical
Publication of CN113111654B publication Critical patent/CN113111654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于分词工具共性信息和部分监督学习的分词方法。本发明步骤如下:(1)使用大量无标注数据和BiLSTM神经网络预训练一个具有多种分词工具共性信息的BiLSTM模块,获得训练好的BiLSTM神经网络模块;(2)使用少量标注数据训练初始分词模型,得到基于卷积神经网络和多种分词工具共性信息的初始分词模型M0。(3)利用M0对大量无标注数据集进行标注,得到大量伪标签数据。修改M0中的损失函数,利用少量标注数据和大量伪标签数据共同训练损失函数修改后的M0,得到基于多种分词工具共性信息和部分监督学习的中文分词模型M1。(4)迭代步骤(3)n次,得到最终分词模型Mn。本发明提高跨领域中文分词的准确率。

Description

一种基于分词工具共性信息和部分监督学习的分词方法
技术领域
本发明涉及中文分词任务,具体来讲是一种基于分词工具共性信息和部分监督学习的分词方法,属于自然语言处理技术领域。
背景技术
近几年,基于神经网络的中文分词模型在分词准确率上取得了非常好的效果。然而,现有的中文分词方法和分词工具在特殊领域的分词准确率往往会急剧下降,跨领域分词成为中文分词的难点。针对缺乏标注数据领域的中文分词问题,提出了一种融合分词工具共性信息和部分监督学习的分词方法。它将少量目标领域标注数据的直接监督和大量目标领域无标注数据的训练相结合,通过迭代训练逐步优化模型,提高分词模型的领域适应性。该方法在跨领域的多个数据集上进行实验,实验结果表明,该方法在多个数据集的评价指标均优于对比模型,证明了本文方法的有效性。
发明内容
本发明针对现有中文分词标注数据不足和领域适应性问题,公开一种融合多种分词工具共性信息和部分监督学习的跨域中文分词方法,提高跨领域分词的准确率。
本发明解决其技术问题所采用的技术方案包括以下步骤:
一种基于分词工具共性信息和部分监督学习的分词方法。按照如下步骤进行:
步骤(1)使用大量无标注数据和BiLSTM神经网络预训练一个具有多种分词工具共性信息的BiLSTM模块,获得训练好的BiLSTM神经网络模块;所述的BiLSTM神经网络模块是初始分词模型的一部分。
步骤(2)使用少量标注数据训练初始分词模型,得到一个基于卷积神经网络和多种分词工具共性信息的初始分词模型M0
步骤(3)利用初始分词模型M0对大量无标注数据集进行标注,得到大量伪标签数据。修改初始分词模型M0中的损失函数,利用少量标注数据和大量伪标签数据共同训练损失函数修改后的分词模型M0,得到基于多种分词工具共性信息和部分监督学习的中文分词模型M1
步骤(4)迭代步骤(3),直到n次,得到最终分词模型Mn。
进一步的,步骤(1)具体为:
1-1用现有的四种分词工具(Jieba,THULAC,SnowNLP和Stanford)分别对大量无标注数据进行标注,并在句子的首尾加上准则标记。
1-2使用步骤1-1获得的标注数据作为输入,BiLSTM神经网络作为特征提取层,预训练一个富含多种分词工具共性信息的BiLSTM神经网络模块。
1-3BiLSTM神经网络模块以字符嵌入为输入,输出含有多个分词工具共性信息的上下文表示:
Figure BDA0003013167760000021
其中,
Figure BDA0003013167760000022
表示句子的嵌入层向量,i表示句子中第i个字符,
Figure BDA0003013167760000023
表示第i个字符的特征。
进一步的,步骤(2)具体为:
2-1设输入句子x=[c1,c2...cn],使用word2vec将其转换为字符嵌入层向量
Figure BDA0003013167760000024
2-2使用步骤2-1获得的字符嵌入层向量
Figure BDA0003013167760000025
作为输入,CNN和蕴含多种分词工具共性信息的BiLSTM神经网络模块作为特征提取层。
Figure BDA0003013167760000026
其中,W和b都是卷积核的参数,k是卷积核的大小,
Figure BDA0003013167760000027
表示从第
Figure BDA0003013167760000028
个字符到第
Figure BDA0003013167760000029
个字符之间的连接。
Figure BDA00030131677600000210
其中,
Figure BDA00030131677600000211
是CNN网络获取第i个字符的特征,
Figure BDA00030131677600000212
是蕴含多种分词工具共性信息模块获取的特征,hi
Figure BDA00030131677600000213
Figure BDA00030131677600000214
相融合的特征。
2-3将特征提取层的输出输入到CRF层解码。
对于输入句子x=[c1,c2...cn],通过初始分词模型M0可以获得一个预测标签序列y=[y1,y2...yn],这个预测标签序列打分的公式如下:
Figure BDA0003013167760000031
其中,
Figure BDA0003013167760000032
表示标签转移矩阵,Pi,yi表示标签得分矩阵。句子x的标签序列为y的似然概率定义为:
Figure BDA0003013167760000033
其中,Yx表示句子x所有可能的标注序列集合,y'表示随机的一个标注序列损失函数的公式如下:
Figure BDA0003013167760000034
其中,xi是第i个训练句子,yi是这个句子正确的标签序列,Nl是训练集中标注句子的数量,θ是初始分词模型的所有参数。
进一步的,步骤(3)具体为:
3-1.使用初始分词模型M0对大量无标注数据进行标注,获得伪标签数据集PUL。
3-2.利用少量标注数据和步骤3-1获得的伪标签数据集PUL共同训练初始分词模型M0,伪标签标注数据的损失函数被定义为:
Figure BDA0003013167760000035
其中,θt-1是第t-1次迭代学习到的模型参数,Nu为伪标签数据集中句子的数量,p(yi|xi;θt-1)是根据上一轮迭代的模型θt-1对伪标签句子xi生成标签yi的概率分布。
进一步的,步骤(4)具体为:
按照步骤(3)的流程迭代的训练模型。此时,模型的更新既基于标注数据,也基于无标注数据。在第t次迭代,模型更新的目标函数为:
Figure BDA0003013167760000036
其中,θt是第t次迭代学习到的模型参数,l(θt)是标注数据的损失函数,lULt)是伪标注数据的损失函数,λ是一个可训练的参数。
本发明由于采取以上技术方案,具有如下优点:本发明融合多种分词工具共性信息和部分监督学习缓解特定领域标注数据不足的问题,提高跨领域中文分词的准确率。在同等标注数据的情况下,融合多种分词工具共性信息可以将分词模型的准确率提升约3.2%,融合无标注数据进行迭代训练后可进一步提升约2.8%。标注数据越少,本文方法相对于其他方法的优势越明显。
附图说明
图1是本发明的整体实施流程图;
图2是融入无标注数据的训练流程图;
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于分词工具共性信息和部分监督学习的分词方法。按照如下步骤进行:
步骤(1)使用大量无标注数据和BiLSTM神经网络预训练一个具有多种分词工具共性信息的BiLSTM模块,获得训练好的BiLSTM神经网络模块;所述的BiLSTM神经网络模块是初始分词模型的一部分。
步骤(2)使用少量标注数据训练初始分词模型,得到一个基于卷积神经网络和多种分词工具共性信息的初始分词模型M0
步骤(3)利用初始分词模型M0对大量无标注数据集进行标注,得到大量伪标签数据。修改初始分词模型M0中的损失函数,利用少量标注数据和大量伪标签数据共同训练损失函数修改后的分词模型M0,得到基于多种分词工具共性信息和部分监督学习的中文分词模型M1
步骤(4)迭代步骤(3),直到n次,得到最终分词模型Mn。
进一步的,步骤(1)具体为:
1-1用现有的四种分词工具(Jieba,THULAC,SnowNLP和Stanford)分别对大量无标注数据进行标注,并在句子的首尾加上准则标记。
1-2使用步骤1-1获得的标注数据作为输入,BiLSTM神经网络作为特征提取层,预训练一个富含多种分词工具共性信息的BiLSTM神经网络模块。
1-3BiLSTM神经网络模块以字符嵌入为输入,输出含有多个分词工具共性信息的上下文表示:
Figure BDA0003013167760000051
其中,
Figure BDA0003013167760000052
表示句子的嵌入层向量,i表示句子中第i个字符,
Figure BDA0003013167760000053
表示第i个字符的特征。
进一步的,步骤(2)具体为:
2-1设输入句子x=[c1,c2...cn],使用word2vec将其转换为字符嵌入层向量
Figure BDA0003013167760000054
2-2使用步骤2-1获得的字符嵌入层向量
Figure BDA0003013167760000055
作为输入,CNN和蕴含多种分词工具共性信息的BiLSTM神经网络模块作为特征提取层。
Figure BDA0003013167760000056
其中,W和b都是卷积核的参数,k是卷积核的大小,
Figure BDA0003013167760000057
表示从第
Figure BDA0003013167760000058
个字符到第
Figure BDA0003013167760000059
个字符之间的连接。
Figure BDA00030131677600000510
其中,
Figure BDA00030131677600000511
是CNN网络获取第i个字符的特征,
Figure BDA00030131677600000512
是蕴含多种分词工具共性信息模块获取的特征,hi
Figure BDA00030131677600000513
Figure BDA00030131677600000514
相融合的特征。
2-3将特征提取层的输出输入到CRF层解码。
对于输入句子x=[c1,c2...cn],通过初始分词模型M0可以获得一个预测标签序列y=[y1,y2...yn],这个预测标签序列打分的公式如下:
Figure BDA00030131677600000515
其中,
Figure BDA00030131677600000516
表示标签转移矩阵,Pi,yi表示标签得分矩阵。句子x的标签序列为y的似然概率定义为:
Figure BDA0003013167760000061
其中,Yx表示句子x所有可能的标注序列集合,y'表示随机的一个标注序列损失函数的公式如下:
Figure BDA0003013167760000062
其中,xi是第i个训练句子,yi是这个句子正确的标签序列,Nl是训练集中标注句子的数量,θ是初始分词模型的所有参数。
进一步的,步骤(3)具体为:
3-1使用分词模型1对无标注数据进行标注,获得伪标签数据集PUL。
3-2融合无标注数据来训练神经网络分词模型,无标注数据的损失函数被定义为:
Figure BDA0003013167760000063
其中,θt-1是第t-1次迭代学习到的模型参数,Nu为无标注句子的数量,p(yi|xi;θt-1)是根据上一轮迭代的模型θt-1对无标注句子xi生成标签yi的概率分布。
进一步的,步骤(4)具体为:
按照步骤(3)的流程迭代的训练模型。此时,模型的更新既基于标注数据,也基于无标注数据。在第t次迭代,模型更新的目标函数为:
Figure BDA0003013167760000064
其中,θt是第t次迭代学习到的模型参数,l(θt)是标注数据的损失函数,lULt)是伪标注数据的损失函数,λ是一个可训练的参数。

Claims (5)

1.一种基于分词工具共性信息和部分监督学习的分词方法,其特征在于包括如下步骤:
步骤(1)使用大量无标注数据和BiLSTM神经网络预训练一个具有多种分词工具共性信息的BiLSTM模块,获得训练好的BiLSTM神经网络模块;所述的BiLSTM神经网络模块是初始分词模型的一部分;
步骤(2)使用少量标注数据训练初始分词模型,得到一个基于卷积神经网络和多种分词工具共性信息的分词模型M0
步骤(3)利用分词模型M0对大量无标注数据集进行标注,得到大量伪标签数据;修改分词模型M0中的损失函数,利用少量标注数据和大量伪标签数据共同训练损失函数修改后的分词模型M0,得到基于多种分词工具共性信息和部分监督学习的中文分词模型M1
步骤(4)迭代步骤(3),直到n次,得到最终分词模型Mn。
2.根据权利要求所述的一种基于多种分词工具共性信息和部分监督学习的跨域中文分词方法,其特征在于,步骤(1)具体为:
1-1.用现有的四种分词工具分别对大量无标注数据进行标注,并在句子的首尾加上准则标记;
1-2.使用步骤1-1获得的标注数据作为输入,BiLSTM神经网络作为特征提取层,预训练一个富含多种分词工具共性信息的BiLSTM神经网络模块;
1-3.BiLSTM神经网络模块以字符嵌入为输入,输出含有多个分词工具共性信息的上下文表示:
Figure FDA0003013167750000011
其中,
Figure FDA0003013167750000012
表示句子的嵌入层向量,
Figure FDA0003013167750000013
中的下标i表示句子中第i个字符,
Figure FDA0003013167750000014
表示第i个字符的特征。
3.根据权利要求所述的一种基于多种分词工具共性信息和部分监督学习的跨域中文分词方法,其特征在于,步骤(2)具体为:
2-1.设输入的句字x=[c1,c2...cn],使用word2vec将其转换为字符嵌入层向量
Figure FDA0003013167750000015
2-2.使用步骤2-1获得的字符嵌入层向量
Figure FDA0003013167750000021
作为输入,CNN和蕴含多种分词工具共性信息的BILSTM神经网络模块作为特征提取层;
Figure FDA0003013167750000022
其中,W和b都是卷积核的参数,k是卷积核的大小,
Figure FDA0003013167750000023
表示从第
Figure FDA0003013167750000024
个字符到第
Figure FDA0003013167750000025
个字符之间的连接;
Figure FDA0003013167750000026
其中,其中,
Figure FDA0003013167750000027
是CNN网络获取第i个字符的特征,
Figure FDA0003013167750000028
是蕴含多种分词工具共性信息模块获取的第i个字符的特征,hi
Figure FDA0003013167750000029
Figure FDA00030131677500000210
相融合的特征;
2-3.将特征提取层的输出输入到CRF层解码;
对于输入句子x=[c1,c2...cn],通过初始分词模型M0可以获得一个预测标签序列y=[y1,y2...yn],这个预测标签序列打分的公式如下:
Figure FDA00030131677500000211
其中,
Figure FDA00030131677500000212
表示标签转移矩阵,Pi,yi表示标签得分矩阵;句子x的标签序列为y的似然概率定义为:
Figure FDA00030131677500000213
其中,Yx表示句子x所有可能的标注序列集合,y'表示随机的一个标注序列损失函数的公式如下:
Figure FDA00030131677500000214
其中,xi是第i个训练句子,yi是这个句子正确的标签序列,Nl是训练集中标注句子的数量,θ是初始分词模型的所有参数。
4.根据权利要求所述的一种基于多种分词工具共性信息和部分监督学习的跨域中文分词方法,其特征在于,步骤(3)具体为:
3-1.使用分词模型M0对无标注数据进行标注,获得伪标签数据集PUL;
3-2.利用少量标注数据和步骤3-1获得的伪标签数据集PUL共同训练初始分词模型M0,伪标签标注数据的损失函数被定义为:
Figure FDA0003013167750000031
其中,θt-1是第t-1次迭代学习到的模型参数,Nu为伪标签数据集中句子的数量,p(yi|xi;θt-1)是根据上一轮迭代的模型θt-1对伪标签句子xi生成标签yi的概率分布。
5.根据权利要求所述的一种基于多种分词工具共性信息和部分监督学习的跨域中文分词方法,其特征在于,步骤(4)具体为:按照步骤(3)的流程迭代的训练模型;此时,模型的更新既基于标注数据,也基于无标注数据;在第t次迭代,模型更新的目标函数为:
J(θt)=l(θt)+λlULt) (8)
其中,θt是第t次迭代学习到的模型参数,l(θt)是标注数据的损失函数,lULt)是伪标注数据的损失函数,λ是一个可训练的参数。
CN202110381471.1A 2021-04-09 2021-04-09 一种基于分词工具共性信息和部分监督学习的分词方法 Active CN113111654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110381471.1A CN113111654B (zh) 2021-04-09 2021-04-09 一种基于分词工具共性信息和部分监督学习的分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110381471.1A CN113111654B (zh) 2021-04-09 2021-04-09 一种基于分词工具共性信息和部分监督学习的分词方法

Publications (2)

Publication Number Publication Date
CN113111654A true CN113111654A (zh) 2021-07-13
CN113111654B CN113111654B (zh) 2022-03-08

Family

ID=76715169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110381471.1A Active CN113111654B (zh) 2021-04-09 2021-04-09 一种基于分词工具共性信息和部分监督学习的分词方法

Country Status (1)

Country Link
CN (1) CN113111654B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591488A (zh) * 2021-08-04 2021-11-02 山西长河科技股份有限公司 一种语义分析方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145483A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN111507103A (zh) * 2020-03-09 2020-08-07 杭州电子科技大学 一种利用部分标注集的自训练神经网络分词模型
CN111581964A (zh) * 2020-04-24 2020-08-25 西安交通大学 一种汉语古籍的主题分析方法
WO2021043015A1 (zh) * 2019-09-05 2021-03-11 腾讯科技(深圳)有限公司 语音识别方法及装置、神经网络训练方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145483A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
WO2021043015A1 (zh) * 2019-09-05 2021-03-11 腾讯科技(深圳)有限公司 语音识别方法及装置、神经网络训练方法及装置
CN111507103A (zh) * 2020-03-09 2020-08-07 杭州电子科技大学 一种利用部分标注集的自训练神经网络分词模型
CN111581964A (zh) * 2020-04-24 2020-08-25 西安交通大学 一种汉语古籍的主题分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孔玲玲: "面向少量标注数据的中文命名实体识别技术研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591488A (zh) * 2021-08-04 2021-11-02 山西长河科技股份有限公司 一种语义分析方法及装置

Also Published As

Publication number Publication date
CN113111654B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN111444721B (zh) 一种基于预训练语言模型的中文文本关键信息抽取方法
CN108959252B (zh) 基于深度学习的半监督中文命名实体识别方法
CN109977416B (zh) 一种多层次自然语言反垃圾文本方法及系统
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN112115995A (zh) 一种基于半监督学习的图像多标签分类方法
CN111694924A (zh) 一种事件抽取方法和系统
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN111581970B (zh) 一种网络语境的文本识别方法、装置及存储介质
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
Li et al. Text-to-text generative adversarial networks
CN110837736B (zh) 一种基于字结构的中文医疗记录的命名实体识别方法
CN114756681B (zh) 一种基于多注意力融合的评教文本细粒度建议挖掘方法
CN111460824A (zh) 一种基于对抗迁移学习的无标注命名实体识别方法
CN115510864A (zh) 一种融合领域词典的中文农作物病虫害命名实体识别方法
CN114444507A (zh) 基于水环境知识图谱增强关系的上下文参数中文实体预测方法
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN113111654B (zh) 一种基于分词工具共性信息和部分监督学习的分词方法
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN114528368B (zh) 基于预训练语言模型与文本特征融合的空间关系抽取方法
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN113160917B (zh) 一种电子病历实体关系抽取方法
CN114970537B (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN116166768A (zh) 一种基于规则的文本知识抽取方法及系统
CN116304064A (zh) 一种基于抽取式的文本分类方法
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant