CN109213997B - 一种基于双向长短时记忆网络模型的中文分词方法 - Google Patents

一种基于双向长短时记忆网络模型的中文分词方法 Download PDF

Info

Publication number
CN109213997B
CN109213997B CN201810933201.5A CN201810933201A CN109213997B CN 109213997 B CN109213997 B CN 109213997B CN 201810933201 A CN201810933201 A CN 201810933201A CN 109213997 B CN109213997 B CN 109213997B
Authority
CN
China
Prior art keywords
label
model
msr
chinese character
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810933201.5A
Other languages
English (en)
Other versions
CN109213997A (zh
Inventor
邵党国
郑娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810933201.5A priority Critical patent/CN109213997B/zh
Publication of CN109213997A publication Critical patent/CN109213997A/zh
Application granted granted Critical
Publication of CN109213997B publication Critical patent/CN109213997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于双向长短时记忆网络模型的中文分词方法,首先获得任一领域的数据集,并将数据集分为训练集和测试集,然后将训练集进行预处理,将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理,再把处理好的训练集和数据集msr分别输入Bi‑LSTM神经网络模型中进行训练,得到训练集的模型X_Bi‑LSTM模型和msr_Bi‑LSTM模型,然后分别用X_Bi‑LSTM模型、msr_Bi‑LSTM模型对测试集进行标签预测,并对两种模型的预测概率进行权重组合,得到组合后的各汉字标签的概率,然后利用Viterbe算法对组合后的各标签概率进行计算得到各汉字属于各标签的最终概率,并将概率最大值所属标签作为各汉字的标签,从而完成中文分词,本发明可获得较好的分词结果,提高了分词的准确率。

Description

一种基于双向长短时记忆网络模型的中文分词方法
技术领域
本发明涉及一种基于双向长短时记忆网络模型的中文分词方法,属于自然语言处理领域。
背景技术
在中文中,词与词之间不存在分隔符,词本身也缺乏明显的形态标记,因此,中文信息处理的特有问题就是如何将汉语的字串分割为合理的词语序列,即中文分词,因而分词是中文自然语言处理的第一步,这是不同于其他语言的自然语言处理系统的重要特点,也是影响自然语言处理在中文信息处理中应用的重要因素。近年来,国内外众多学者在中文分词领域做了大量研究工作,取得了一定的研究成果。但是,从实用化、效率、功能角度看,其还不能满足实际需求。
公知的中文分词主要包括四种方法:1.基于词典的分词方法,如吴春颖(<基于二元语法的N-最大概率中文粗分模型>,2007,27(12):2902-2905);2.基于统计的分词方法,如Tseng H(<A conditional random field word segmenter for sighan bakeoff 2005>,2005:168-171);3.基于理解的分词方法,如Wu A(<Word segmentation in sentenceanalysis>,1998);4.基于神经网络的分词方法,如Zheng X(<Deep learning for Chineseword segmentation and POS tagging>,2013)。其中基于词典的分词方法程序简单易行,分词速度快,但是其分词精度受词典的影响很大,而且不能处理歧义词。基于统计的分词方法只有训练语料规模足够大并且覆盖面足够广的情况下才可以获得较高的分词准确率,其新词识别能力相对较弱。基于理解的分词方法的思想是模拟人对句子的理解,在分词的同时进行句法、语义分析,这种方法需要大量的语言知识做支撑。基于神经网络的分词方法借助神经网络自动学习数据特征,避免了传统的分词方法由于人为设置的局限性,但是神经网络模型受上下文窗口大小的影响比较大,当窗口较大时容易引入过多特征带来的杂质信息并容易出现过拟合问题,而且传统的循环神经网络(如RNN)只是依靠句子顺序上的上文信息,并不能利用句子中的未来文本信息。
发明内容
本发明的目的在于提供一种基于双向长短时记忆网络模型的中文分词方法,本发明通过对某一领域内的信息训练来学习领域内的信息特征,对领域外的信息(msr)训练来学习领域外的特征,从而分别获得分词模型,通过以上分词模型对某一领域内信息进行分词时可获得较好的分词结果,提高了分词的准确率。
本发明的技术方案是:首先获得任一领域的数据集,并将数据集分为训练集和测试集,然后将训练集进行预处理,将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理,再把处理好的训练集和数据集msr分别输入到双向长短时记忆神经网络模型即Bi-LSTM神经网络模型中进行训练,分别得到训练集的模型和msr_Bi-LSTM模型,训练集的模型记为X_Bi-LSTM模型,然后分别用X_Bi-LSTM模型、msr_Bi-LSTM模型对测试集进行标签预测,并对两种模型的预测概率进行权重组合,得到组合后的各汉字标签的概率,然后利用Viterbe算法对组合后的各汉字的各标签概率进行计算得到各汉字属于各标签的最终概率,对比各汉字在各标签下的概率值,将概率最大值所属标签作为各汉字的标签,从而完成中文分词。
本发明方法的具体步骤如下:
Step1:首先获得任一领域的文本数据集,并将文本数据集分为训练集和测试集,然后将训练集进行预处理,预处理过程具体为利用BMES标注方式对训练集中的汉字进行标注,其中对于多字词,B为多字词中的第一个字的标签,M为多字词中去除第一个字和最后一个字后其他字的标签,E为多字词中最后一个字的标签,S为单字词的标签,数据集msr为已标注完成的数据集,然后将标注后的训练集和数据集msr进行字嵌入处理,具体过程为根据标点符号对标注后的训练集和数据集msr进行切分,并将切分后的结果分别用数组data和label表示,其中data数据组包括每一个汉字,label数据组包括每一个汉字对应的标签,然后将data数据组和label数据组分别进行数字化处理,对data数据组的每一个汉字用该汉字第一次出现的顺序的数字表示,并存储在d[‘x’]中,对label数据组的标签用阿拉伯数字进行表示,并存储在d[‘y’]中,然后利用词向量技术将d[‘x’]和d[‘y’]中的数字进行向量转化,每个汉字转化成长度为n的向量,得到各汉字在1~n维度下的概率;
Step2:将Step1得到的训练集中的各汉字的向量和各汉字对应的标签的数据输入至Bi-LSTM神经网络模型中进行训练,得到训练集的模型X_Bi-LSTM模型,将数据集msr中的各数据输入至Bi-LSTM神经网络模型中进行训练,得到msr_Bi-LSTM模型;
Step3:利用Step2得到的X_Bi-LSTM模型和msr_Bi-LSTM模型分别对测试集中的各汉字的标签进行概率预测,分别得到两种预测概率P1i、P2i,其中P1i表示利用X_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率,i=B,M,E,S,P2i表示利用msr_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率,然后将两种模型的预测概率进行权重组合,得到测试集中各汉字的标签综合预测概率P,公式如下:
P=a*P1i+b*P2i
Step4:利用Viterbi算法得出测试集中的各汉字在各标签下的概率,比较该汉字在各标签下的概率,取概率最大值所属标签作为各汉字最终的标签。
本发明方法应用在冶金领域,在预测冶金信息分词时,使用Bi-LSTM网络训练领域外信息和领域内信息分别获得较好的分词模型,通过权重结合领域外模型和领域内模型的预测结果,来解决冶金语料不足导致的模型不理想以及对冶金信息中域外单词分词的问题,实现对冶金信息的较好分词。
LSTM神经网络模型和Bi-LSTM神经网络模型的工作原理如下:
LSTM神经网络模型通过输入门、忘记门和输出门三种门对细胞的行为进行控制,门上的操作基于Sigmoid网络层和元素级的逐点乘积组成。通过Sigmoid输出介于0到1之间的数值用来表示信息的通过程度,其中1表示信息全部可以通过,0表示信息都不可以通过。
通过忘记门的Sigmoid层可以使细胞忘记信息,其中σ表示sigmod函数,Wf表示遗忘门的权重矩阵,ht-1表示上一层的输出,xt为当前层的输入,bf为遗忘门的偏置项,ft表示遗忘门的输出。
ft=σ(Wf·(ht-1,xt)+bf)
当在细胞中存储信息时,首先通过输入门的Sigmoid获取将要更新的信息it,然后通过tanh函数创建新的向量
Figure BDA0001767152030000031
最后用ft乘以旧的细胞状态Ct-1实现要遗忘的信息,再与
Figure BDA0001767152030000032
的乘积相加获得细胞状态的更新。Wi、bi分别表示激活函数是sigmod函数时输入门的权重矩阵和输入门的偏置项,WC、bC分别表示激活函数是tanh函数时输入门的权重矩阵和输入门的偏置项,Ct表示当前细胞状态。
it=σ(Wi·(ht-1,xt)+bi)
Figure BDA0001767152030000033
Figure BDA0001767152030000034
通过输出门的Sigmoid层决定输出哪些信息。然后用tanh函数处理细胞的状态,最后两部分的乘积即为要输出的值。Ot表示输出过程的中间结果,Wo表示输出门的权重矩阵,h·表示上一序列的隐藏状态,x·表示本序列数据,bo表示输出门的偏置项,ht表示输出门的输出。
Ot=σ(Wo·(h·,x·)+bo)
ht=Ot·tanh(Ct)
双向LSTM即Bi-LSTM神经网络模型借助双向循环网络(Bidirectional RNN,BRNN)的思想,通过前向和后向两层分别从句子的前方和后方运行。由于Bi-LSTM可以同时捕获历史和未来两个方向上的长距离信息,所以分别把数据集msr和训练数据集经过字嵌入后输入Bi-LSTM神经网络中进行训练得到基于训练数据集的X_Bi-LSTM分词模型和基于数据集msr的msr_Bi-LSTM分词模型。
当通过Step3产生每个字对应的标签概率之后,需要通过标签推断层确定当前字最终对应的标签,本发明方法中采用Viterbi算法进行计算,具体为:当前字对应某个标签的概率等于前一个字在某个标签下的概率加上标签间的转移概率再加上通过训练得到的模型对其当前字预测得到该标签的概率,由于前一个字在四个标签下都有值,所以计算当前字在每个标签下的概率时会根据不同的转移概率得到多个值,选择最大的作为最终值,然后取每一列中最大概率值的作为当前字所属的标签即最短路径,得到每个字所属的最终标签。
本发明的有益效果是:
1、本发明通过对某一领域内的信息加入领域外的知识,并使用基于双向长短时记忆(Bi-LSTM)的深度学习模型对某一领域内的信息训练以学习某一领域内的特征,对领域外的信息(msr)训练以学习领域外的特征,进而分别获得两种分词模型,把领域外模型和领域内模型的预测结果进行权重的结合,再通过Viterbi处理解决了语料不足导致的模型不理想以及对信息中域外单词分词的问题。
2、本发明可获得较好的分词结果,提高了分词的准确率。
3、本发明与公知的分词方法相比,对特定领域的信息分词有针对性,实现较好的分词。
附图说明
图1为本发明的流程图;
图2为本发明实施例1的模型训练过程图;
图3为本发明实施例1的模型预测过程图;
图4为本发明实施例1中长短时记忆网络模型图;
图5为本发明实施例1中双向长短时记忆网络模型图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
实施例1:如图1所示,为基于双向长短时记忆网络模型在冶金领域的中文分词方法的工作流程,具体步骤为:
Step1:由于冶金信息领域缺乏权威的语料,所以爬取冶金信息网的数据,获得冶金领域的文本数据集,并将文本数据集分为训练集和测试集,然后将训练集进行预处理,预处理过程具体为利用BMES标注方式对训练集中的汉字进行标注如表1所示,其中对于多字词,B为多字词中的第一个字的标签,M为多字词中去除第一个字和最后一个字后其他字的标签,E为多字词中最后一个字的标签,S为单字词的标签,数据集msr为已标注完成的数据集,然后将标注后的训练集和数据集msr进行字嵌入处理,具体过程为根据标点符号对标注后的训练集和数据集msr进行切分,并将切分后的结果分别用数组data和label表示如表2所示,其中data数据组包括每一个汉字,label数据组包括每一个汉字对应的标签,然后将data数据组和label数据组分别进行数字化处理,对data数据组的每一个汉字用该汉字第一次出现的顺序的数字表示,并存储在d[‘x’]中,对label数据组的标签用阿拉伯数字进行表示,并存储在d[‘y’]中,如表3所示,然后利用词向量技术将d[‘x’]和d[‘y’]中的数字进行向量转化,每个汉字转化成长度为n的向量,得到各汉字在1~n维度下的概率,如表4所示;
表1四词位标注形式
Figure BDA0001767152030000051
表2 data和label数据形式
Figure BDA0001767152030000052
表3 d[‘x’]和d[‘y’]数据形式
Figure BDA0001767152030000053
表4字嵌入
Figure BDA0001767152030000054
Figure BDA0001767152030000061
Step2:将Step1得到的训练集中的各汉字的向量和各汉字对应的标签的数据输入至Bi-LSTM神经网络模型中进行训练,得到训练集的模型X_Bi-LSTM模型,将数据集msr中的各数据输入至Bi-LSTM神经网络模型中进行训练,如图2所示,为本实施例模型的训练过程,得到msr_Bi-LSTM模型;
Step3:利用Step2得到的X_Bi-LSTM模型和msr_Bi-LSTM模型分别对测试集中的各汉字的标签进行概率预测,如图3所示,为本实施例发明的模型预测过程,分别得到两种预测概率P1i、P2i,其中P1i表示利用X_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率,i=B,M,E,S,P2i表示利用msr_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率,然后将两种模型的预测概率进行权重组合,得到测试集中各汉字的标签综合预测概率P,如表5所示,公式如下:
P=a*P1i+b*P2i
表5字对应的标签概率
字号 8 43 32 88 36 198 7 2 41 163 ... ...
s 0.2 0.3 0.3 0.1 0.2 0.2 0.3 0.2 0.2 0.2 ... ...
b 0.5 0.1 0.3 0.3 0.3 0.3 0.2 0.1 0.5 0.2 ... ...
m 0.1 0.2 0.1 0.1 0.3 0.4 0.4 0.4 0.1 0.4 ... ...
e 0.3 0.4 0.3 0.5 0.2 0.1 0.1 0.3 0.3 0.2 ... ...
合计 1 1 1 1 1 1 1 1 1 1
本实施例的长短时记忆网络模型图如图4所示;
本实施例的双向长短时记忆网络模型图如图5所示;
Step4:利用Viterbi算法得出测试集中的各汉字在各标签下的概率,比较该汉字在各标签下的概率,如表6所示,取概率最大值所属标签作为各汉字最终的标签。
表6最终字对应的标签概率
字号 8 43 32 88 36 198 7 2 41 163 ... ...
s 0.1 0.3 0.1 0.3 0.2 0.1 0.2 0.1 0.1 0.1 ... ...
b 0.5 0.2 0.5 0.1 0.5 0.2 0.1 0.2 0.5 0.2 ... ...
m 0.2 0.1 0.2 0.2 0.2 0.6 0.5 0.1 0.3 0.6 ... ...
e 0.2 0.4 0.2 0.4 0.1 0.1 0.2 0.6 0.1 0.1 ... ...
通过表6可以得出,字号8的标签为b,字号43的标签为e,字号32的标签为b,字号88的标签为e,字号36的标签为b,字号198的标签为m,字号7的标签为m,字号2的标签为e,字号41的标签为b,字号163的标签为m,等等,通过本发明方法对本冶金领域的中文数据完成了分词,且分词效果好,准确率高。
实施例2:本实施例方法同实施例1,不同之处在于,本实施例应用在非冶金领域,对选取的文本利用四词位(BEMS)标注,得到结果如表7所示:
表7四词位标注形式
Figure BDA0001767152030000071
根据标点符号对标注数据进行切分,并将切分后的结果分别用数组data和label表示如表8所示:
表8 data和label数据形式
Figure BDA0001767152030000072
其中data数据组包括每一个汉字,label数据组包括每一个汉字对应的标签,然后将data数据组和label数据组分别进行数字化处理,对data数据组的每一个汉字用该汉字第一次出现的顺序的数字表示,并存储在d[‘x’]中,对label数据组的标签用阿拉伯数字进行表示,并存储在d[‘y’]中,如表9所示,然后利用词向量技术将d[‘x’]和d[‘y’]中的数字进行向量转化,每个汉字转化成长度为n的向量,得到各汉字在1~n维度下的概率,如表10所示;
表9 d[‘x’]和d[‘y’]数据形式
Figure BDA0001767152030000073
表10字嵌入
字号 5 6 320 80 16 19 56 62 ... ...
第1维概率 0.01 0.05 0.05 0.11 0.12 0.16 0.04 0.13 ... ...
第2维概率 0.23 0.13 0.11 0.05 0.05 0.09 0.21 0.05 ... ...
第3维概率 0.09 0.12 0.16 0.06 0.15 0.02 0.16 0.05 ... ...
第4维概率 0.06 0.01 0.03 0.17 0.04 0.04 0.04 0.13 ... ...
第i维概率 ... ... ... ... ... ... ... ... ... ...
第n维概率 0.11 0.06 0.02 0.04 0.06 0.15 0.08 0.05 ... ...
利用得到的X_Bi-LSTM模型和msr_Bi-LSTM模型分别对测试集中的各汉字的标签进行概率预测,并将预测概率进行权重组合,结果如表11所示:
表11字对应的标签概率
Figure BDA0001767152030000074
Figure BDA0001767152030000081
利用Viterbi算法得出测试集中的各汉字在各标签下的概率,比较该汉字在各标签下的概率,如表12所示,取概率最大值所属标签作为各汉字最终的标签。
表12最终字对应的标签概率
字号 5 6 320 80 16 19 56 62 63 37 ... ...
s 0.1 0.2 0.4 0.5 0.3 0.2 0.7 0.6 0.4 0.1 ... ...
b 0.6 0.2 0.2 0.1 0.4 0.1 0.1 0.2 0.2 0.6 ... ...
m 0.1 0.1 0.2 0.1 0.2 0.2 0.1 0.1 0.3 0.1 ... ...
e 0.2 0.5 0.2 0.3 0.1 0.5 0.1 0.1 0.1 0.2 ... ...
通过表12可以得出,字号5的标签为b,字号6的标签为e,字号320的标签为s,字号80的标签为s,字号16的标签为b,字号19的标签为e,字号56的标签为s,字号62的标签为s,字号63的标签为s,字号67的标签为b。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.一种基于双向长短时记忆网络模型的中文分词方法,其特征在于,首先获得任一领域的数据集,并将数据集分为训练集和测试集,然后将训练集进行预处理,将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理,再把处理好的训练集和数据集msr分别输入到双向长短时记忆神经网络模型即Bi-LSTM神经网络模型中进行训练,分别得到训练集的模型和msr_Bi-LSTM模型,训练集的模型记为X_Bi-LSTM模型,然后分别用X_Bi-LSTM模型、msr_Bi-LSTM模型对测试集进行标签预测,并对两种模型的预测概率进行权重组合,得到组合后的各汉字标签的概率,然后利用Viterbe算法对组合后的各汉字的各标签概率进行计算得到各汉字属于各标签的最终概率,对比各汉字在各标签下的概率值,将概率最大值所属标签作为各汉字的标签,从而完成中文分词;
所述方法的具体步骤如下:
Step1:首先获得任一领域的文本数据集,并将文本数据集分为训练集和测试集,然后将训练集进行预处理,预处理过程具体为利用BMES标注方式对训练集中的汉字进行标注,其中对于多字词,B为多字词中的第一个字的标签,M为多字词中去除第一个字和最后一个字后其他字的标签,E为多字词中最后一个字的标签,S为单字词的标签,数据集msr为已标注完成的数据集,然后将标注后的训练集和数据集msr进行字嵌入处理,具体过程为根据标点符号对标注后的训练集和数据集msr进行切分,并将切分后的结果分别用数组data和label表示,其中data数据组包括每一个汉字,label数据组包括每一个汉字对应的标签,然后将data数据组和label数据组分别进行数字化处理,对data数据组的每一个汉字用该汉字第一次出现的顺序的数字表示,并存储在d[‘x’]中,对label数据组的标签用阿拉伯数字进行表示,并存储在d[‘y’]中,然后利用词向量技术将d[‘x’]和d[‘y’]中的数字进行向量转化,每个汉字转化成长度为n的向量,得到各汉字在1~n维度下的概率;
Step2:将Step1得到的训练集中的各汉字的向量和各汉字对应的标签的数据输入至Bi-LSTM神经网络模型中进行训练,得到训练集的模型X_Bi-LSTM模型,将数据集msr中的各数据输入至Bi-LSTM神经网络模型中进行训练,得到msr_Bi-LSTM模型;
Step3:利用Step2得到的X_Bi-LSTM模型和msr_Bi-LSTM模型分别对测试集中的各汉字的标签进行概率预测,分别得到两种预测概率P1i、P2i,其中P1i表示利用X_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率,i=B,M,E,S,P2i表示利用msr_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率,然后将两种模型的预测概率进行权重组合,得到测试集中各汉字的标签综合预测概率P,公式如下:
P=a*P1i+b*P2i
Step4:利用Viterbi算法得出测试集中的各汉字在各标签下的概率,比较该汉字在各标签下的概率,取概率最大值所属标签作为各汉字最终的标签。
2.根据权利要求1所述的基于双向长短时记忆网络模型的中文分词方法,其特征在于,所述方法应用在冶金领域。
CN201810933201.5A 2018-08-16 2018-08-16 一种基于双向长短时记忆网络模型的中文分词方法 Active CN109213997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810933201.5A CN109213997B (zh) 2018-08-16 2018-08-16 一种基于双向长短时记忆网络模型的中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810933201.5A CN109213997B (zh) 2018-08-16 2018-08-16 一种基于双向长短时记忆网络模型的中文分词方法

Publications (2)

Publication Number Publication Date
CN109213997A CN109213997A (zh) 2019-01-15
CN109213997B true CN109213997B (zh) 2021-11-19

Family

ID=64988341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810933201.5A Active CN109213997B (zh) 2018-08-16 2018-08-16 一种基于双向长短时记忆网络模型的中文分词方法

Country Status (1)

Country Link
CN (1) CN109213997B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222328B (zh) * 2019-04-08 2022-11-22 平安科技(深圳)有限公司 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN110245332B (zh) * 2019-04-22 2024-03-15 平安科技(深圳)有限公司 基于双向长短时记忆网络模型的中文编码方法和装置
CN110245334B (zh) * 2019-06-25 2023-06-16 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110516234A (zh) * 2019-08-06 2019-11-29 山东师范大学 基于gru的中医文本分词方法、系统、设备及介质
CN110852040B (zh) * 2019-11-05 2023-08-04 中电科大数据研究院有限公司 一种标点预测模型训练方法及文本标点确定方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Domain-Specific Chinese Word Segmentation Based on Bi-Directional Long-Short Term Memory Model;Dangguo Shao等;《IEEE Access》;20190115;第7卷;第12993-13002页 *
基于双向长短时记忆模型的中文分词方法;张洪刚等;《华南理工大学学报(自然科学版)》;20170331;第45卷(第3期);第61-67页 *

Also Published As

Publication number Publication date
CN109213997A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109213997B (zh) 一种基于双向长短时记忆网络模型的中文分词方法
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN109697232B (zh) 一种基于深度学习的中文文本情感分析方法
CN109871535B (zh) 一种基于深度神经网络的法语命名实体识别方法
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN111858945B (zh) 基于深度学习的评论文本方面级情感分类方法及系统
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN107145483B (zh) 一种基于嵌入式表示的自适应中文分词方法
CN107358948B (zh) 基于注意力模型的语言输入关联性检测方法
CN108717574B (zh) 一种基于连词标记和强化学习的自然语言推理方法
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN110263325B (zh) 中文分词系统
CN108595643A (zh) 基于多分类节点卷积循环网络的文本特征提取及分类方法
CN110569505B (zh) 一种文本输入方法及装置
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN113505225B (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
CN111476024A (zh) 一种文本分词方法、装置及模型训练方法
Chi et al. Enhancing joint entity and relation extraction with language modeling and hierarchical attention
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN111507103B (zh) 一种利用部分标注集的自训练神经网络分词模型
CN112199503A (zh) 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant