CN109213997A - 一种基于双向长短时记忆网络模型的中文分词方法 - Google Patents
一种基于双向长短时记忆网络模型的中文分词方法 Download PDFInfo
- Publication number
- CN109213997A CN109213997A CN201810933201.5A CN201810933201A CN109213997A CN 109213997 A CN109213997 A CN 109213997A CN 201810933201 A CN201810933201 A CN 201810933201A CN 109213997 A CN109213997 A CN 109213997A
- Authority
- CN
- China
- Prior art keywords
- label
- chinese character
- probability
- model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000015654 memory Effects 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 238000003062 neural network model Methods 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000003780 insertion Methods 0.000 claims abstract description 8
- 230000037431 insertion Effects 0.000 claims abstract description 8
- 238000011160 research Methods 0.000 claims abstract description 5
- 238000013480 data collection Methods 0.000 claims abstract description 3
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000005272 metallurgy Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000003723 Smelting Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于双向长短时记忆网络模型的中文分词方法,首先获得任一领域的数据集,并将数据集分为训练集和测试集,然后将训练集进行预处理,将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理,再把处理好的训练集和数据集msr分别输入Bi‑LSTM神经网络模型中进行训练,得到训练集的模型X_Bi‑LSTM模型和msr_Bi‑LSTM模型,然后分别用X_Bi‑LSTM模型、msr_Bi‑LSTM模型对测试集进行标签预测,并对两种模型的预测概率进行权重组合,得到组合后的各汉字标签的概率,然后利用Viterbe算法对组合后的各标签概率进行计算得到各汉字属于各标签的最终概率,并将概率最大值所属标签作为各汉字的标签,从而完成中文分词,本发明可获得较好的分词结果,提高了分词的准确率。
Description
技术领域
本发明涉及一种基于双向长短时记忆网络模型的中文分词方法,属于自然语言处理领域。
背景技术
在中文中,词与词之间不存在分隔符,词本身也缺乏明显的形态标记,因此,中文信息处理的特有问题就是如何将汉语的字串分割为合理的词语序列,即中文分词,因而分词是中文自然语言处理的第一步,这是不同于其他语言的自然语言处理系统的重要特点,也是影响自然语言处理在中文信息处理中应用的重要因素。近年来,国内外众多学者在中文分词领域做了大量研究工作,取得了一定的研究成果。但是,从实用化、效率、功能角度看,其还不能满足实际需求。
公知的中文分词主要包括四种方法:1.基于词典的分词方法,如吴春颖(<基于二元语法的N-最大概率中文粗分模型>,2007,27(12):2902-2905);2.基于统计的分词方法,如Tseng H(<A conditional random field word segmenter for sighan bakeoff 2005>,2005:168-171);3.基于理解的分词方法,如Wu A(<Word segmentation in sentenceanalysis>,1998);4.基于神经网络的分词方法,如Zheng X(<Deep learning for Chineseword segmentation and POS tagging>,2013)。其中基于词典的分词方法程序简单易行,分词速度快,但是其分词精度受词典的影响很大,而且不能处理歧义词。基于统计的分词方法只有训练语料规模足够大并且覆盖面足够广的情况下才可以获得较高的分词准确率,其新词识别能力相对较弱。基于理解的分词方法的思想是模拟人对句子的理解,在分词的同时进行句法、语义分析,这种方法需要大量的语言知识做支撑。基于神经网络的分词方法借助神经网络自动学习数据特征,避免了传统的分词方法由于人为设置的局限性,但是神经网络模型受上下文窗口大小的影响比较大,当窗口较大时容易引入过多特征带来的杂质信息并容易出现过拟合问题,而且传统的循环神经网络(如RNN)只是依靠句子顺序上的上文信息,并不能利用句子中的未来文本信息。
发明内容
本发明的目的在于提供一种基于双向长短时记忆网络模型的中文分词方法,本发明通过对某一领域内的信息训练来学习领域内的信息特征,对领域外的信息(msr)训练来学习领域外的特征,从而分别获得分词模型,通过以上分词模型对某一领域内信息进行分词时可获得较好的分词结果,提高了分词的准确率。
本发明的技术方案是:首先获得任一领域的数据集,并将数据集分为训练集和测试集,然后将训练集进行预处理,将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理,再把处理好的训练集和数据集msr分别输入到双向长短时记忆神经网络模型即Bi-LSTM神经网络模型中进行训练,分别得到训练集的模型和msr_Bi-LSTM模型,训练集的模型记为X_Bi-LSTM模型,然后分别用X_Bi-LSTM模型、msr_Bi-LSTM模型对测试集进行标签预测,并对两种模型的预测概率进行权重组合,得到组合后的各汉字标签的概率,然后利用Viterbe算法对组合后的各汉字的各标签概率进行计算得到各汉字属于各标签的最终概率,对比各汉字在各标签下的概率值,将概率最大值所属标签作为各汉字的标签,从而完成中文分词。
本发明方法的具体步骤如下:
Step1:首先获得任一领域的文本数据集,并将文本数据集分为训练集和测试集,然后将训练集进行预处理,预处理过程具体为利用BMES标注方式对训练集中的汉字进行标注,其中对于多字词,B为多字词中的第一个字的标签,M为多字词中去除第一个字和最后一个字后其他字的标签,E为多字词中最后一个字的标签,S为单字词的标签,数据集msr为已标注完成的数据集,然后将标注后的训练集和数据集msr进行字嵌入处理,具体过程为根据标点符号对标注后的训练集和数据集msr进行切分,并将切分后的结果分别用数组data和label表示,其中data数据组包括每一个汉字,label数据组包括每一个汉字对应的标签,然后将data数据组和label数据组分别进行数字化处理,对data数据组的每一个汉字用该汉字第一次出现的顺序的数字表示,并存储在d[‘x’]中,对label数据组的标签用阿拉伯数字进行表示,并存储在d[‘y’]中,然后利用词向量技术将d[‘x’]和d[‘y’]中的数字进行向量转化,每个汉字转化成长度为n的向量,得到各汉字在1~n维度下的概率;
Step2:将Step1得到的训练集中的各汉字的向量和各汉字对应的标签的数据输入至Bi-LSTM神经网络模型中进行训练,得到训练集的模型X_Bi-LSTM模型,将数据集msr中的各数据输入至Bi-LSTM神经网络模型中进行训练,得到msr_Bi-LSTM模型;
Step3:利用Step2得到的X_Bi-LSTM模型和msr_Bi-LSTM模型分别对测试集中的各汉字的标签进行概率预测,分别得到两种预测概率P1i、P2i,其中P1i表示利用X_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率,i=B,M,E,S,P2i表示利用msr_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率,然后将两种模型的预测概率进行权重组合,得到测试集中各汉字的标签综合预测概率P,公式如下:
P=a*P1i+b*P2i;
Step4:利用Viterbi算法得出测试集中的各汉字在各标签下的概率,比较该汉字在各标签下的概率,取概率最大值所属标签作为各汉字最终的标签。
本发明方法应用在冶金领域,在预测冶金信息分词时,使用Bi-LSTM网络训练领域外信息和领域内信息分别获得较好的分词模型,通过权重结合领域外模型和领域内模型的预测结果,来解决冶金语料不足导致的模型不理想以及对冶金信息中域外单词分词的问题,实现对冶金信息的较好分词。
LSTM神经网络模型和Bi-LSTM神经网络模型的工作原理如下:
LSTM神经网络模型通过输入门、忘记门和输出门三种门对细胞的行为进行控制,门上的操作基于Sigmoid网络层和元素级的逐点乘积组成。通过Sigmoid输出介于0到1之间的数值用来表示信息的通过程度,其中1表示信息全部可以通过,0表示信息都不可以通过。
通过忘记门的Sigmoid层可以使细胞忘记信息,其中σ表示sigmod函数,Wf表示遗忘门的权重矩阵,ht-1表示上一层的输出,xt为当前层的输入,bf为遗忘门的偏置项,ft表示遗忘门的输出。
ft=σ(Wf·(ht-1,xt)+bf)
当在细胞中存储信息时,首先通过输入门的Sigmoid获取将要更新的信息it,然后通过tanh函数创建新的向量最后用ft乘以旧的细胞状态Ct-1实现要遗忘的信息,再与的乘积相加获得细胞状态的更新。Wi、bi分别表示激活函数是sigmod函数时输入门的权重矩阵和输入门的偏置项,WC、bC分别表示激活函数是tanh函数时输入门的权重矩阵和输入门的偏置项,Ct表示当前细胞状态。
it=σ(Wi·(ht-1,xt)+bi)
通过输出门的Sigmoid层决定输出哪些信息。然后用tanh函数处理细胞的状态,最后两部分的乘积即为要输出的值。Ot表示输出过程的中间结果,Wo表示输出门的权重矩阵,h·表示上一序列的隐藏状态,x·表示本序列数据,bo表示输出门的偏置项,ht表示输出门的输出。
Ot=σ(Wo·(h·,x·)+bo)
ht=Ot·tanh(Ct)
双向LSTM即Bi-LSTM神经网络模型借助双向循环网络(Bidirectional RNN,BRNN)的思想,通过前向和后向两层分别从句子的前方和后方运行。由于Bi-LSTM可以同时捕获历史和未来两个方向上的长距离信息,所以分别把数据集msr和训练数据集经过字嵌入后输入Bi-LSTM神经网络中进行训练得到基于训练数据集的X_Bi-LSTM分词模型和基于数据集msr的msr_Bi-LSTM分词模型。
当通过Step3产生每个字对应的标签概率之后,需要通过标签推断层确定当前字最终对应的标签,本发明方法中采用Viterbi算法进行计算,具体为:当前字对应某个标签的概率等于前一个字在某个标签下的概率加上标签间的转移概率再加上通过训练得到的模型对其当前字预测得到该标签的概率,由于前一个字在四个标签下都有值,所以计算当前字在每个标签下的概率时会根据不同的转移概率得到多个值,选择最大的作为最终值,然后取每一列中最大概率值的作为当前字所属的标签即最短路径,得到每个字所属的最终标签。
本发明的有益效果是:
1、本发明通过对某一领域内的信息加入领域外的知识,并使用基于双向长短时记忆(Bi-LSTM)的深度学习模型对某一领域内的信息训练以学习某一领域内的特征,对领域外的信息(msr)训练以学习领域外的特征,进而分别获得两种分词模型,把领域外模型和领域内模型的预测结果进行权重的结合,再通过Viterbi处理解决了语料不足导致的模型不理想以及对信息中域外单词分词的问题。
2、本发明可获得较好的分词结果,提高了分词的准确率。
3、本发明与公知的分词方法相比,对特定领域的信息分词有针对性,实现较好的分词。
附图说明
图1为本发明的流程图;
图2为本发明实施例1的模型训练过程图;
图3为本发明实施例1的模型预测过程图;
图4为本发明实施例1中长短时记忆网络模型图;
图5为本发明实施例1中双向长短时记忆网络模型图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
实施例1:如图1所示,为基于双向长短时记忆网络模型在冶金领域的中文分词方法的工作流程,具体步骤为:
Step1:由于冶金信息领域缺乏权威的语料,所以爬取冶金信息网的数据,获得冶金领域的文本数据集,并将文本数据集分为训练集和测试集,然后将训练集进行预处理,预处理过程具体为利用BMES标注方式对训练集中的汉字进行标注如表1所示,其中对于多字词,B为多字词中的第一个字的标签,M为多字词中去除第一个字和最后一个字后其他字的标签,E为多字词中最后一个字的标签,S为单字词的标签,数据集msr为已标注完成的数据集,然后将标注后的训练集和数据集msr进行字嵌入处理,具体过程为根据标点符号对标注后的训练集和数据集msr进行切分,并将切分后的结果分别用数组data和label表示如表2所示,其中data数据组包括每一个汉字,label数据组包括每一个汉字对应的标签,然后将data数据组和label数据组分别进行数字化处理,对data数据组的每一个汉字用该汉字第一次出现的顺序的数字表示,并存储在d[‘x’]中,对label数据组的标签用阿拉伯数字进行表示,并存储在d[‘y’]中,如表3所示,然后利用词向量技术将d[‘x’]和d[‘y’]中的数字进行向量转化,每个汉字转化成长度为n的向量,得到各汉字在1~n维度下的概率,如表4所示;
表1四词位标注形式
表2 data和label数据形式
表3 d[‘x’]和d[‘y’]数据形式
表4字嵌入
Step2:将Step1得到的训练集中的各汉字的向量和各汉字对应的标签的数据输入至Bi-LSTM神经网络模型中进行训练,得到训练集的模型X_Bi-LSTM模型,将数据集msr中的各数据输入至Bi-LSTM神经网络模型中进行训练,如图2所示,为本实施例模型的训练过程,得到msr_Bi-LSTM模型;
Step3:利用Step2得到的X_Bi-LSTM模型和msr_Bi-LSTM模型分别对测试集中的各汉字的标签进行概率预测,如图3所示,为本实施例发明的模型预测过程,分别得到两种预测概率P1i、P2i,其中P1i表示利用X_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率,i=B,M,E,S,P2i表示利用msr_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率,然后将两种模型的预测概率进行权重组合,得到测试集中各汉字的标签综合预测概率P,如表5所示,公式如下:
P=a*P1i+b*P2i;
表5字对应的标签概率
字号 | 8 | 43 | 32 | 88 | 36 | 198 | 7 | 2 | 41 | 163 | ... | ... |
s | 0.2 | 0.3 | 0.3 | 0.1 | 0.2 | 0.2 | 0.3 | 0.2 | 0.2 | 0.2 | ... | ... |
b | 0.5 | 0.1 | 0.3 | 0.3 | 0.3 | 0.3 | 0.2 | 0.1 | 0.5 | 0.2 | ... | ... |
m | 0.1 | 0.2 | 0.1 | 0.1 | 0.3 | 0.4 | 0.4 | 0.4 | 0.1 | 0.4 | ... | ... |
e | 0.3 | 0.4 | 0.3 | 0.5 | 0.2 | 0.1 | 0.1 | 0.3 | 0.3 | 0.2 | ... | ... |
合计 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
本实施例的长短时记忆网络模型图如图4所示;
本实施例的双向长短时记忆网络模型图如图5所示;
Step4:利用Viterbi算法得出测试集中的各汉字在各标签下的概率,比较该汉字在各标签下的概率,如表6所示,取概率最大值所属标签作为各汉字最终的标签。
表6最终字对应的标签概率
字号 | 8 | 43 | 32 | 88 | 36 | 198 | 7 | 2 | 41 | 163 | ... | ... |
s | 0.1 | 0.3 | 0.1 | 0.3 | 0.2 | 0.1 | 0.2 | 0.1 | 0.1 | 0.1 | ... | ... |
b | 0.5 | 0.2 | 0.5 | 0.1 | 0.5 | 0.2 | 0.1 | 0.2 | 0.5 | 0.2 | ... | ... |
m | 0.2 | 0.1 | 0.2 | 0.2 | 0.2 | 0.6 | 0.5 | 0.1 | 0.3 | 0.6 | ... | ... |
e | 0.2 | 0.4 | 0.2 | 0.4 | 0.1 | 0.1 | 0.2 | 0.6 | 0.1 | 0.1 | ... | ... |
通过表6可以得出,字号8的标签为b,字号43的标签为e,字号32的标签为b,字号88的标签为e,字号36的标签为b,字号198的标签为m,字号7的标签为m,字号2的标签为e,字号41的标签为b,字号163的标签为m,等等,通过本发明方法对本冶金领域的中文数据完成了分词,且分词效果好,准确率高。
实施例2:本实施例方法同实施例1,不同之处在于,本实施例应用在非冶金领域,对选取的文本利用四词位(BEMS)标注,得到结果如表7所示:
表7四词位标注形式
根据标点符号对标注数据进行切分,并将切分后的结果分别用数组data和label表示如表8所示:
表8 data和label数据形式
其中data数据组包括每一个汉字,label数据组包括每一个汉字对应的标签,然后将data数据组和label数据组分别进行数字化处理,对data数据组的每一个汉字用该汉字第一次出现的顺序的数字表示,并存储在d[‘x’]中,对label数据组的标签用阿拉伯数字进行表示,并存储在d[‘y’]中,如表9所示,然后利用词向量技术将d[‘x’]和d[‘y’]中的数字进行向量转化,每个汉字转化成长度为n的向量,得到各汉字在1~n维度下的概率,如表10所示;
表9 d[‘x’]和d[‘y’]数据形式
表10字嵌入
字号 | 5 | 6 | 320 | 80 | 16 | 19 | 56 | 62 | ... | ... |
第1维概率 | 0.01 | 0.05 | 0.05 | 0.11 | 0.12 | 0.16 | 0.04 | 0.13 | ... | ... |
第2维概率 | 0.23 | 0.13 | 0.11 | 0.05 | 0.05 | 0.09 | 0.21 | 0.05 | ... | ... |
第3维概率 | 0.09 | 0.12 | 0.16 | 0.06 | 0.15 | 0.02 | 0.16 | 0.05 | ... | ... |
第4维概率 | 0.06 | 0.01 | 0.03 | 0.17 | 0.04 | 0.04 | 0.04 | 0.13 | ... | ... |
第i维概率 | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
第n维概率 | 0.11 | 0.06 | 0.02 | 0.04 | 0.06 | 0.15 | 0.08 | 0.05 | ... | ... |
利用得到的X_Bi-LSTM模型和msr_Bi-LSTM模型分别对测试集中的各汉字的标签进行概率预测,并将预测概率进行权重组合,结果如表11所示:
表11字对应的标签概率
利用Viterbi算法得出测试集中的各汉字在各标签下的概率,比较该汉字在各标签下的概率,如表12所示,取概率最大值所属标签作为各汉字最终的标签。
表12最终字对应的标签概率
字号 | 5 | 6 | 320 | 80 | 16 | 19 | 56 | 62 | 63 | 37 | ... | ... |
s | 0.1 | 0.2 | 0.4 | 0.5 | 0.3 | 0.2 | 0.7 | 0.6 | 0.4 | 0.1 | ... | ... |
b | 0.6 | 0.2 | 0.2 | 0.1 | 0.4 | 0.1 | 0.1 | 0.2 | 0.2 | 0.6 | ... | ... |
m | 0.1 | 0.1 | 0.2 | 0.1 | 0.2 | 0.2 | 0.1 | 0.1 | 0.3 | 0.1 | ... | ... |
e | 0.2 | 0.5 | 0.2 | 0.3 | 0.1 | 0.5 | 0.1 | 0.1 | 0.1 | 0.2 | ... | ... |
通过表12可以得出,字号5的标签为b,字号6的标签为e,字号320的标签为s,字号80的标签为s,字号16的标签为b,字号19的标签为e,字号56的标签为s,字号62的标签为s,字号63的标签为s,字号67的标签为b。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.一种基于双向长短时记忆网络模型的中文分词方法,其特征在于,首先获得任一领域的数据集,并将数据集分为训练集和测试集,然后将训练集进行预处理,将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理,再把处理好的训练集和数据集msr分别输入到双向长短时记忆神经网络模型即Bi-LSTM神经网络模型中进行训练,分别得到训练集的模型和msr_Bi-LSTM模型,训练集的模型记为X_Bi-LSTM模型,然后分别用X_Bi-LSTM模型、msr_Bi-LSTM模型对测试集进行标签预测,并对两种模型的预测概率进行权重组合,得到组合后的各汉字标签的概率,然后利用Viterbe算法对组合后的各汉字的各标签概率进行计算得到各汉字属于各标签的最终概率,对比各汉字在各标签下的概率值,将概率最大值所属标签作为各汉字的标签,从而完成中文分词。
2.根据权利要求1所述的基于双向长短时记忆网络模型的中文分词方法,其特征在于:所述方法的具体步骤如下:
Step1:首先获得任一领域的文本数据集,并将文本数据集分为训练集和测试集,然后将训练集进行预处理,预处理过程具体为利用BMES标注方式对训练集中的汉字进行标注,其中对于多字词,B为多字词中的第一个字的标签,M为多字词中去除第一个字和最后一个字后其他字的标签,E为多字词中最后一个字的标签,S为单字词的标签,数据集msr为已标注完成的数据集,然后将标注后的训练集和数据集msr进行字嵌入处理,具体过程为根据标点符号对标注后的训练集和数据集msr进行切分,并将切分后的结果分别用数组data和label表示,其中data数据组包括每一个汉字,label数据组包括每一个汉字对应的标签,然后将data数据组和label数据组分别进行数字化处理,对data数据组的每一个汉字用该汉字第一次出现的顺序的数字表示,并存储在d[‘x’]中,对label数据组的标签用阿拉伯数字进行表示,并存储在d[‘y’]中,然后利用词向量技术将d[‘x’]和d[‘y’]中的数字进行向量转化,每个汉字转化成长度为n的向量,得到各汉字在1~n维度下的概率;
Step2:将Step1得到的训练集中的各汉字的向量和各汉字对应的标签的数据输入至Bi-LSTM神经网络模型中进行训练,得到训练集的模型X_Bi-LSTM模型,将数据集msr中的各数据输入至Bi-LSTM神经网络模型中进行训练,得到msr_Bi-LSTM模型;
Step3:利用Step2得到的X_Bi-LSTM模型和msr_Bi-LSTM模型分别对测试集中的各汉字的标签进行概率预测,分别得到两种预测概率P1i、P2i,其中P1i表示利用X_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率,i=B,M,E,S,P2i表示利用msr_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率,然后将两种模型的预测概率进行权重组合,得到测试集中各汉字的标签综合预测概率P,公式如下:
P=a*P1i+b*P2i;
Step4:利用Viterbi算法得出测试集中的各汉字在各标签下的概率,比较该汉字在各标签下的概率,取概率最大值所属标签作为各汉字最终的标签。
3.权利要求1~2所述的基于双向长短时记忆网络模型的中文分词方法应用在冶金领域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810933201.5A CN109213997B (zh) | 2018-08-16 | 2018-08-16 | 一种基于双向长短时记忆网络模型的中文分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810933201.5A CN109213997B (zh) | 2018-08-16 | 2018-08-16 | 一种基于双向长短时记忆网络模型的中文分词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109213997A true CN109213997A (zh) | 2019-01-15 |
CN109213997B CN109213997B (zh) | 2021-11-19 |
Family
ID=64988341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810933201.5A Active CN109213997B (zh) | 2018-08-16 | 2018-08-16 | 一种基于双向长短时记忆网络模型的中文分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109213997B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222328A (zh) * | 2019-04-08 | 2019-09-10 | 平安科技(深圳)有限公司 | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 |
CN110245334A (zh) * | 2019-06-25 | 2019-09-17 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110516234A (zh) * | 2019-08-06 | 2019-11-29 | 山东师范大学 | 基于gru的中医文本分词方法、系统、设备及介质 |
CN110852040A (zh) * | 2019-11-05 | 2020-02-28 | 中电科大数据研究院有限公司 | 一种标点预测模型训练方法及文本标点确定方法 |
WO2020215581A1 (zh) * | 2019-04-22 | 2020-10-29 | 平安科技(深圳)有限公司 | 基于双向长短时记忆网络模型的中文编码方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140079297A1 (en) * | 2012-09-17 | 2014-03-20 | Saied Tadayon | Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN108268444A (zh) * | 2018-01-10 | 2018-07-10 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
-
2018
- 2018-08-16 CN CN201810933201.5A patent/CN109213997B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140079297A1 (en) * | 2012-09-17 | 2014-03-20 | Saied Tadayon | Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN108268444A (zh) * | 2018-01-10 | 2018-07-10 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
Non-Patent Citations (2)
Title |
---|
DANGGUO SHAO等: "Domain-Specific Chinese Word Segmentation Based on Bi-Directional Long-Short Term Memory Model", 《IEEE ACCESS》 * |
张洪刚等: "基于双向长短时记忆模型的中文分词方法", 《华南理工大学学报(自然科学版)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222328A (zh) * | 2019-04-08 | 2019-09-10 | 平安科技(深圳)有限公司 | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 |
CN110222328B (zh) * | 2019-04-08 | 2022-11-22 | 平安科技(深圳)有限公司 | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 |
WO2020215581A1 (zh) * | 2019-04-22 | 2020-10-29 | 平安科技(深圳)有限公司 | 基于双向长短时记忆网络模型的中文编码方法和装置 |
CN110245334A (zh) * | 2019-06-25 | 2019-09-17 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110516234A (zh) * | 2019-08-06 | 2019-11-29 | 山东师范大学 | 基于gru的中医文本分词方法、系统、设备及介质 |
CN110852040A (zh) * | 2019-11-05 | 2020-02-28 | 中电科大数据研究院有限公司 | 一种标点预测模型训练方法及文本标点确定方法 |
CN110852040B (zh) * | 2019-11-05 | 2023-08-04 | 中电科大数据研究院有限公司 | 一种标点预测模型训练方法及文本标点确定方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109213997B (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109213997A (zh) | 一种基于双向长短时记忆网络模型的中文分词方法 | |
CN108984745B (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN107145483B (zh) | 一种基于嵌入式表示的自适应中文分词方法 | |
CN104318340B (zh) | 基于文本履历信息的信息可视化方法及智能可视分析系统 | |
CN112579778B (zh) | 基于多层次的特征注意力的方面级情感分类方法 | |
CN106383816B (zh) | 基于深度学习的中文少数民族地区地名的识别方法 | |
CN110347837A (zh) | 一种心血管疾病非计划再住院风险预测方法 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN106897371B (zh) | 中文文本分类系统及方法 | |
CN108062388A (zh) | 人机对话的回复生成方法和装置 | |
CN109858041A (zh) | 一种半监督学习结合自定义词典的命名实体识别方法 | |
CN109543722A (zh) | 一种基于情感分析模型的情感趋势预测方法 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN110162789B (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN110472042A (zh) | 一种细粒度情感分类方法 | |
CN107451115A (zh) | 端到端的汉语韵律层级结构预测模型的构建方法及系统 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN110727844B (zh) | 一种基于生成对抗网络的在线评论商品特征观点提取方法 | |
CN108563725A (zh) | 一种中文症状体征构成识别方法 | |
CN105404865A (zh) | 基于概率态受限玻尔兹曼机级联的人脸检测方法 | |
CN113505225B (zh) | 一种基于多层注意力机制的小样本医疗关系分类方法 | |
CN111400494A (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN113449801A (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN115269860A (zh) | 一种飞机维修领域的知识图谱构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |