CN108491372B - 一种基于seq2seq模型的中文分词方法 - Google Patents
一种基于seq2seq模型的中文分词方法 Download PDFInfo
- Publication number
- CN108491372B CN108491372B CN201810094751.2A CN201810094751A CN108491372B CN 108491372 B CN108491372 B CN 108491372B CN 201810094751 A CN201810094751 A CN 201810094751A CN 108491372 B CN108491372 B CN 108491372B
- Authority
- CN
- China
- Prior art keywords
- layer
- sequence
- word
- output
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000011218 segmentation Effects 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 11
- 238000012805 post-processing Methods 0.000 claims abstract description 6
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000000638 solvent extraction Methods 0.000 claims abstract description 4
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 11
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于seq2seq模型的中文分词方法,包括:步骤1、对文本语料进行预处理,把输入的每一个句子中的文字按照字频高低转为汉字数字序列,并按照字在词中的位置,转化为对应的标签序列;步骤2、将步骤1中得到的汉字数字序列按句输入到字向量转化层中,输出字向量矩阵;步骤3、将步骤2得到的字向量矩阵采用mini‑batch进行分块,输入到采用注意力机制的seq2seq模型中,得到预测标签序列;步骤4、序列后处理,将步骤3中的预测标签序列与原始文本语料的标签序列进行比对,按每个标签的含义合成最终分词后的句子,按空格分隔开。所述方法采用seq2seq深度学习框架,结合注意力机制用于中文分词任务当中,有效提高了分词的准确率。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于seq2seq模型的中文分词方法。
背景技术
中文分词是自然语言处理领域中一项至关重要的基础研究技术,指的是将一个中文字符串切分成多个单独的词。中文分词与英文的一个最大的区别是,英文句子中有天然的空格作为分隔符,而中文句子中并没有。最小单元若采用字,则字的含义较为含糊。一般在自然语言处理中,词是语言里最小的、可以自由运用的单位,所以分词中的质量直接决定了句子可否被正确理解。此外,中文分词也是自然语言处理里面其他上层应用的一个关键步骤,像汉语文本自动标注、自动摘要、机器翻译、搜索引擎、文本分类等,这些任务的准确率极大依赖于分词的准确性。
目前的分词方案有如下几种:(1)基于字典的字符串匹配方法;(2)基于语言规则的方法;(3)基于传统概率统计机器学习的方法;(4)基于深度学习的方法。基于字典的方法较为简单,速度较快,但对歧义和未登录的词分词效果差。基于语法规则的方法是由语言专家提取出语言的特征来作为分词的根据,在通用体域准确率较好,但在特定领域适应性差,且高度依赖语言专家的领域知识。基于机器学习的方法有隐马尔可夫模型、条件随机场等,这种利用概率的方法按照一些规则,对数据进行自学习,能平等地看待词典词和未登录词,但依旧受限于规则的制定和特征的提取。基于深度学习方法的好处是可以实现通过数据对模型进行训练,自动提取模型中主要的特征,并且有更强大的空间与时间的记忆性,像CNN和LSTM。目前主流方法采用的是端到端的LSTM模型,但依旧存在长时信息丢失的问题,端到端的设计也限制了网络的进一步修改。
发明内容
本发明的目的是针对现有技术的不足,提供了一种基于seq2seq模型的中文分词方法,所述方法采用seq2seq深度学习框架,结合注意力机制用于中文分词任务当中,有效提高了分词的准确率。
本发明的目的可以通过如下技术方案实现:
一种基于seq2seq模型的中文分词方法,所述方法包括以下步骤:
步骤1、对文本语料进行预处理,把输入的每一个句子中的文字按照字频高低转为汉字数字序列,并按照字在词中的位置,转化为对应的标签序列;
步骤2、将步骤1中得到的汉字数字序列按句输入到字向量转化层中,输出字向量矩阵;
步骤3、将步骤2得到的字向量矩阵采用mini-batch进行分块,输入到采用注意力机制的seq2seq模型中,得到预测标签序列,其中seq2seq模型包括编码层和解码层;
步骤4、序列后处理,将步骤3中的预测标签序列与原始文本语料的标签序列进行比对,按每个标签的含义合成最终分词后的句子,按空格分隔开。
进一步地,所述seq2seq模型的解码层包括单向的GRU层、softmax层和维特比算法层,并结合了注意力机制。
进一步地,所述单向的GRU层每个时序的隐藏层输出为si=f(yi-1,si-1,ci),其中i为时间序号,yi是预测标签输出,ci为注意力机制输出。
进一步地,所述注意力机制输出ci的具体公式为:
上式eij=a(si-1,hj)表示一种对齐模型。
进一步地,将单向的GRU层每个时序的隐藏层输出si输入到softmax层后得到yi=p(yi|θ)=softmax(yi-1,si,ci),在训练阶段采用Adam优化算法进行迭代,在测试阶段则把yi输入到维特比层进行纠错后再输出预测标签序列yi,全部预测标签序列yi组成Y,再输入步骤4进行序列后处理。
进一步地,所述方法采用的标签系统是{BMES}标签系统,其中B指Begin表示词头,M指Middle表示词中,E指End表示词尾,S指Single表示单个字的词。
上述方法的思想是把标签当成序列看待,转为序列生成序列的问题。除了步骤2中字向量的初始化是采用GLOVE模型训练得到的参数外,其他神经单元均采用区间[-1,1]的截断高斯分布进行初始化。
本发明与现有技术相比,具有如下优点和有益效果:
本发明基于seq2seq模型的中文分词方法采用seq2seq深度学习框架,结合注意力机制用于中文分词任务当中,能更加充分地利用句子的上下文信息与局部信息,有效提高了分词的准确率。
附图说明
图1为本发明实施例基于seq2seq模型的中文分词方法的整体流程图。
图2为本发明实施例seq2seq模型中采用的注意力机制结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种基于seq2seq模型的中文分词方法,以SIGHAN Bakeoff 2005数据集MSR为训练数据集对所述方法进行详细说明,整体流程图如图1所示,具体包括以下步骤:
步骤1:对训练语料进行预处理。MSR训练数据集是已经分好词的句子,先统计数据集的基本信息。根据字频高低对数据集的每个字进行排序,并转为相应的汉字数字序号,生成数字序列a。标签采用{BMES},B指Begin表示词头,M指Middle表示词中,E指End表示词尾,S指Single表示单个字的词。按照字在词的位置,转化成对应的标签序列b。如输入句子为“我喜欢中国”,输出数字序列a={12,356,232,98,812},b={S,B,E,B,E},并保存每个句子的字数。
步骤2:将步骤1中得到的数字序列a按句输入到字向量转化层中,输出字向量矩阵x,字向量输出维度为100维。为了让字符的表示更加具有可比性,字向量采用较为成熟的GLOVE模型对中文维基百科语料库训练得到。因此,像一个汉字的对应字向量类似为:<0.2138,-0.4592,-.8213,...>,故整个数据集的输出为一个大小[m,maxlen,100]的三维矩阵x,其中m为句子数,maxlen是最长的句子长度。
步骤3:将步骤2中得到的字向量矩阵x采用mini-batch进行分块,输入到采用注意力机制的seq2seq模型中。其中seq2seq模型由编码层和解码层构成,如图1所示。
b:解码层,采用单向的GRU层、softmax层和维特比算法层,并结合了注意力机制。其中GRU层的节点数为60,每个时序的隐藏层输出si与编码器的上一个时序的输出yi-1、上一个时序的隐藏层输出si-1、编码层通过注意力机制得到的中间语义信息ci有关,即si=f(yi-1,si-1,ci)。
其中中间语义信息是编码层结合注意力机制训练得到的,如图2所示,它对编码层的每个时序进行加权分配编码器每个时序的权重,权重大的时序对解码的输出影响较大,有如下公式:
其中权重aij表示公式为:
上式eij=a(si-1,hj)表示一种对齐模型,在本实施例中具体的的对齐模型可用如下公式表示:
eij=vTtanh(Wsi-1+Vhj) (3)
对齐模型与整个seq2seq模型放在一起进行训练,联合公式(2)与(3)就可以得到权重αij,再联合公式(1)得到ci,最后求出si。
接着,si输入到softmax层,把分类信息转为四类标签的概率输出,得到标签的概率序列yi=p(yi|θ)=softmax(yi-1,si,ci)。在训练阶段,利用交叉熵作为损失函数,为了加快训练速度,采用Adam优化算子,学习率采用自学习的方式,初始学习率为0.0003。另外,batch的大小设置为256,模型的权重均采用区间[-1,1]的截断高斯分布初始化,并采用early stopping的方法防止过拟合。在测试阶段,利用句子的真实长度控制句子标签的长度,并引入了维特比算法对softmax层输出的概率进行进一层纠错。维特比算法利用动态规划的思想排除不合理的标签序列,如“E”或“M”开头的词标签,得到全局最优且合理的标签序列,即Y=viterbi(Y)。这时,输出的即为预测标签序列Y,如“S,B,E,B,E”
步骤4:序列后处理,将步骤3得到的预测标签序列Y与原始的汉字句子进行一一比对,按每个标签的含义合成最终分词后的句子E,按空格分隔开。如“我喜欢中国”的输出标签为“S,B,E,B,E”,最后会合成已分好词的句子“我喜欢中国”。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (7)
1.一种基于seq2seq模型的中文分词方法,其特征在于,所述方法包括以下步骤:
步骤1、对文本语料进行预处理,把输入的每一个句子中的文字按照字频高低转为汉字数字序列,并按照字在词中的位置,转化为对应的标签序列;
步骤2、将步骤1中得到的汉字数字序列按句输入到字向量转化层中,输出字向量矩阵;
步骤3、将步骤2得到的字向量矩阵采用mini-batch进行分块,输入到采用注意力机制的seq2seq模型中,得到预测标签序列,其中seq2seq模型包括编码层和解码层;
步骤4、序列后处理,将步骤3中的预测标签序列与原始文本语料的标签序列进行比对,按每个标签的含义合成最终分词后的句子,按空格分隔开。
3.根据权利要求1所述的一种基于seq2seq模型的中文分词方法,其特征在于,所述seq2seq模型的解码层包括单向的GRU层、softmax层和维特比算法层,并结合了注意力机制。
4.根据权利要求3所述的一种基于seq2seq模型的中文分词方法,其特征在于,所述单向的GRU层每个时序的隐藏层输出为si=f(yi-1,si-1,ci),其中i为时间序号,yi是预测标签输出,ci为注意力机制输出。
6.根据权利要求4所述的一种基于seq2seq模型的中文分词方法,其特征在于,将单向的GRU层每个时序的隐藏层输出si输入到softmax层后得到yi=softmax(yi-1,si,ci),在训练阶段采用Adam优化算法进行迭代,在测试阶段则把yi输入到维特比层进行纠错后再输出预测标签序列yi,全部预测标签序列yi组成Y,再输入步骤4进行序列后处理。
7.根据权利要求1所述的一种基于seq2seq模型的中文分词方法,其特征在于,所述方法采用的标签系统是{BMES}标签系统,其中B指Begin表示词头,M指Middle表示词中,E指End表示词尾,S指Single表示单个字的词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810094751.2A CN108491372B (zh) | 2018-01-31 | 2018-01-31 | 一种基于seq2seq模型的中文分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810094751.2A CN108491372B (zh) | 2018-01-31 | 2018-01-31 | 一种基于seq2seq模型的中文分词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108491372A CN108491372A (zh) | 2018-09-04 |
CN108491372B true CN108491372B (zh) | 2021-06-08 |
Family
ID=63344047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810094751.2A Active CN108491372B (zh) | 2018-01-31 | 2018-01-31 | 一种基于seq2seq模型的中文分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108491372B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325243B (zh) * | 2018-10-22 | 2022-11-22 | 内蒙古大学 | 字符级基于序列模型的蒙古文切词方法及其切词系统 |
CN109299273B (zh) * | 2018-11-02 | 2020-06-23 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 |
CN109508459B (zh) * | 2018-11-06 | 2022-11-29 | 杭州费尔斯通科技有限公司 | 一种从新闻中提取主题和关键信息的方法 |
CN109614612A (zh) * | 2018-11-29 | 2019-04-12 | 武汉大学 | 一种基于seq2seq+attention的中文文本纠错方法 |
CN109753652A (zh) * | 2018-12-14 | 2019-05-14 | 昆明理工大学 | 一种基于Attention机制来构建老挝语词性标注模型的方法 |
CN109657244B (zh) * | 2018-12-18 | 2023-04-18 | 语联网(武汉)信息技术有限公司 | 一种英文长句自动切分方法及系统 |
CN110442707B (zh) * | 2019-06-21 | 2022-06-17 | 电子科技大学 | 一种基于seq2seq的多标签文本分类方法 |
CN110348023A (zh) * | 2019-07-18 | 2019-10-18 | 北京香侬慧语科技有限责任公司 | 一种中文文本分词的方法、装置、存储介质及电子设备 |
CN110956962A (zh) * | 2019-10-17 | 2020-04-03 | 中国第一汽车股份有限公司 | 车载机器人的答复信息确定方法、装置及设备 |
CN111488440B (zh) * | 2020-03-30 | 2024-02-13 | 华南理工大学 | 一种基于多任务联合的问题生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919646A (zh) * | 2017-01-18 | 2017-07-04 | 南京云思创智信息科技有限公司 | 中文文本摘要生成系统及方法 |
CN107168957A (zh) * | 2017-06-12 | 2017-09-15 | 云南大学 | 一种中文分词方法 |
CN107247868A (zh) * | 2017-05-18 | 2017-10-13 | 深思考人工智能机器人科技(北京)有限公司 | 一种人工智能辅助问诊系统 |
US9858263B2 (en) * | 2016-05-05 | 2018-01-02 | Conduent Business Services, Llc | Semantic parsing using deep neural networks for predicting canonical forms |
-
2018
- 2018-01-31 CN CN201810094751.2A patent/CN108491372B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9858263B2 (en) * | 2016-05-05 | 2018-01-02 | Conduent Business Services, Llc | Semantic parsing using deep neural networks for predicting canonical forms |
CN106919646A (zh) * | 2017-01-18 | 2017-07-04 | 南京云思创智信息科技有限公司 | 中文文本摘要生成系统及方法 |
CN107247868A (zh) * | 2017-05-18 | 2017-10-13 | 深思考人工智能机器人科技(北京)有限公司 | 一种人工智能辅助问诊系统 |
CN107168957A (zh) * | 2017-06-12 | 2017-09-15 | 云南大学 | 一种中文分词方法 |
Non-Patent Citations (2)
Title |
---|
Seq2seq Fingerprint: An Unsupervised Deep Molecular Embedding for Drug Discovery;Zheng Xu 等;《ACM-BCB》;20170831;285-294 * |
融合无监督特征的藏文分词方法研究;李亚超 等;《中文信息学报》;20170315;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108491372A (zh) | 2018-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491372B (zh) | 一种基于seq2seq模型的中文分词方法 | |
CN110717334B (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
Zhu et al. | CAN-NER: Convolutional attention network for Chinese named entity recognition | |
CN110598221B (zh) | 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 | |
CN108763504B (zh) | 一种基于强化双通道序列学习的对话回复生成方法及系统 | |
CN109086267B (zh) | 一种基于深度学习的中文分词方法 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN108984524A (zh) | 一种基于变分神经网络主题模型的标题生成方法 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN109783809B (zh) | 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法 | |
CN110969020A (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
CN111177376A (zh) | 一种基于bert与cnn层级连接的中文文本分类方法 | |
CN111209749A (zh) | 一种将深度学习应用于中文分词的方法 | |
CN111881677A (zh) | 基于深度学习模型的地址匹配算法 | |
CN112163429B (zh) | 结合循环网络及bert的句子相关度获取方法、系统及介质 | |
CN109284361A (zh) | 一种基于深度学习的实体抽取方法及系统 | |
CN110516229B (zh) | 一种基于深度学习的领域自适应中文分词方法 | |
CN111476024A (zh) | 一种文本分词方法、装置及模型训练方法 | |
CN113190656A (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和系统 | |
CN111401003B (zh) | 一种外部知识增强的幽默文本生成方法 | |
CN114925205A (zh) | 基于对比学习的gcn-gru文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231110 Address after: Yuexiu District Guangzhou City, Guangdong province 510010 Liuhua Road No. 111 Patentee after: PEOPLE'S LIBERATION ARMY SOUTHERN THEATER GENERAL Hospital Address before: 510640 No. five, 381 mountain road, Guangzhou, Guangdong, Tianhe District Patentee before: SOUTH CHINA University OF TECHNOLOGY |