CN108491372A - 一种基于seq2seq模型的中文分词方法 - Google Patents

一种基于seq2seq模型的中文分词方法 Download PDF

Info

Publication number
CN108491372A
CN108491372A CN201810094751.2A CN201810094751A CN108491372A CN 108491372 A CN108491372 A CN 108491372A CN 201810094751 A CN201810094751 A CN 201810094751A CN 108491372 A CN108491372 A CN 108491372A
Authority
CN
China
Prior art keywords
word
sequence
chinese
seq2seq
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810094751.2A
Other languages
English (en)
Other versions
CN108491372B (zh
Inventor
史景伦
刘玉德
宁培阳
王桂鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Theater Command General Hospital of PLA
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810094751.2A priority Critical patent/CN108491372B/zh
Publication of CN108491372A publication Critical patent/CN108491372A/zh
Application granted granted Critical
Publication of CN108491372B publication Critical patent/CN108491372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于seq2seq模型的中文分词方法,包括:步骤1、对文本语料进行预处理,把输入的每一个句子中的文字按照字频高低转为汉字数字序列,并按照字在词中的位置,转化为对应的标签序列;步骤2、将步骤1中得到的汉字数字序列按句输入到字向量转化层中,输出字向量矩阵;步骤3、将步骤2得到的字向量矩阵采用mini‑batch进行分块,输入到采用注意力机制的seq2seq模型中,得到预测标签序列;步骤4、序列后处理,将步骤3中的预测标签序列与原始文本语料的标签序列进行比对,按每个标签的含义合成最终分词后的句子,按空格分隔开。所述方法采用seq2seq深度学习框架,结合注意力机制用于中文分词任务当中,有效提高了分词的准确率。

Description

一种基于seq2seq模型的中文分词方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于seq2seq模型的中文分词方法。
背景技术
中文分词是自然语言处理领域中一项至关重要的基础研究技术,指的是将一个中文字符串切分成多个单独的词。中文分词与英文的一个最大的区别是,英文句子中有天然的空格作为分隔符,而中文句子中并没有。最小单元若采用字,则字的含义较为含糊。一般在自然语言处理中,词是语言里最小的、可以自由运用的单位,所以分词中的质量直接决定了句子可否被正确理解。此外,中文分词也是自然语言处理里面其他上层应用的一个关键步骤,像汉语文本自动标注、自动摘要、机器翻译、搜索引擎、文本分类等,这些任务的准确率极大依赖于分词的准确性。
目前的分词方案有如下几种:(1)基于字典的字符串匹配方法;(2)基于语言规则的方法;(3)基于传统概率统计机器学习的方法;(4)基于深度学习的方法。基于字典的方法较为简单,速度较快,但对歧义和未登录的词分词效果差。基于语法规则的方法是由语言专家提取出语言的特征来作为分词的根据,在通用体域准确率较好,但在特定领域适应性差,且高度依赖语言专家的领域知识。基于机器学习的方法有隐马尔可夫模型、条件随机场等,这种利用概率的方法按照一些规则,对数据进行自学习,能平等地看待词典词和未登录词,但依旧受限于规则的制定和特征的提取。基于深度学习方法的好处是可以实现通过数据对模型进行训练,自动提取模型中主要的特征,并且有更强大的空间与时间的记忆性,像CNN和LSTM。目前主流方法采用的是端到端的LSTM模型,但依旧存在长时信息丢失的问题,端到端的设计也限制了网络的进一步修改。
发明内容
本发明的目的是针对现有技术的不足,提供了一种基于seq2seq模型的中文分词方法,所述方法采用seq2seq深度学习框架,结合注意力机制用于中文分词任务当中,有效提高了分词的准确率。
本发明的目的可以通过如下技术方案实现:
一种基于seq2seq模型的中文分词方法,所述方法包括以下步骤:
步骤1、对文本语料进行预处理,把输入的每一个句子中的文字按照字频高低转为汉字数字序列,并按照字在词中的位置,转化为对应的标签序列;
步骤2、将步骤1中得到的汉字数字序列按句输入到字向量转化层中,输出字向量矩阵;
步骤3、将步骤2得到的字向量矩阵采用mini-batch进行分块,输入到采用注意力机制的seq2seq模型中,得到预测标签序列,其中seq2seq模型包括编码层和解码层;
步骤4、序列后处理,将步骤3中的预测标签序列与原始文本语料的标签序列进行比对,按每个标签的含义合成最终分词后的句子,按空格分隔开。
进一步地,所述seq2seq模型的编码层采用双向GRU层,每个时序的输出为hj,其中,表示前向后向的每个时序的输出。
进一步地,所述seq2seq模型的解码层包括单向的GRU层、softmax层和维特比算法层,并结合了注意力机制。
进一步地,所述单向的GRU层每个时序的隐藏层输出为si=f(yi-1,si-1,ci),其中i为时间序号,yi是预测标签输出,ci为注意力机制输出。
进一步地,所述注意力机制输出ci的具体公式为:
上式eij=a(si-1,hj)表示一种对齐模型。
进一步地,将单向的GRU层每个时序的隐藏层输出si输入到softmax层后得到yi=p(yi|θ)=softmax(yi-1,si,ci),在训练阶段采用Adam优化算法进行迭代,在测试阶段则把yi输入到维特比层进行纠错后再输出预测标签序列yi,全部预测标签序列yi组成Y,再输入步骤4进行序列后处理。
进一步地,所述方法采用的标签系统是{BMES}标签系统,其中B指Begin表示词头,M指Middle表示词中,E指End表示词尾,S指Single表示单个字的词。
上述方法的思想是把标签当成序列看待,转为序列生成序列的问题。除了步骤2中字向量的初始化是采用GLOVE模型训练得到的参数外,其他神经单元均采用区间[-1,1]的截断高斯分布进行初始化。
本发明与现有技术相比,具有如下优点和有益效果:
本发明基于seq2seq模型的中文分词方法采用seq2seq深度学习框架,结合注意力机制用于中文分词任务当中,能更加充分地利用句子的上下文信息与局部信息,有效提高了分词的准确率。
附图说明
图1为本发明实施例基于seq2seq模型的中文分词方法的整体流程图。
图2为本发明实施例seq2seq模型中采用的注意力机制结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种基于seq2seq模型的中文分词方法,以SIGHAN Bakeoff 2005数据集MSR为训练数据集对所述方法进行详细说明,整体流程图如图1所示,具体包括以下步骤:
步骤1:对训练语料进行预处理。MSR训练数据集是已经分好词的句子,先统计数据集的基本信息。根据字频高低对数据集的每个字进行排序,并转为相应的汉字数字序号,生成数字序列a。标签采用{BMES},B指Begin表示词头,M指Middle表示词中,E指End表示词尾,S指Single表示单个字的词。按照字在词的位置,转化成对应的标签序列b。如输入句子为“我喜欢中国”,输出数字序列a={12,356,232,98,812},b={S,B,E,B,E},并保存每个句子的字数。
步骤2:将步骤1中得到的数字序列a按句输入到字向量转化层中,输出字向量矩阵x,字向量输出维度为100维。为了让字符的表示更加具有可比性,字向量采用较为成熟的GLOVE模型对中文维基百科语料库训练得到。因此,像一个汉字的对应字向量类似为:<0.2138,-0.4592,-.8213,...>,故整个数据集的输出为一个大小[m,maxlen,100]的三维矩阵x,其中m为句子数,maxlen是最长的句子长度。
步骤3:将步骤2中得到的字向量矩阵x采用mini-batch进行分块,输入到采用注意力机制的seq2seq模型中。其中seq2seq模型由编码层和解码层构成,如图1所示。
a:编码层,采用双向的GRU层,节点数定为80个,输入为x,前向的输出为后向的输出为两者采用联接方式,组成在整个句子都输入到编码层后,再输出到解码层。
b:解码层,采用单向的GRU层、softmax层和维特比算法层,并结合了注意力机制。其中GRU层的节点数为60,每个时序的隐藏层输出si与编码器的上一个时序的输出yi-1、上一个时序的隐藏层输出si-1、编码层通过注意力机制得到的中间语义信息ci有关,即si=f(yi-1,si-1,ci)。
其中中间语义信息是编码层结合注意力机制训练得到的,如图2所示,它对编码层的每个时序进行加权分配编码器每个时序的权重,权重大的时序对解码的输出影响较大,有如下公式:
其中权重aij表示公式为:
上式eij=a(si-1,hj)表示一种对齐模型,在本实施例中具体的的对齐模型可用如下公式表示:
eij=vTtanh(Wsi-1+Vhj) (3)
对齐模型与整个seq2seq模型放在一起进行训练,联合公式(2)与(3)就可以得到权重αij,再联合公式(1)得到ci,最后求出si
接着,si输入到softmax层,把分类信息转为四类标签的概率输出,得到标签的概率序列yi=p(yi|θ)=softmax(yi-1,si,ci)。在训练阶段,利用交叉熵作为损失函数,为了加快训练速度,采用Adam优化算子,学习率采用自学习的方式,初始学习率为0.0003。另外,batch的大小设置为256,模型的权重均采用区间[-1,1]的截断高斯分布初始化,并采用early stopping的方法防止过拟合。在测试阶段,利用句子的真实长度控制句子标签的长度,并引入了维特比算法对softmax层输出的概率进行进一层纠错。维特比算法利用动态规划的思想排除不合理的标签序列,如“E”或“M”开头的词标签,得到全局最优且合理的标签序列,即Y=viterbi(Y)。这时,输出的即为预测标签序列Y,如“S,B,E,B,E”
步骤4:序列后处理,将步骤3得到的预测标签序列Y与原始的汉字句子进行一一比对,按每个标签的含义合成最终分词后的句子E,按空格分隔开。如“我喜欢中国”的输出标签为“S,B,E,B,E”,最后会合成已分好词的句子“我喜欢中国”。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (7)

1.一种基于seq2seq模型的中文分词方法,其特征在于,所述方法包括以下步骤:
步骤1、对文本语料进行预处理,把输入的每一个句子中的文字按照字频高低转为汉字数字序列,并按照字在词中的位置,转化为对应的标签序列;
步骤2、将步骤1中得到的汉字数字序列按句输入到字向量转化层中,输出字向量矩阵;
步骤3、将步骤2得到的字向量矩阵采用mini-batch进行分块,输入到采用注意力机制的seq2seq模型中,得到预测标签序列,其中seq2seq模型包括编码层和解码层;
步骤4、序列后处理,将步骤3中的预测标签序列与原始文本语料的标签序列进行比对,按每个标签的含义合成最终分词后的句子,按空格分隔开。
2.根据权利要求1所述的一种基于seq2seq模型的中文分词方法,其特征在于,所述seq2seq模型的编码层采用双向GRU层,每个时序的输出为hj,其中,表示前向后向的每个时序的输出。
3.根据权利要求1所述的一种基于seq2seq模型的中文分词方法,其特征在于,所述seq2seq模型的解码层包括单向的GRU层、softmax层和维特比算法层,并结合了注意力机制。
4.根据权利要求3所述的一种基于seq2seq模型的中文分词方法,其特征在于,所述单向的GRU层每个时序的隐藏层输出为si=f(yi-1,si-1,ci),其中i为时间序号,yi是预测标签输出,ci为注意力机制输出。
5.根据权利要求4所述的一种基于seq2seq模型的中文分词方法,其特征在于,所述注意力机制输出ci的具体公式为:
其中权重aij表示公式为:
上式eij=a(si-1,hj)表示一种对齐模型。
6.根据权利要求4所述的一种基于seq2seq模型的中文分词方法,其特征在于,将单向的GRU层每个时序的隐藏层输出si输入到softmax层后得到yi=p(yi|θ)=soft max(yi-1,si,ci),在训练阶段采用Adam优化算法进行迭代,在测试阶段则把yi输入到维特比层进行纠错后再输出预测标签序列yi,全部预测标签序列yi组成Y,再输入步骤4进行序列后处理。
7.根据权利要求1所述的一种基于seq2seq模型的中文分词方法,其特征在于,所述方法采用的标签系统是{BMES}标签系统,其中B指Begin表示词头,M指Middle表示词中,E指End表示词尾,S指Single表示单个字的词。
CN201810094751.2A 2018-01-31 2018-01-31 一种基于seq2seq模型的中文分词方法 Active CN108491372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810094751.2A CN108491372B (zh) 2018-01-31 2018-01-31 一种基于seq2seq模型的中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810094751.2A CN108491372B (zh) 2018-01-31 2018-01-31 一种基于seq2seq模型的中文分词方法

Publications (2)

Publication Number Publication Date
CN108491372A true CN108491372A (zh) 2018-09-04
CN108491372B CN108491372B (zh) 2021-06-08

Family

ID=63344047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810094751.2A Active CN108491372B (zh) 2018-01-31 2018-01-31 一种基于seq2seq模型的中文分词方法

Country Status (1)

Country Link
CN (1) CN108491372B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299273A (zh) * 2018-11-02 2019-02-01 广州语义科技有限公司 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN109325243A (zh) * 2018-10-22 2019-02-12 内蒙古大学 字符级基于序列模型的蒙古文切词方法及其切词系统
CN109508459A (zh) * 2018-11-06 2019-03-22 杭州费尔斯通科技有限公司 一种从新闻中提取主题和关键信息的方法
CN109614612A (zh) * 2018-11-29 2019-04-12 武汉大学 一种基于seq2seq+attention的中文文本纠错方法
CN109657244A (zh) * 2018-12-18 2019-04-19 语联网(武汉)信息技术有限公司 一种英文长句自动切分方法及系统
CN109753652A (zh) * 2018-12-14 2019-05-14 昆明理工大学 一种基于Attention机制来构建老挝语词性标注模型的方法
CN110348023A (zh) * 2019-07-18 2019-10-18 北京香侬慧语科技有限责任公司 一种中文文本分词的方法、装置、存储介质及电子设备
CN110442707A (zh) * 2019-06-21 2019-11-12 电子科技大学 一种基于seq2seq的多标签文本分类方法
CN110956962A (zh) * 2019-10-17 2020-04-03 中国第一汽车股份有限公司 车载机器人的答复信息确定方法、装置及设备
CN111488440A (zh) * 2020-03-30 2020-08-04 华南理工大学 一种基于多任务联合的问题生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN107168957A (zh) * 2017-06-12 2017-09-15 云南大学 一种中文分词方法
CN107247868A (zh) * 2017-05-18 2017-10-13 深思考人工智能机器人科技(北京)有限公司 一种人工智能辅助问诊系统
US9858263B2 (en) * 2016-05-05 2018-01-02 Conduent Business Services, Llc Semantic parsing using deep neural networks for predicting canonical forms

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858263B2 (en) * 2016-05-05 2018-01-02 Conduent Business Services, Llc Semantic parsing using deep neural networks for predicting canonical forms
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN107247868A (zh) * 2017-05-18 2017-10-13 深思考人工智能机器人科技(北京)有限公司 一种人工智能辅助问诊系统
CN107168957A (zh) * 2017-06-12 2017-09-15 云南大学 一种中文分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHENG XU 等: "Seq2seq Fingerprint: An Unsupervised Deep Molecular Embedding for Drug Discovery", 《ACM-BCB》 *
李亚超 等: "融合无监督特征的藏文分词方法研究", 《中文信息学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325243A (zh) * 2018-10-22 2019-02-12 内蒙古大学 字符级基于序列模型的蒙古文切词方法及其切词系统
CN109325243B (zh) * 2018-10-22 2022-11-22 内蒙古大学 字符级基于序列模型的蒙古文切词方法及其切词系统
CN109299273B (zh) * 2018-11-02 2020-06-23 广州语义科技有限公司 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN109299273A (zh) * 2018-11-02 2019-02-01 广州语义科技有限公司 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN109508459A (zh) * 2018-11-06 2019-03-22 杭州费尔斯通科技有限公司 一种从新闻中提取主题和关键信息的方法
CN109508459B (zh) * 2018-11-06 2022-11-29 杭州费尔斯通科技有限公司 一种从新闻中提取主题和关键信息的方法
CN109614612A (zh) * 2018-11-29 2019-04-12 武汉大学 一种基于seq2seq+attention的中文文本纠错方法
CN109753652A (zh) * 2018-12-14 2019-05-14 昆明理工大学 一种基于Attention机制来构建老挝语词性标注模型的方法
CN109657244A (zh) * 2018-12-18 2019-04-19 语联网(武汉)信息技术有限公司 一种英文长句自动切分方法及系统
CN110442707A (zh) * 2019-06-21 2019-11-12 电子科技大学 一种基于seq2seq的多标签文本分类方法
CN110442707B (zh) * 2019-06-21 2022-06-17 电子科技大学 一种基于seq2seq的多标签文本分类方法
CN110348023A (zh) * 2019-07-18 2019-10-18 北京香侬慧语科技有限责任公司 一种中文文本分词的方法、装置、存储介质及电子设备
CN110956962A (zh) * 2019-10-17 2020-04-03 中国第一汽车股份有限公司 车载机器人的答复信息确定方法、装置及设备
CN111488440A (zh) * 2020-03-30 2020-08-04 华南理工大学 一种基于多任务联合的问题生成方法
CN111488440B (zh) * 2020-03-30 2024-02-13 华南理工大学 一种基于多任务联合的问题生成方法

Also Published As

Publication number Publication date
CN108491372B (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN108491372A (zh) 一种基于seq2seq模型的中文分词方法
CN110598221B (zh) 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN107145483B (zh) 一种基于嵌入式表示的自适应中文分词方法
Saleh et al. Arabic sign language recognition through deep neural networks fine-tuning
CN107729497B (zh) 一种基于知识图谱的词嵌入深度学习方法
CN108717574B (zh) 一种基于连词标记和强化学习的自然语言推理方法
CN108959252A (zh) 基于深度学习的半监督中文命名实体识别方法
CN108182976A (zh) 一种基于神经网络的临床医学信息提取方法
CN110348014A (zh) 一种基于深度学习的语义相似度计算方法
CN106383816B (zh) 基于深度学习的中文少数民族地区地名的识别方法
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN107203511A (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN109086267A (zh) 一种基于深度学习的中文分词方法
CN108628823A (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111160564B (zh) 一种基于特征张量的中文知识图谱表示学习方法
CN113128229A (zh) 一种中文实体关系联合抽取方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN108073570A (zh) 一种基于隐马尔可夫模型的词义消歧方法
CN111243699A (zh) 基于字词信息融合的中文电子病历实体抽取方法
CN109933808A (zh) 一种基于动态配置解码的神经机器翻译方法
CN109284406A (zh) 基于差异循环神经网络的意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231110

Address after: Yuexiu District Guangzhou City, Guangdong province 510010 Liuhua Road No. 111

Patentee after: PEOPLE'S LIBERATION ARMY SOUTHERN THEATER GENERAL Hospital

Address before: 510640 No. five, 381 mountain road, Guangzhou, Guangdong, Tianhe District

Patentee before: SOUTH CHINA University OF TECHNOLOGY

TR01 Transfer of patent right