CN107168957A - 一种中文分词方法 - Google Patents

一种中文分词方法 Download PDF

Info

Publication number
CN107168957A
CN107168957A CN201710439335.7A CN201710439335A CN107168957A CN 107168957 A CN107168957 A CN 107168957A CN 201710439335 A CN201710439335 A CN 201710439335A CN 107168957 A CN107168957 A CN 107168957A
Authority
CN
China
Prior art keywords
sequence
word
chinese
layer
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710439335.7A
Other languages
English (en)
Inventor
金宸
李维华
王顺芳
郭延哺
邓春云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201710439335.7A priority Critical patent/CN107168957A/zh
Publication of CN107168957A publication Critical patent/CN107168957A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

中文分词是将连续的中文字符串按照一定的规范分割成词序列的过程。因为中文句子结构较为复杂,词间没有形式上的分界符,而且有时甚至需要联系下文的信息才能做出分词判断,所以现有中文分词方法在准确率方面还有待提高。该方法首先将待分词的中文文本输入到系统中作为序列A;第二,将序列A传递给词向量查找层,把输入的字符转化为词向量,得到序列B;第三,将序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络,并随后通过一层隐藏层,得到输出序列C;第四,将序列C作为输入序列传递到条件随机场解码层,生成分词标记标签序列D;最后将序列D转化为用空格隔开的文本序列E。

Description

一种中文分词方法
技术领域
本发明属于自然语言处理和深度学习技术领域,具体为一种基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词方法。
背景技术
中文分词是指将连续的中文字符串按照一定的规范分割成词序列的过程。中文不同于英文,其自身特点在于中文是以字为基本的书写单位,句子和段落之间通过分界符来划界,但词间并没有形式上的分界符,而在自然语言处理中,词是最小的能够独立活动的有意义的语言成分,所以分词的质量的好坏直接影响之后的自然语言处理任务。中文分词问题作为终于自然语言处理领域的重要基础研究,从20世纪80年代提出到现在,常用的研究方法可以分为以下四类:(1)基于字典的字符串匹配的方法;(2)基于语言规则的方法;(3)基于传统概率统计机器学习模型的方法;(4)基于深度神经网络模型的方法。基于词典的字符串匹配方法速度块,实现简单,但对歧义和词典未收录词处理不好。基于语法规则的方法具有针对性和暂时较高的准确率,但由于句法构造的领域相关性,适应性较差,词典与歧义消解处理难维护。基于传统概率统计机器学习模型的方法有隐马尔可夫模型(HiddenMarkov Model,HMM)方法、最大熵模型(Maximum Entropy Model)方法和条件随机场(conditional random fields,CRF)方法等。这些方法能平等地看待词典词和未登录词的识别,但是模型的训练是基于提取出的人为设定的特征,而且性能受限于特征的选择和提取。基于深度神经网络模型,如长短期记忆(Long Short-Term Memory,LSTM)神经网络,可以尽可能避免特征工程的影响并克服了传统神经网络缺失长期依赖关系的问题,逐渐应用到中文分词等自然语言处理任务中。然而,LSTM神经网络只能记住过去的上文信息。由于中文句子的结构较为复杂,有时需要联系下文的信息才能做出判断。为了实现更加准确的分词,本发明把双向长短期记忆神经网络强大的建模能力与CRF在概率模型方面基于局部最优推测标签的能力相结合,并且在模型中加入了注意力机制,提出了一种基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词方法。
发明内容
本发明的目的在于提出一种注意力机制的双向长短期记忆神经网络和条件随机场的中文分词方法。说明了如何通过输入的句子生成对应的分词标记序列。
为了实现以上目的,本发明采用的技术方案,包括以下步骤:
步骤1:将不超过指定长度的中文文本输入到系统中作为输入序列A。
步骤2:将将步骤1中所述的输入序列A传递给词向量查找层,把输入的字符转化为词向量,得到输出序列B。
步骤3:将步骤2中所述的序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络,并随后通过一层隐藏层,得到输出序列C。
步骤4:将步骤3中所述的序列C作为输入序列传递到线性链式条件随机场解码层,生成分词标记标签序列D。
步骤5:将步骤4得到的分词标记标签序列D转化为用空格隔开的文本序列E。
上述的中文文本是由一个或多个句末带有终结符号的句子构成的文本,并且文本符合中文语法规则,其中终结符包括句号、问号、感叹号、逗号和分号。上述的词向量查找层,指的是通过现有的神经网络模型(Word2Vec)预先训练出的字符与向量对应表。上述的隐藏层的初始化输入包括双向长短期记忆神经网络隐藏层由前向后的初始化状态及由后向前的初始化状态,及三层长短期记忆神经网络每层的初始化状态,都采用所述句子的句向量。上述的基于注意力机制的双向长短期记忆神经网络所用单元是基于注意力机制的长短期记忆神经网络(LSTMN)单元,其特点是其记忆单元使用注意力机制减少记忆压缩。上述的分词标记标签是指{BMES}标签系统,其中B指Begin表示词首,M指Middle表示词中,E指End表示词尾,s指Single表示单个词。本方法中使用小批量随机梯度下降训练神经网络层。
在以下附图和说明中描述了本说明书中所述主题的一些实施例的细节。依据说明、附图和权利要求书,使用基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词的方法的其他特征、方面和优点会是显而易见。
附图说明
图1是基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词方法流程图;
图2是基于注意力机制的长短期记忆神经网络单元。
具体实施方式
结合附图1和图2,对依据本发明提供的具体实施方式,详细说明如此下。
本发明旨在提供一种基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词技术解决方案,包括五个部分,(1)把输入中文文本转换成字符向量;(2)训练并通过基于注意力机制的双向长短期记忆神经网络对序列进行建模;(3)通过线性链式条件随机场(CRF)得到序列的得分向量;(4)由得分向量得到每一个字符所对应的分词标记标签;(5)通过每一个字符所对应的分词标记标签转化为用空格隔开的输出分词文本序列。
图1表示从输入文本序列到最终分词序列输出的整个流程。其中,输入句子到输出序列是将句子转换成词向量的过程示例。在其中可以实施下述的系统、组件和技术。
将单词转换成词向量,词向量可利用比较成熟的神经网络预先训练出词向量库,如word2vec,Glove,这两个神经网络算法训练出来的词向量,相似词或同类词之间存在一定的线性关系或明显的非线性关系,通过一个词的词向量可以找到它相似的词。为了使得词向量更具有语义,本发明采用Word2Vec训练出100维的词向量库。
图1中基于注意力机制的双向长短期记忆神经网络,包括一个由前向后传递的基于注意力机制长短期记忆神经网络和一个由后向前的基于注意力机制长短记忆神经网络构成。每个基于注意力机制的双向长短期记忆神经网络由指定长度即块数的LSTMN记忆单元构成,这里采用的序列长度最长是100。每个单元包括输入门、忘记门、记忆门和输出门,即LSTMN记忆单元。双向长短期记忆神经网络,能捕捉到每个词左右上下文的信息,所以能够更好地获得语义。输出向量通过乘以矩阵参数转换成与隐藏层相同维度的向量,矩阵参数通过训练整个神经网络获得。
图1示出的条件随机场(CRF)解码层,在本层中综合由基于注意力机制的双向长短期记忆神经网络得到的向量,以及通过条件随机场得到的概率向量,最后得出了分词标记标签的总得分向量。
图1中的分词标记标签,表示的是一个维度为4的列向量,这个4表示{BEMS}标志,其中B指Begin词首,E指End词尾,M指Middle词中,s指单字词,找到文本序列对应字符的分词标记标签,即可转化为用空格隔开的输出分词文本序列,如{“BEBME”}转化为{“球拍 买完了”}。
图2示出的基于注意力机制的长短期记忆神经网络单元。右侧部分是常见的长短期记忆神经网络单元即LSTM单元,阴影部分是与标准LSTM单元不同的地方,在于多了一层对所有隐藏状态与记忆状态实施注意力机制。它明确保存了过去所有的信息通过注意力机制可以学习到怎么分析、调整利用过去所有的信息,方便理解当前的输入,从而可以避免过长的距离导致信息压缩与丢失。
上面是对整个神经网络结构和处理过程的完整解释。最终需要训练整个神经网络,才可以使用,输入为一个中文文本,输出的是由空格隔开的中文文本序列,如:input={“球怕卖完了”},output= {“球拍 买完了”} 。使用时,只需要输入一个中文文本序列,就可以输出空格隔开的输出中文分词文本序列。

Claims (7)

1.一种中文分词方法,其特征在于包括以下步骤:
步骤1:将不超过指定长度的中文文本输入到系统中作为输入序列A;
步骤2:将输入序列A传递给词向量查找层,把输入的字符转化为词向量,得到输出序列B;
步骤3:将序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络,并随后通过一层隐藏层,得到输出序列C;
步骤4:将序列C作为输入序列传递到线性链式条件随机场解码层,生成分词标记标签序列D;
步骤5:将分词标记标签序列D转化为用空格隔开的文本序列E。
2.根据权利要求1所述的方法,其中所述的中文文本是由一个或多个句末带有终结符号的句子构成的文本,并且文本符合中文语法规则,其中终结符包括句号、问号、感叹号、逗号和分号。
3.根据权利要求1所述的方法,其中所述的词向量查找层,指的是通过现有的神经网络模型(Word2Vec)预先训练出的字符与向量对应表。
4.根据权利要求1所述的方法,其中所述的隐藏层的初始化输入包括双向长短期记忆神经网络隐藏层由前向后的初始化状态及由后向前的初始化状态,及三层长短期记忆神经网络每层的初始化状态,都采用所述句子的句向量。
5.根据权利要求1至4任意一项所述的方法,包括:使用小批量随机梯度下降训练神经网络层。
6.根据权利要求1所述的方法,其中所述的基于注意力机制的双向长短期记忆神经网络所用单元是基于注意力机制的长短期记忆神经网络(LSTMN)单元,其特点是其记忆单元使用注意力机制减少记忆压缩。
7.根据权利要求1所述的方法,其中所述的分词标记标签是指{BMES}标签系统,其中B指Begin表示词首,M指Middle表示词中,E指End表示词尾,s指Single表示单个词。
CN201710439335.7A 2017-06-12 2017-06-12 一种中文分词方法 Pending CN107168957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710439335.7A CN107168957A (zh) 2017-06-12 2017-06-12 一种中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710439335.7A CN107168957A (zh) 2017-06-12 2017-06-12 一种中文分词方法

Publications (1)

Publication Number Publication Date
CN107168957A true CN107168957A (zh) 2017-09-15

Family

ID=59825295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710439335.7A Pending CN107168957A (zh) 2017-06-12 2017-06-12 一种中文分词方法

Country Status (1)

Country Link
CN (1) CN107168957A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832307A (zh) * 2017-11-28 2018-03-23 南京理工大学 基于无向图与单层神经网络的中文分词方法
CN107894976A (zh) * 2017-10-12 2018-04-10 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的混合语料分词方法
CN107977354A (zh) * 2017-10-12 2018-05-01 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的混合语料分词方法
CN107992467A (zh) * 2017-10-12 2018-05-04 北京知道未来信息技术有限公司 一种基于lstm的混合语料分词方法
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108491372A (zh) * 2018-01-31 2018-09-04 华南理工大学 一种基于seq2seq模型的中文分词方法
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108846257A (zh) * 2018-05-09 2018-11-20 云南大学 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法
CN109241377A (zh) * 2018-08-30 2019-01-18 山西大学 一种基于深度学习话题信息增强的文本文档表示方法和装置
CN109241275A (zh) * 2018-07-05 2019-01-18 广东工业大学 一种基于自然语言处理的文本主题聚类算法
CN109255120A (zh) * 2018-07-23 2019-01-22 昆明理工大学 一种老挝语分词方法
CN109710930A (zh) * 2018-12-20 2019-05-03 重庆邮电大学 一种基于深度神经网络的中文简历解析方法
WO2019095568A1 (zh) * 2017-11-17 2019-05-23 平安科技(深圳)有限公司 企业简称生成方法、装置及存储介质
CN110222337A (zh) * 2019-05-28 2019-09-10 浙江邦盛科技有限公司 一种基于transformer和CRF的中文地址分词方法
CN110309769A (zh) * 2019-06-28 2019-10-08 北京邮电大学 一种对图片中的字符串进行分割的方法
CN111930977A (zh) * 2020-08-04 2020-11-13 腾讯音乐娱乐科技(深圳)有限公司 识别敏感信息的方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016106383A2 (en) * 2014-12-22 2016-06-30 Robert Bosch Gmbh First-person camera based visual context aware system
CN106202054A (zh) * 2016-07-25 2016-12-07 哈尔滨工业大学 一种面向医疗领域基于深度学习的命名实体识别方法
CN106528858A (zh) * 2016-11-29 2017-03-22 北京百度网讯科技有限公司 歌词生成方法及装置
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016106383A2 (en) * 2014-12-22 2016-06-30 Robert Bosch Gmbh First-person camera based visual context aware system
CN106202054A (zh) * 2016-07-25 2016-12-07 哈尔滨工业大学 一种面向医疗领域基于深度学习的命名实体识别方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106528858A (zh) * 2016-11-29 2017-03-22 北京百度网讯科技有限公司 歌词生成方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KOTH 待字闺中: "97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)", 《HTTPS://MP.WEIXIN.QQ.COM/S?__BIZ=MJM5ODIZNDQ3MW==&MID=2649966433&IDX=1&SN=BE6C0E5485003D6F33804261DF7C3ECF》 *
YUSHI YAO等: "Bi-directional LSTM Recurrent Neural Network for Chinese Word Segmentation", 《ARXIV PERPRINT ARVIV》 *
ZHIHENG HUANG等: "Bidirectional LSTM-CRF Models for Sequence Tagging", 《ARXIV PREPRINT ARXIV》 *
黄积杨: "基于双向LSTM神经网络的中文分词研究分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107894976A (zh) * 2017-10-12 2018-04-10 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的混合语料分词方法
CN107977354A (zh) * 2017-10-12 2018-05-01 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的混合语料分词方法
CN107992467A (zh) * 2017-10-12 2018-05-04 北京知道未来信息技术有限公司 一种基于lstm的混合语料分词方法
WO2019095568A1 (zh) * 2017-11-17 2019-05-23 平安科技(深圳)有限公司 企业简称生成方法、装置及存储介质
CN107832307A (zh) * 2017-11-28 2018-03-23 南京理工大学 基于无向图与单层神经网络的中文分词方法
CN107832307B (zh) * 2017-11-28 2021-02-23 南京理工大学 基于无向图与单层神经网络的中文分词方法
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108460013B (zh) * 2018-01-30 2021-08-20 大连理工大学 一种基于细粒度词表示模型的序列标注模型及方法
CN108491372B (zh) * 2018-01-31 2021-06-08 华南理工大学 一种基于seq2seq模型的中文分词方法
CN108491372A (zh) * 2018-01-31 2018-09-04 华南理工大学 一种基于seq2seq模型的中文分词方法
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108628823B (zh) * 2018-03-14 2022-07-01 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108846257B (zh) * 2018-05-09 2021-08-24 云南大学 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法
CN108846257A (zh) * 2018-05-09 2018-11-20 云南大学 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法
CN109241275A (zh) * 2018-07-05 2019-01-18 广东工业大学 一种基于自然语言处理的文本主题聚类算法
CN109241275B (zh) * 2018-07-05 2022-02-11 广东工业大学 一种基于自然语言处理的文本主题聚类算法
CN109255120A (zh) * 2018-07-23 2019-01-22 昆明理工大学 一种老挝语分词方法
CN109241377A (zh) * 2018-08-30 2019-01-18 山西大学 一种基于深度学习话题信息增强的文本文档表示方法和装置
CN109241377B (zh) * 2018-08-30 2021-04-23 山西大学 一种基于深度学习话题信息增强的文本文档表示方法和装置
CN109710930A (zh) * 2018-12-20 2019-05-03 重庆邮电大学 一种基于深度神经网络的中文简历解析方法
CN110222337A (zh) * 2019-05-28 2019-09-10 浙江邦盛科技有限公司 一种基于transformer和CRF的中文地址分词方法
CN110222337B (zh) * 2019-05-28 2022-12-02 浙江邦盛科技股份有限公司 一种基于transformer和CRF的中文地址分词方法
CN110309769A (zh) * 2019-06-28 2019-10-08 北京邮电大学 一种对图片中的字符串进行分割的方法
CN111930977A (zh) * 2020-08-04 2020-11-13 腾讯音乐娱乐科技(深圳)有限公司 识别敏感信息的方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107168957A (zh) 一种中文分词方法
CN112100388B (zh) 一种长文本新闻舆情的情感极性的分析方法
CN111832292B (zh) 文本识别处理方法、装置、电子设备和存储介质
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN107085581B (zh) 短文本分类方法和装置
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN107203511A (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
AU2017408800B2 (en) Method and system of mining information, electronic device and readable storable medium
CN108874997A (zh) 一种面向电影评论的人名命名实体识别方法
CN104699797B (zh) 一种网页数据结构化解析方法和装置
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN105740226A (zh) 使用树形神经网络和双向神经网络实现中文分词
CN109325112A (zh) 一种基于emoji的跨语言情感分析方法和装置
CN105373529A (zh) 一种基于隐马尔科夫模型的智能分词方法
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN106033462A (zh) 一种新词发现方法及系统
CN106610937A (zh) 一种基于信息论的中文自动分词算法
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN113590810B (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN110222338A (zh) 一种机构名实体识别方法
CN111914555B (zh) 基于Transformer结构的自动化关系抽取系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170915