CN108595428A - 基于双向循环神经网络进行分词的方法 - Google Patents

基于双向循环神经网络进行分词的方法 Download PDF

Info

Publication number
CN108595428A
CN108595428A CN201810379547.5A CN201810379547A CN108595428A CN 108595428 A CN108595428 A CN 108595428A CN 201810379547 A CN201810379547 A CN 201810379547A CN 108595428 A CN108595428 A CN 108595428A
Authority
CN
China
Prior art keywords
word
neural network
sequence
circulating neural
bidirectional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810379547.5A
Other languages
English (en)
Inventor
张黎
邹开红
宗旭
肖增辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Flash Press Information Polytron Technologies Inc
Original Assignee
Hangzhou Flash Press Information Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Flash Press Information Polytron Technologies Inc filed Critical Hangzhou Flash Press Information Polytron Technologies Inc
Priority to CN201810379547.5A priority Critical patent/CN108595428A/zh
Publication of CN108595428A publication Critical patent/CN108595428A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供基于双向循环神经网络进行分词的方法,属于自然语言处理技术领域。该基于双向循环神经网络进行分词的方法包括如下步骤:S1:将获取的句子样本中的字分别转换为字向量;S2:将字向量输入双向门控循环单元网络中进行训练得到输出序列;S3:将输出序列传递到分类层以产生分词标记序列;S4:将分词标记序列与句子样本结合生成分词文本。本发明中将字向量输入至双向循环神经网络中进行训练,在预测每个字的分类类型时既结合了前文信息也结合了后文信息,分类概率更加合理,分类层计算出分类标记序列,将分类标记序列与句子样本结合生成分词文本,训练速度更快,消耗资源更少,准确率更高。

Description

基于双向循环神经网络进行分词的方法
技术领域
本发明属于自然语言处理技术领域,涉及基于双向循环神经网络进行分词的方法。
背景技术
随着互联网技术的发展,产生了海量的数据信息,人们对于信息分析和信息处理的需求越来越多,在这些海量的信息中要及时准确地分析出人们关心的数据,这就需要大数据分析做工作。面对巨大的数据在进行相应的数据分析,首先需要进行分词处理,也就是将连贯的文字分解由一个个具有特定语言含义的单元组成的序列,这样的处理在中文的信息处理中表现的尤为突出。因为中文分词与英文分词有所不同,英文分词是以词为单位,词与词之间用空格分隔,而中文分词是以字为单位,句子中所有的字连起来才能完整地表达某个含义。例如,英文句子“Knowledge is power”,中文则为“知识就是力量”。计算机可以很容易地通过空格知道“knowledge”是一个单词,但是不容易明白“知识”两个字合起来才表示一个词。所谓中文分词就是将中文的汉字序列切分成有意义的词,也称为切词。例如,“知识就是力量”这句话的切词结果是“知识/就是/力量”。中文分词的准确程度,常常直接影响到搜索结果的相关度排序。
发明内容
本发明针对现有的技术存在的上述问题,提供基于双向循环神经网络进行分词的方法,本发明所要解决的技术问题是:如何提高分词的效率和准确率。
本发明的目的可通过下列技术方案来实现:
基于双向循环神经网络进行分词的方法,包括如下步骤:
S1:将获取的句子样本中的字分别转换为字向量;
S2:将字向量输入双向门控循环单元网络中进行训练得到输出序列;
S3:将输出序列传递到分类层以产生分词标记序列;
S4:将分词标记序列与句子样本结合生成分词文本。
优选的,步骤S1中采用Embedding将获取的句子样本中的字分别转换为字向量。
优选的,步骤S2中将字向量按照句子样本顺序和反序分别输入双向门控循环单元网络时双向门控循环单元网络分离成前向传递单元和反向传递单元,将字向量按照句子样本顺序输入前向传递单元得到第一状态输出,将字向量按照句子样本反序输入反向传递单元得到第二状态输出,将第一状态输出和第二状态输出拼接起来得到输出序列。
优选的,所述第一状态输出和第二状态输出的长度相等,所述输出序列的长度为第一状态输出的长度的两倍。
优选的,所述分类层为softmax分类器。
优选的,步骤S3中的分词标记序列包括4个标签组合的字符串。
优选的,所述标签组合包括BMES,其中B表示词的开始部分,E表示词的结尾部分,M表示词的中间部分,S表示单个词。
优选的,步骤S4中将句子样本按照分词标记序列中属于词的开始部分、多个中间部分、结束部分和单个词分别对应的字作为词语从句子样本中切分。
优选的,所述句子样本是由一个或多个末端带有终结符号、符合中文语法规则的句子构成的文本,所述终结符合包括句号、问号、感叹号、逗号或者分号。
优选的,步骤S2中所述双向门控循环单元网络以标点符号为各次训练结束的信号。
本发明中将句子样本中的字转换为字向量输入至双向门控循环单元网络中进行训练,双向门控循环单元网络在预测每个字的分类类型时既结合了前文信息也结合了后文信息,这样预测出的字的分类概率更加合理,再在预测出每个字的分类概率的基础上使用分类层,分类层计算出最优化的分类标记序列,将分类标记序列与句子样本结合生成分词文本从而实现句子样本的分词,训练速度更快,消耗资源更少,准确率更高。
附图说明
图1是本发明的流程示意图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
请参阅图1,本实施例中的基于双向循环神经网络进行分词的方法,包括如下步骤:
S1:将获取的句子样本中的字分别转换为字向量;
S2:将字向量输入双向门控循环单元网络中进行训练得到输出序列;
S3:将输出序列传递到分类层以产生分词标记序列;
S4:将分词标记序列与句子样本结合生成分词文本。
步骤S1中可以采用Embedding将获取的句子样本中的字分别转换为字向量。Embedding是词嵌入,可以将文本和词语转换为机器能够接受的数值向量。词嵌入使用低维、稠密、实值的词向量来表示每一个词,从而赋予词语丰富的语义含义,并使得计算词语相关度成为可能。以最简单的情况为例,如果使用二维向量来表示词语,那么可以将每个词看作平面上的一个点,点的位置即横纵坐标由对应的二维向量确定,可以是任意且连续的。如果希望点的位置中蕴含词的语义,那么平面上位置相邻的点应当具有相关或相似的语义。用数学的语言来说,两个词具有语义相关或相似,则它们所对应的词向量之间距离相近,度量向量之间的距离可以使用经典的欧拉距离和余弦相似度等。
步骤S2中可以将字向量按照句子样本顺序和反序分别输入双向门控循环单元网络时双向门控循环单元网络分离成前向传递单元和反向传递单元,将字向量按照句子样本顺序输入前向传递单元得到第一状态输出,将字向量按照句子样本反序输入反向传递单元得到第二状态输出,将第一状态输出和第二状态输出拼接起来得到输出序列。双向循环神经网络可以为双向门控循环单元网络。
假设一个句子样本有N个字的输入X, X, X…XN,将句子样本顺序输入双向门控循环单元网络中的前向传递单元,经过前向传播层的加权输出至输出层,得到第一状态输出{ H,H,H…HN }。将句子样本反序输入双向门控循环单元网络中的后向传递单元,经过后向传播层的加权输出至输出层,得到第二状态输出{ H,H,H…HN }。将第一状态输出和第二状态输出拼接成输出序列[H,H], [H,H], [H,H] …[HN,HN]。第一状态输出和第二状态输出通过链接成输出序列。第一状态输出和第二状态输出的长度可以相等,第一状态输出和第二状态输出的长度为一个隐藏层长度,输出序列的长度可以为第一状态输出的长度的两倍,这样对于每个相同步长的输入X,都得到一个长度为倍隐藏层长度的输出序列[H,H], [H,H], [H,H] …[HN,HN]。双向门控循环单元网络包括复位门和更新门。双向门控循环单元网络生成信号来控制当前输入和之前记忆发生作用的方式,以更新当前的激活,从而更新当前的网络状态。双向门控循环单元网络可以考虑到网络前一时刻的输出对当前输出的影响,将隐藏层内部的节点也连接起来,即当前时刻一个节点的输入除了上一层的输出外,还包括上一时刻隐藏层的输出,既结合了前文信息也结合了后文信息,这样预测出的字的分类概率更加合理,准确率和效率均较高。
分类层可以为softmax分类器。Softmax分类器可以提高分类标记序列的准确性。
步骤S3中的分词标记序列可以包括个标签组合的字符串。标签组合可以包括BMES,其中B表示词的开始部分,E表示词的结尾部分,M表示词的中间部分,S表示单个词,这样就可以准确地分出词的开始部分、词的结尾部分、词的中间部分和单个词。分类层可以包括以下规则:.句子样本中开始的字的分类结果可以为词的开始部分或者单个词;.句子样本中结尾的字的分类结果可以为词的结束部分或者单个词;.在前一个字分类结果确定为词的开头部分时,当前字的分类可以为词的中间部分或者词的结束部分;.在前一个字分类结果确定为词的中间部分时,当前字的分类可以为词的中间部分或者词的结束部分;.在前一个字分类结果确定为词的结束部分时,当前字的分类可以单词或者词的开始部分。
步骤S4中可以将句子样本按照分词标记序列中属于词的开始部分、多个中间部分、结束部分和单个词分别对应的字作为词语从句子样本中切分。
句子样本可以是由一个或多个末端带有终结符号、符合中文语法规则的句子构成的文本,终结符合包括句号、问号、感叹号、逗号或者分号。在字向量输入双向门控循环单元网络中进行训练时遇到终结符号时,可以表示为词的结束部分,可以直接进行分词,训练结束。
步骤S2中双向门控循环单元网络可以以标点符号为各次训练结束的信号,标点符号可以表示为词的结束部分,可以直接进行分词,训练结束。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.基于双向循环神经网络进行分词的方法,其特征在于,包括如下步骤:
S1:将获取的句子样本中的字分别转换为字向量;
S2:将字向量输入双向门控循环单元网络中进行训练得到输出序列;
S3:将输出序列传递到分类层以产生分词标记序列;
S4:将分词标记序列与句子样本结合生成分词文本。
2.如权利要求1所述的基于双向循环神经网络进行分词的方法,其特征在于:步骤S1中采用Embedding将获取的句子样本中的字分别转换为字向量。
3.如权利要求1或2所述的基于双向循环神经网络进行分词的方法,其特征在于:步骤S2中将字向量按照句子样本顺序和反序分别输入双向门控循环单元网络时双向门控循环单元网络分离成前向传递单元和反向传递单元,将字向量按照句子样本顺序输入前向传递单元得到第一状态输出,将字向量按照句子样本反序输入反向传递单元得到第二状态输出,将第一状态输出和第二状态输出拼接起来得到输出序列。
4.如权利要求3所述的基于双向循环神经网络进行分词的方法,其特征在于:所述第一状态输出和第二状态输出的长度相等,所述输出序列的长度为第一状态输出的长度的两倍。
5.如权利要求1或2所述的基于双向循环神经网络进行分词的方法,其特征在于:所述分类层为softmax分类器。
6.如权利要求1或2所述的基于双向循环神经网络进行分词的方法,其特征在于:步骤S3中的分词标记序列包括4个标签组合的字符串。
7.如权利要求6所述的基于双向循环神经网络进行分词的方法,其特征在于:所述标签组合包括BMES,其中B表示词的开始部分,E表示词的结尾部分,M表示词的中间部分,S表示单个词。
8.如权利要求6所述的基于双向循环神经网络进行分词的方法,其特征在于:步骤S4中将句子样本按照分词标记序列中属于词的开始部分、多个中间部分、结束部分和单个词分别对应的字作为词语从句子样本中切分。
9.如权利要求1或2所述的基于双向循环神经网络进行分词的方法,其特征在于:所述句子样本是由一个或多个末端带有终结符号、符合中文语法规则的句子构成的文本,所述终结符合包括句号、问号、感叹号、逗号或者分号。
10.如权利要求1或2所述的基于双向循环神经网络进行分词的方法,其特征在于:步骤S2中所述双向门控循环单元网络以标点符号为各次训练结束的信号。
CN201810379547.5A 2018-04-25 2018-04-25 基于双向循环神经网络进行分词的方法 Pending CN108595428A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810379547.5A CN108595428A (zh) 2018-04-25 2018-04-25 基于双向循环神经网络进行分词的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810379547.5A CN108595428A (zh) 2018-04-25 2018-04-25 基于双向循环神经网络进行分词的方法

Publications (1)

Publication Number Publication Date
CN108595428A true CN108595428A (zh) 2018-09-28

Family

ID=63609661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810379547.5A Pending CN108595428A (zh) 2018-04-25 2018-04-25 基于双向循环神经网络进行分词的方法

Country Status (1)

Country Link
CN (1) CN108595428A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800435A (zh) * 2019-01-29 2019-05-24 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
CN110580288A (zh) * 2019-08-23 2019-12-17 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740226A (zh) * 2016-01-15 2016-07-06 南京大学 使用树形神经网络和双向神经网络实现中文分词
CN105893354A (zh) * 2016-05-03 2016-08-24 成都数联铭品科技有限公司 一种基于双向递归神经网络的分词方法
US20170127016A1 (en) * 2015-10-29 2017-05-04 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
CN107247700A (zh) * 2017-04-27 2017-10-13 北京捷通华声科技股份有限公司 一种添加文本标注的方法及装置
CN107357789A (zh) * 2017-07-14 2017-11-17 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法
US20180053108A1 (en) * 2016-08-16 2018-02-22 Toyota Jidosha Kabushiki Kaisha Efficient Driver Action Prediction System Based on Temporal Fusion of Sensor Data Using Deep (Bidirectional) Recurrent Neural Network

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170127016A1 (en) * 2015-10-29 2017-05-04 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
CN105740226A (zh) * 2016-01-15 2016-07-06 南京大学 使用树形神经网络和双向神经网络实现中文分词
CN105893354A (zh) * 2016-05-03 2016-08-24 成都数联铭品科技有限公司 一种基于双向递归神经网络的分词方法
US20180053108A1 (en) * 2016-08-16 2018-02-22 Toyota Jidosha Kabushiki Kaisha Efficient Driver Action Prediction System Based on Temporal Fusion of Sensor Data Using Deep (Bidirectional) Recurrent Neural Network
CN107247700A (zh) * 2017-04-27 2017-10-13 北京捷通华声科技股份有限公司 一种添加文本标注的方法及装置
CN107357789A (zh) * 2017-07-14 2017-11-17 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘怀亮 等: "基于知网语义相似度的中文文本分类研究", 《现代图书情报技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800435A (zh) * 2019-01-29 2019-05-24 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
CN109800435B (zh) * 2019-01-29 2023-06-20 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
CN110580288A (zh) * 2019-08-23 2019-12-17 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法和装置

Similar Documents

Publication Publication Date Title
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN112528676B (zh) 文档级别的事件论元抽取方法
CN108846017A (zh) 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN105512209A (zh) 一种基于特征自动学习的生物医学事件触发词识别方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN107203511A (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN110110061B (zh) 基于双语词向量的低资源语种实体抽取方法
CN110309514A (zh) 一种语义识别方法及装置
CN109325112B (zh) 一种基于emoji的跨语言情感分析方法和装置
CN113128229A (zh) 一种中文实体关系联合抽取方法
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN108153864A (zh) 基于神经网络生成文本摘要的方法
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN109902203A (zh) 基于边的随机游走的网络表示学习方法和装置
Xu et al. Semi-supervised target-oriented sentiment classification
CN111767694B (zh) 文本生成方法、装置和计算机可读存储介质
Zhang et al. Hotel reviews sentiment analysis based on word vector clustering
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN105955953A (zh) 一种分词系统
CN108595428A (zh) 基于双向循环神经网络进行分词的方法
CN114444515A (zh) 一种基于实体语义融合的关系抽取方法
CN113779185A (zh) 一种自然语言模型的生成方法和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 612, Building 5, No. 998 Wenyi West Road, Yuhang District, Hangzhou City, Zhejiang Province, 311100

Applicant after: HANGZHOU SECSMART INFORMATION TECHNOLOGY CO.,LTD.

Address before: Room 612, Building 5, No. 998 Wenyi West Road, Yuhang District, Hangzhou City, Zhejiang Province, 311100

Applicant before: HANGZHOU SECSMART INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310000 Room 608, Building No. 998 Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant after: HANGZHOU SECSMART INFORMATION TECHNOLOGY CO.,LTD.

Address before: Room 612, Building 5, No. 998 Wenyi West Road, Yuhang District, Hangzhou City, Zhejiang Province, 311100

Applicant before: HANGZHOU SECSMART INFORMATION TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310000 Room 608, building 5, No. 998, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant after: Flash it Co.,Ltd.

Address before: 310000 Room 608, building 5, No. 998, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant before: HANGZHOU SECSMART INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180928

RJ01 Rejection of invention patent application after publication