CN112036183B - 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质 - Google Patents

基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质 Download PDF

Info

Publication number
CN112036183B
CN112036183B CN202010899318.3A CN202010899318A CN112036183B CN 112036183 B CN112036183 B CN 112036183B CN 202010899318 A CN202010899318 A CN 202010899318A CN 112036183 B CN112036183 B CN 112036183B
Authority
CN
China
Prior art keywords
word
word segmentation
model
dictionary
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010899318.3A
Other languages
English (en)
Other versions
CN112036183A (zh
Inventor
周忠诚
段炼
黄九鸣
张圣栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Xinghan Shuzhi Technology Co ltd
Original Assignee
Hunan Xinghan Shuzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Xinghan Shuzhi Technology Co ltd filed Critical Hunan Xinghan Shuzhi Technology Co ltd
Priority to CN202010899318.3A priority Critical patent/CN112036183B/zh
Publication of CN112036183A publication Critical patent/CN112036183A/zh
Application granted granted Critical
Publication of CN112036183B publication Critical patent/CN112036183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明适用于互联网技术领域,提供了一种基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质,该方法包括:设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度,设置CRF模型的分词标签,构建分词模型;通过分词模型接收训练数据,根据字索引从预先获取的字向量表中获取对应的字向量,根据获取的字向量生成字标签索引;根据生成的字标签索引与训练数据的字标签索引的对比结果,调整分词模型的权重参数,得到优化后的分词模型;通过优化后的分词模型对待识别中文文本进行分词处理。本发明提供的一种基于BiLSTM网络模型及CRF模型的分词方法,能够减少人力成本,提高分词结果的准确度。

Description

基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装 置及计算机存储介质
技术领域
本发明属于自然语言处理领域,尤其涉及一种基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质。
背景技术
随着信息社会的到来,中文文本信息的数量出现爆炸式的增长。中文作为一种黏着语,其结构模糊,中文的词与词之间没有明显的间隔,只有字和句子这两个层级的结构,但词却是中文文本意义的最小单位。若需要对中文文本进行命名实体识别、信息抽取、语法结构分析、自然语言理解等处理任务,必须对中文文本构建出词一级的结构。在构建中文文本的词一级的结构过程中,由于文本数量庞大,手工分词非常慢,并且汉语是以字构词,字与字之间是否成词需依照语句以及上下文意思来确定,导致手工分词过程中存在分词准确率低,效率低。
现有技术中,使用循环神经网络(Recurrent Neural Network,RNN)从大量文本中学习字的特征,并结合CRF、SVM对具有不同特征的字进行分类,进而确定哪些字是单字成词,哪些是几个字组成的词。现有技术由于采用简单原始的RNN,不能提取出字的长距离上下文中的隐含信息,导致学习到的特征表示不准确,存在分词准确率很低的问题。
发明内容
本发明实施例提供一种基于BiLSTM网络模型及CRF模型的分词方法,旨在解决现有技术中由于采用简单原始的RNN,不能提取出字的长距离上下文中的隐含信息,导致学习到的特征表示不准确,存在分词准确率很低的问题。
本发明是这样实现的,一种基于BiLSTM网络模型及CRF模型的分词方法,包括:
设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度,设置CRF模型的分词标签,基于所述设置后的BiLSTM网络模型及CRF模型构建分词模型;
通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引;
根据所述生成的字标签索引与所述训练数据的字标签索引的对比结果,调整所述分词模型的权重参数,得到优化后的分词模型;
通过所述优化后的分词模型对待识别中文文本进行分词处理,具体包括:
根据字典将所述中文文本转换成索引文本;
根据字向量表将所述索引文本转换为字向量文本,并将所述字向量文本输入所述优化后的分词模型,通过所述优化后的分词模型得到每个索引对应的分词标签索引;
从预先获取的词标签列表中查找所述分词标签索引对应的分词标签,其中,所述词标签列表包括分词标签索引及与所述分词标签索引对应的分词标签;
根据所述分词标签得到词边界,根据所述词边界确定所述中文文本的分词结果。
可选的,所述设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度之前,所述基于BiLSTM网络模型及CRF模型的分词方法还包括以下过程:
基于原始中文文本构建字典,其中,所述字典包括中文字符及其与中文字符对应的索引;
构建所述字向量表,所述字向量表包括所述字典中的索引及与所述索引对应字符的字向量;所述字典中字符的索引与所述字向量表的索引一一对应。
可选的,所述根据所述分词标签确定所述中文文本的分词结果之后,所述基于BiLSTM网络模型及CRF模型的分词方法还包括以下步骤:
根据所述分词结果与所述字典中包含的字符确定目标字符,所述目标字符为出现在所述分词结果中、且未出现在所述字典中的字符;将所述目标字符及对应的索引更新到所述字典中;
根据所述分词结果与预先获取的词典中包含的词语确定目标词语,所述目标词语为出现在所述分词结果中、且未出现在所述词典中的词语;将所述目标词语及对应的索引更新到所述词典中。
本发明还提供一种基于BiLSTM网络模型及CRF模型的分词装置,包括:
设置模块,用于设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度,设置CRF模型的分词标签,基于所述设置后的BiLSTM网络模型及CRF模型构建分词模型;
处理模块,用于通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引;
优化模块,用于根据所述生成的字标签索引与所述训练数据的字标签索引的对比结果,调整所述分词模型的权重参数,得到优化后的分词模型;
分词处理模块,用于通过所述优化后的分词模型对待识别中文文本进行分词处理,具体包括:
第一转换子模块,用于根据字典将所述中文文本转换成索引文本;
第二转换子模块,用于根据字向量表将所述索引文本转换为字向量文本,并将所述字向量文本输入所述优化后的分词模型,通过所述优化后的分词模型得到每个索引对应的分词标签索引;
查找子模块,用于从预先获取的词标签列表中查找所述分词标签索引对应的分词标签,其中,所述词标签列表包括分词标签索引及与所述分词标签索引对应的分词标签;
确定子模块,用于根据所述分词标签得到词边界,根据所述词边界确定所述中文文本的分词结果。
可选的,所述基于BiLSTM网络模型及CRF模型的分词装置还包括:
第一构建模块,用于基于原始中文文本构建字典,其中,所述字典包括中文字符及其与中文字符对应的索引;
第二构建模块,用于构建所述字向量表,所述字向量表包括所述字典中的索引及与所述索引对应字符的字向量;所述字典中字符的索引与所述字向量表的索引一一对应。
可选的,所述基于BiLSTM网络模型及CRF模型的分词装置还包括:
更新模块,用于根据所述分词结果与所述字典中包含的字符确定目标字符,所述目标字符为出现在所述分词结果中、且未出现在所述字典中的字符;将所述目标字符及对应的索引更新到所述字典中;
根据所述分词结果与预先获取的词典中包含的词语确定目标词语,所述目标词语为出现在所述分词结果中、且未出现在所述词典中的词语;将所述目标词语及对应的索引更新到所述词典中。
本发明还提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中计算机程序时实现如上述所述一种基于BiLSTM网络模型及CRF模型的分词方法的步骤。
本发明还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述一种基于BiLSTM网络模型及CRF模型的分词方法的步骤。
本发明提供的一种基于BiLSTM网络模型及CRF模型的分词方法,通过所述设置后的BiLSTM获取待识别语句的字向量,每个字向量综合了上下文信息的向量表示,提高字向量的准确度,从而在将所述待识别语句的字向量输入所述设置后的CRF模型,得到所述待识别语句的分词标签更加准确;基于准确度较高的分词标签能够得到准确度更高的分词结果;进而根据交准确的分词能更加准确地调整分词模型的权重参数,得到较好的优化后的分词模型;通过所述优化后的分词模型对待识别中文文本进行分词处理,能够得到更加准确的分词结果,减少人力成本,提高分词准确率。
附图说明
图1是本发明实施例提供的一种基于BiLSTM网络模型及CRF模型的分词方法的实现流程图;
图2本发明实施例提供的分词模型示意图;
图3本发明实施例提供的基于BiLSTM网络模型及CRF模型的分词方法的步骤S104之后的流程示意图;
图4本发明实施例提供的字典局部示意图;
图5本发明实施例提供的分词模型的训练数据示例;
图6本发明实施例提供的步骤S104的流程示意图;
图7本发明实施例提供的词典局部示意图;
图8本发明实施例提供的基于BiLSTM网络模型及CRF模型的分词装置的结构示意图;
图9是本发明实施提供的另一基于BiLSTM网络模型及CRF模型的分词装置的结构示意图;
图10是本发明实施提供的分词处理模块的结构示意图;
图11是本发明实施例提供的另一基于BiLSTM网络模型及CRF模型的分词装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1所示为本发明实施例提供的一种基于BiLSTM网络模型及CRF模型的分词方法的实现流程图。该基于BiLSTM网络模型及CRF模型的分词方法包括以下过程:
步骤S101,设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度,设置CRF模型的分词标签,基于所述设置后的BiLSTM网络模型及CRF模型构建分词模型。
双向长短时记忆(Bidirectional Long Short-Term Memory,BiLSTM)网络模型可以整合字的上下文信息,针对每个字得到包含上下文信息的字向量。条件随机场(Conditional Random Field,CRF)模型是随机场的一种,是一种判别式模型。CRF模型常用来标注、分析序列资料。
请参阅图2,图2为分词模型示意图。分词模型包括字嵌入、BiLSTM编码器及CRF层,l序列代表某个字词和其上文信息的向量表示,r序列则代表某个字词的下文信息的向量表示,c序列代表综合了上下文信息的某个字词的新的综合字向量表示。在图2中,l1代表字“张”和其上文信息的向量表示,l2代表字“三”和其上文信息的向量表示,l3代表字“吃”和其上文信息的向量表示,l4代表字“饭”和其上文信息的向量表示。r1代表字“张”和其下文信息的向量表示,r2代表字“三”和其下文信息的向量表示,r3代表字“吃”和其下文信息的向量表示,r4代表字“饭”和其下文信息的向量表示。c1代表字“张”和其上下文信息的综合向量表示,c2代表字“三”和其上下文信息的综合向量表示,c3代表字“吃”和其上下文信息的综合向量表示,c4代表字“饭”和其上下文信息的综合向量表示。
在本实施中,双向LSTM的隐藏神经元数量可以设为160个,分词标签总共有8个,字向量可以设为300维,将待识别语句分段输入到神经网络中,每段长度固定可以为80个字,根据这些参数设置BiLSTM网络模型。
在本实施例中,分词标签包括8种:“EY”,“OT”,“BN”,“IN”,“BL”,“IL”,“BO”,“IO”,分别设置相应的索引,索引分别是0,1,2,3,4,5,6,7。“EY”代表无意义的标签,“OT”代表这个词不属于命名实体,它属于其他类别,“BN”代表这个词作为人名类命名实体的起始词,“IN”代表这个词作为人名类命名实体的部分词,“BL”代表这个词作为地名类命名实体的起始词,“IL”代表这个词作为地名类命名实体的部分词,“BO”代表这个词作为组织机构类命名实体的起始词,“IO”代表这个词作为组织机构类命名实体的部分词。
请参阅图3,在步骤S101之前,所述基于BiLSTM网络模型及CRF模型的分词方法还包括以下过程:
步骤S105,基于原始中文文本构建字典,其中,所述字典包括中文字符及其与中文字符对应的索引;
步骤S106,构建所述字向量表,所述字向量表包括所述字典中的索引及与所述索引对应字符的字向量;所述字典中字符的索引与所述字向量表的索引一一对应。
在拥有大量已标记的字的文本后,从标记文本中整理并统计出字典,即带索引的字表,其中每个字都有唯一的一个序号对应,每个字在这个字表中只出现一次。请参阅图4,图4所示为字典局部示例图,图4中每一个中文字符对应一个索引,索引为连续排序的数字。在字典中频次为1的字以及将来测试语料中的生字,即字典中不存在的字,都以一个符号“<UNK>”表示,它们的共同索引为字典中频数大于1的字的总数加1。
在本实施例中,字向量表由网络上几十GB的文本大数据结合神经网络语言模型训练而来,每个字的向量表示都是非常准确的,含有极为丰富的内在信息。字向量表中字的索引和字典中同一字的索引一致。例如,图4中字典局部示例“的”字的索引为2,则字向量表中字“的”字的索引也为2。
步骤S102,通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引。
可以理解的是,各类神经网络模型的输入必须是字向量,而不能是未经处理的字符输入,必须将字符替换成对应的向量,再输入到神经网络模型中进行推理。在本实施例中,通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引。具体来说,通过所述设置后的BiLSTM获取待识别语句的字向量,将得到的字向量输入所述设置后的CRF模型,可以确保能够得到所述待识别语句的分词标签。在本实施例中,所述设置后的CRF模型先获得分词标签索引,然后从分词标签索引表中查找与分词标签索引对应的分词标签。
需要说明的是,分词时,字的标签有5种:“U”,“S”,“B”,“M”,“E”,它们的索引分别是0,1,2,3,4。“U”代表无意义的标签,“S”代表这个字独自成词,“B”代表这个字在这个词中作为开头的字,“M”代表这个字在这个词中作为中间位置的字,“E”代表这个字在这个词中作为结尾处的字。分词的训练数据中都是字的索引,从原始文本中取每一行的前80个字,不足80个字的用0补齐。80个字索引后面跟着80个字标签索引。这些数字统一由空格隔开,每一行训练数据是160个数字。请参阅图5,图5为训练数据的示例。
此外,训练数据还可以转换为可读类型的训练数据,可读类型的数据是每个字后面跟着它对应的标签,字与字之间以空格隔开,便于用户阅读。
步骤S103,根据所述生成的字标签索引与所述训练数据的字标签索引的对比结果,调整所述分词模型的权重参数,得到优化后的分词模型。
在本实施例中,由于充分整合了上下文信息,从而分词准确度较高,能达到比较好的分词效果。
在本实施例中,通过所述分词模型接收训练数据,训练迭代N次,设置学习率设为M,每L次在验证集上做一次实验,计算准确率,当计算得到的准确率达到预设要求时,终止训练,得到训练后的命名实体识别模型,其中,N为正整数,N在100万到1000万之间,M一般取值在0.001到0.00001之间,L根据验证集大小而定,可以取L为N的二十分之一或者十分之一。
举例来说,通过所述分词模型接收训练数据,训练迭代100万次,学习率设为0.001,每5万次在验证集上做一次实验,计算准确率。模型效果超过10次未有提升,则终止训练。
步骤S104,通过所述优化后的分词模型对待识别中文文本进行分词处理。
可选的,请参阅图6,所述步骤S104包括以下过程:
步骤S1041,根据所述字典将所述中文文本转换成索引文本;
步骤S1042,根据所述字向量表,将所述索引文本转换为字向量文本,并将所述字向量文本输入所述优化后的分词模型,通过所述优化后的分词模型得到每个索引对应的分词标签索引;
步骤S1043,从预先获取的词标签列表中查找所述分词标签索引对应的分词标签,其中,所述词标签列表包括分词标签索引及与所述分词标签索引对应的分词标签;
步骤S1044,根据所述分词标签得到词边界,根据所述词边界确定所述中文文本的分词结果。此外,通过增加训练数据,同时采用特征表示更为准确的词向量、字向量可以进一步提高分词的准确度。
可选的,在步骤S1044之后,还可以包括以下步骤:
根据所述分词结果与所述字典中包含的字符确定目标字符,所述目标字符为出现在所述分词结果中、且未出现在所述字典中的字符;将所述目标字符及对应的索引更新到所述字典中;
根据所述分词结果与预先获取的词典中包含的词语确定目标词语,所述目标词语为出现在所述分词结果中、且未出现在所述词典中的词语;将所述目标词语及对应的索引更新到所述词典中。
请参阅图7,图7为词典局部示例,词典可以从互联网下载,也可以根据语料库进行构建。词典中频次为1以下的字以及将来测试语料中的生词(在构建词典中不存在的词)都以一个符号“<UNK>”表示,它们的共同索引为词典中频数大于1的词的总数加1。词典中的词的索引和词向量表中的词的索引保持一致。
在本实施例中,词向量表由网络上几十GB的文本大数据结合神经网络语言模型训练而来,每个词的向量表示都是非常准确的,含有极为丰富的内在信息。词向量表中字的索引和词典中同一词的索引一致。例如,图7中字典局部示例“医院”词的索引为187,则词向量表中词“医院”字的索引也为187。
这样,可以及时对字典、词典进行更新,便于字典、词典的完善。
本发明提供的一种基于BiLSTM网络模型及CRF模型的分词方法,通过所述设置后的BiLSTM获取待识别语句的字向量,每个字向量综合了上下文信息的向量表示,提高字向量的准确度,从而在将所述待识别语句的字向量输入所述设置后的CRF模型,得到所述待识别语句的分词标签更加准确;基于准确度较高的分词标签能够得到准确度更高的分词结果;进而根据交准确的分词能更加准确地调整分词模型的权重参数,得到较好的优化后的分词模型;通过所述优化后的分词模型对待识别中文文本进行分词处理,能够得到更加准确的分词结果,减少人力成本,提高分词准确率。
图8示出了本发明实施例提供的一种基于BiLSTM网络模型及CRF模型的分词装置100的结构示意图,为了便于说明,仅示出了于本发明实施相关的部分。该基于BiLSTM网络模型及CRF模型的分词装置100包括:
设置模块101,用于设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度,设置CRF模型的分词标签,基于所述设置后的BiLSTM网络模型及CRF模型构建分词模型。
双向长短时记忆(Bidirectional Long Short-Term Memory,BiLSTM)网络模型可以整合字的上下文信息,针对每个字得到包含上下文信息的字向量。条件随机场(Conditional Random Field,CRF)模型它是随机场的一种,是一种判别式模型。CRF模型常用来标注、分析序列资料。
请再次参阅图2,分词模型包括字嵌入、BiLSTM编码器及CRF层,l序列代表某个字词和其上文信息的向量表示,r序列则代表某个字词的下文信息的向量表示,c序列代表综合了上下文信息的某个字词的新的综合字向量表示。在图2中,l1代表字“张”和其上文信息的向量表示,l2代表字“三”和其上文信息的向量表示,l3代表字“吃”和其上文信息的向量表示,l4代表字“饭”和其上文信息的向量表示。r1代表字“张”和其下文信息的向量表示,r2代表字“三”和其下文信息的向量表示,r3代表字“吃”和其下文信息的向量表示,r4代表字“饭”和其下文信息的向量表示。c1代表字“张”和其上下文信息的综合向量表示,c2代表字“三”和其上下文信息的综合向量表示,c3代表字“吃”和其上下文信息的综合向量表示,c4代表字“饭”和其上下文信息的综合向量表示。
在本实施中,双向LSTM的隐藏神经元数量可以设为160个,分词标签总共有8个,字向量可以设为300维,将待识别语句分段输入到神经网络中,每段长度固定可以为80个字,根据这些参数设置BiLSTM网络模型。
在本实施例中,分词标签包括8种:“EY”,“OT”,“BN”,“IN”,“BL”,“IL”,“BO”,“IO”,分别设置相应的索引,索引分别是0,1,2,3,4,5,6,7。“EY”代表无意义的标签,“OT”代表这个词不属于命名实体,它属于其他类别,“BN”代表这个词作为人名类命名实体的起始词,“IN”代表这个词作为人名类命名实体的部分词,“BL”代表这个词作为地名类命名实体的起始词,“IL”代表这个词作为地名类命名实体的部分词,“BO”代表这个词作为组织机构类命名实体的起始词,“IO”代表这个词作为组织机构类命名实体的部分词。
请参阅图9,所述基于BiLSTM网络模型及CRF模型的分词装置还可以包括:
第一构建模块705,用于基于原始中文文本构建字典,其中,所述字典包括中文字符及其与中文字符对应的索引;
第二构建模块706,用于构建所述字向量表,所述字向量表包括所述字典中的索引及与所述索引对应字符的字向量;所述字典中字符的索引与所述字向量表的索引一一对应。
在拥有大量已标记的字的文本后,从标记文本中整理并统计出字典,即带索引的字表,其中每个字都有唯一的一个序号对应,每个字在这个字表中只出现一次。请再次参阅图4,图4中每一个中文字符对应一个索引,索引为连续排序的数字。在字典中频次为1的字以及将来测试语料中的生字,即字典中不存在的字,都以一个符号“<UNK>”表示,它们的共同索引为字典中频数大于1的字的总数加1。
在本实施例中,字向量表由网络上几十GB的文本大数据结合神经网络语言模型训练而来,每个字的向量表示都是非常准确的,含有极为丰富的内在信息。字向量表中字的索引和字典中同一字的索引一致。例如,图4中字典局部示例“的”字的索引为2,则字向量表中字“的”字的索引也为2。
处理模块702,用于通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引。
可以理解的是,各类神经网络模型的输入必须是字向量,而不能是未经处理的字符输入,必须将字符替换成对应的向量,再输入到神经网络模型中进行推理。在本实施例中,处理模块702通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引。具体来说,通过所述设置后的BiLSTM获取待识别语句的字向量,将得到的字向量输入所述设置后的CRF模型,可以确保能够得到所述待识别语句的分词标签。在本实施例中,所述设置后的CRF模型先获得分词标签索引,然后从分词标签索引表中查找与分词标签索引对应的分词标签。
需要说明的是,分词时,字的标签有5种:“U”,“S”,“B”,“M”,“E”,它们的索引分别是0,1,2,3,4。“U”代表无意义的标签,“S”代表这个字独自成词,“B”代表这个字在这个词中作为开头的字,“M”代表这个字在这个词中作为中间位置的字,“E”代表这个字在这个词中作为结尾处的字。分词的训练数据中都是字的索引,从原始文本中取每一行的前80个字,不足80个字的用0补齐。80个字索引后面跟着80个字标签索引。这些数字统一由空格隔开,每一行训练数据是160个数字。请参阅图5,图5为训练数据的示例。
此外,训练数据还可以转换为可读类型的训练数据,可读类型的数据是每个字后面跟着它对应的标签,字与字之间以空格隔开,便于用户阅读。
优化模块703,用于根据所述生成的字标签索引与所述训练数据的字标签索引的对比结果,调整所述分词模型的权重参数,得到优化后的分词模型。
在本实施例中,由于充分整合了上下文信息,从而分词准确度较高,能达到比较好的分词效果。
在本实施例中,通过所述分词模型接收训练数据,训练迭代N次,设置学习率设为M,每L次在验证集上做一次实验,计算准确率,当计算得到的准确率达到预设要求时,终止训练,得到训练后的命名实体识别模型,其中,N为正整数,其中,N为正整数,N在100万到1000万之间,M一般取值在0.001到0.00001之间,L根据验证集大小而定,可以取L为N的二十分之一或者十分之一。
举例来说,通过所述分词模型接收训练数据,训练迭代100万次,学习率设为0.001,每5万次在验证集上做一次实验,计算准确率。模型效果超过10次未有提升,则终止训练。
分词处理模块704,用于通过所述优化后的分词模型对待识别中文文本进行分词处理。
可选的,请参阅图10,所述分词处理模块704包括:
第一转换子模块7041,用于根据所述字典将所述中文文本转换成索引文本;
第二转换子模块7042,用于根据所述字向量表,将所述索引文本转换为字向量文本,并将所述字向量文本输入所述优化后的分词模型,通过所述优化后的分词模型得到每个索引对应的分词标签索引;
查找子模块7043,用于从预先获取的词标签列表中查找所述分词标签索引对应的分词标签,其中,所述词标签列表包括分词标签索引及与所述分词标签索引对应的分词标签;
确定子模块7044,用于根据所述分词标签得到词边界,根据所述词边界确定所述中文文本的分词结果。此外,通过增加训练数据,同时采用特征表示更为准确的词向量、字向量可以进一步提高分词的准确度。
可选的,请参阅图11,所述基于BiLSTM网络模型及CRF模型的分词装置还可以包括:
更新模块707,用于根据所述分词结果与所述字典中包含的字符确定目标字符,所述目标字符为出现在所述分词结果中、且未出现在所述字典中的字符;将所述目标字符及对应的索引更新到所述字典中;根据所述分词结果与预先获取的词典中包含的词语确定目标词语,所述目标词语为出现在所述分词结果中、且未出现在所述词典中的词语;将所述目标词语及对应的索引更新到所述词典中。
请再次参阅图7,词典可以从互联网下载,也可以根据语料库进行构建。词典中频次为1以下的字以及将来测试语料中的生词(在构建词典中不存在的词)都以一个符号“<UNK>”表示,它们的共同索引为词典中频数大于1的词的总数加1。词典中的词的索引和词向量表中的词的索引保持一致。
在本实施例中,词向量表由网络上几十GB的文本大数据结合神经网络语言模型训练而来,每个词的向量表示都是非常准确的,含有极为丰富的内在信息。词向量表中字的索引和词典中同一词的索引一致。例如,图7中字典局部示例“医院”词的索引为187,则词向量表中词“医院”字的索引也为187。
这样,可以及时对字典、词典进行更新,便于字典、词典的完善。
本发明提供的一种基于BiLSTM网络模型及CRF模型的分词装置,通过所述设置后的BiLSTM获取待识别语句的字向量,每个字向量综合了上下文信息的向量表示,提高字向量的准确度,从而在将所述待识别语句的字向量输入所述设置后的CRF模型,得到所述待识别语句的分词标签更加准确;基于准确度较高的分词标签能够得到准确度更高的分词结果;进而根据交准确的分词能更加准确地调整分词模型的权重参数,得到较好的优化后的分词模型;通过所述优化后的分词模型对待识别中文文本进行分词处理,能够得到更加准确的分词结果,减少人力成本,提高分词准确率。
本发明实施例提供一种计算机装置,该计算机装置包括处理器,处理器用于执行存储器中计算机程序时实现上述各个方法实施例提供的一种基于BiLSTM网络模型及CRF模型的分词方法的步骤。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。例如,计算机程序可以被分割成上述各个方法实施例提供的一种基于BiLSTM网络模型及CRF模型的分词方法的步骤。
本领域技术人员可以理解,上述计算机装置的描述仅仅是示例,并不构成对计算机装置的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机存储介质中,该计算机程序在被处理器执行时,可实现上述各个一种基于BiLSTM网络模型及CRF模型的分词方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信号以及软件分发介质等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.基于BiLSTM网络模型及CRF模型的分词方法,其特征在于,包括:
设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度,设置CRF模型的分词标签,基于所述设置后的BiLSTM网络模型及CRF模型构建分词模型;
通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引;
根据所述生成的字标签索引与所述训练数据的字标签索引的对比结果,调整所述分词模型的权重参数,得到优化后的分词模型;
通过所述优化后的分词模型对待识别中文文本进行分词处理,具体包括:
根据字典将所述中文文本转换成索引文本;
根据字向量表将所述索引文本转换为字向量文本,并将所述字向量文本输入所述优化后的分词模型,通过所述优化后的分词模型得到每个索引对应的分词标签索引;
从预先获取的词标签列表中查找所述分词标签索引对应的分词标签,其中,所述词标签列表包括分词标签索引及与所述分词标签索引对应的分词标签;
根据所述分词标签得到词边界,根据所述词边界确定所述中文文本的分词结果。
2.根据权利要求1所述的基于BiLSTM网络模型及CRF模型的分词方法,其特征在于,所述设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度之前,所述基于BiLSTM网络模型及CRF模型的分词方法还包括以下过程:
基于原始中文文本构建字典,其中,所述字典包括中文字符及其与中文字符对应的索引;
构建所述字向量表,所述字向量表包括所述字典中的索引及与所述索引对应字符的字向量;所述字典中字符的索引与所述字向量表的索引一一对应。
3.根据权利要求1所述的基于BiLSTM网络模型及CRF模型的分词方法,其特征在于,所述根据所述分词标签确定所述中文文本的分词结果之后,所述基于BiLSTM网络模型及CRF模型的分词方法还包括以下步骤:
根据所述分词结果与所述字典中包含的字符确定目标字符,所述目标字符为出现在所述分词结果中、且未出现在所述字典中的字符;将所述目标字符及对应的索引更新到所述字典中;
根据所述分词结果与预先获取的词典中包含的词语确定目标词语,所述目标词语为出现在所述分词结果中、且未出现在所述词典中的词语;将所述目标词语及对应的索引更新到所述词典中。
4.基于BiLSTM网络模型及CRF模型的分词装置,其特征在于,所述基于BiLSTM网络模型及CRF模型的分词装置包括:
设置模块,用于设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度,设置CRF模型的分词标签,基于所述设置后的BiLSTM网络模型及CRF模型构建分词模型;
处理模块,用于通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引;
优化模块,用于根据所述生成的字标签索引与所述训练数据的字标签索引的对比结果,调整所述分词模型的权重参数,得到优化后的分词模型;
分词处理模块,用于通过所述优化后的分词模型对待识别中文文本进行分词处理,具体包括:
第一转换子模块,用于根据字典将所述中文文本转换成索引文本;
第二转换子模块,用于根据字向量表将所述索引文本转换为字向量文本,并将所述字向量文本输入所述优化后的分词模型,通过所述优化后的分词模型得到每个索引对应的分词标签索引;
查找子模块,用于从预先获取的词标签列表中查找所述分词标签索引对应的分词标签,其中,所述词标签列表包括分词标签索引及与所述分词标签索引对应的分词标签;
确定子模块,用于根据所述分词标签得到词边界,根据所述词边界确定所述中文文本的分词结果。
5.根据权利要求4所述的基于BiLSTM网络模型及CRF模型的分词装置,其特征在于,所述基于BiLSTM网络模型及CRF模型的分词装置还包括:
第一构建模块,用于基于原始中文文本构建字典,其中,所述字典包括中文字符及其与中文字符对应的索引;
第二构建模块,用于构建所述字向量表,所述字向量表包括所述字典中的索引及与所述索引对应字符的字向量;所述字典中字符的索引与所述字向量表的索引一一对应。
6.根据权利要求4所述的基于BiLSTM网络模型及CRF模型的分词装置,其特征在于,所述基于BiLSTM网络模型及CRF模型的分词装置还包括:
更新模块,用于根据所述分词结果与所述字典中包含的字符确定目标字符,所述目标字符为出现在所述分词结果中、且未出现在所述字典中的字符;将所述目标字符及对应的索引更新到所述字典中;
根据所述分词结果与预先获取的词典中包含的词语确定目标词语,所述目标词语为出现在所述分词结果中、且未出现在所述词典中的词语;将所述目标词语及对应的索引更新到所述词典中。
7.一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中计算机程序时实现如权利要求1-3中任意一项所述基于BiLSTM网络模型及CRF模型的分词方法的步骤。
8.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-3中任意一项所述基于BiLSTM网络模型及CRF模型的分词方法的步骤。
CN202010899318.3A 2020-08-31 2020-08-31 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质 Active CN112036183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010899318.3A CN112036183B (zh) 2020-08-31 2020-08-31 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010899318.3A CN112036183B (zh) 2020-08-31 2020-08-31 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质

Publications (2)

Publication Number Publication Date
CN112036183A CN112036183A (zh) 2020-12-04
CN112036183B true CN112036183B (zh) 2024-02-02

Family

ID=73586997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010899318.3A Active CN112036183B (zh) 2020-08-31 2020-08-31 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112036183B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115700584A (zh) * 2021-07-23 2023-02-07 华为云计算技术有限公司 一种分词方法及其相关设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086267A (zh) * 2018-07-11 2018-12-25 南京邮电大学 一种基于深度学习的中文分词方法
CN109635280A (zh) * 2018-11-22 2019-04-16 园宝科技(武汉)有限公司 一种基于标注的事件抽取方法
CN109800298A (zh) * 2019-01-29 2019-05-24 苏州大学 一种基于神经网络的中文分词模型的训练方法
CN109800304A (zh) * 2018-12-29 2019-05-24 北京奇安信科技有限公司 案件笔录的处理方法、装置、设备及介质
CN109960728A (zh) * 2019-03-11 2019-07-02 北京市科学技术情报研究所(北京市科学技术信息中心) 一种开放域会议信息命名实体识别方法及系统
CN110263325A (zh) * 2019-05-17 2019-09-20 交通银行股份有限公司太平洋信用卡中心 中文分词系统
CN110276052A (zh) * 2019-06-10 2019-09-24 北京科技大学 一种古汉语自动分词及词性标注一体化方法及装置
CN110598203A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110688855A (zh) * 2019-09-29 2020-01-14 山东师范大学 基于机器学习的中文医疗实体识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10831803B2 (en) * 2018-07-26 2020-11-10 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for true product word recognition

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086267A (zh) * 2018-07-11 2018-12-25 南京邮电大学 一种基于深度学习的中文分词方法
CN109635280A (zh) * 2018-11-22 2019-04-16 园宝科技(武汉)有限公司 一种基于标注的事件抽取方法
CN109800304A (zh) * 2018-12-29 2019-05-24 北京奇安信科技有限公司 案件笔录的处理方法、装置、设备及介质
CN109800298A (zh) * 2019-01-29 2019-05-24 苏州大学 一种基于神经网络的中文分词模型的训练方法
CN109960728A (zh) * 2019-03-11 2019-07-02 北京市科学技术情报研究所(北京市科学技术信息中心) 一种开放域会议信息命名实体识别方法及系统
CN110263325A (zh) * 2019-05-17 2019-09-20 交通银行股份有限公司太平洋信用卡中心 中文分词系统
CN110276052A (zh) * 2019-06-10 2019-09-24 北京科技大学 一种古汉语自动分词及词性标注一体化方法及装置
CN110598203A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110688855A (zh) * 2019-09-29 2020-01-14 山东师范大学 基于机器学习的中文医疗实体识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于双向LSTM 神经网络模型的中文分词;金宸 等;《中文信息学报》;第32卷(第2期);29-37 *
融合attention 机制的BI-LSTM-CRF 中文分词模型;黄丹丹 等;《软件》;第39卷(第10期);260-266 *

Also Published As

Publication number Publication date
CN112036183A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
Kang et al. Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition
CN110909725A (zh) 识别文本的方法、装置、设备及存储介质
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
CN112036184A (zh) 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
CN111460149B (zh) 文本分类方法、相关设备及可读存储介质
CN116523031B (zh) 语言生成模型的训练方法、语言生成方法及电子设备
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113282729A (zh) 基于知识图谱的问答方法及装置
CN112507095A (zh) 基于弱监督学习的信息识别方法及相关设备
CN114580424A (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN112036183B (zh) 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN113590811A (zh) 文本摘要生成方法、装置、电子设备及存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN112487813A (zh) 命名实体识别方法及系统、电子设备及存储介质
CN111859933A (zh) 马来语识别模型的训练方法、识别方法、装置、设备
CN115840808A (zh) 科技项目咨询方法、装置、服务器及计算机可读存储介质
CN116306679A (zh) 一种基于语义可配置的多模态智能客服对话的方法和系统
CN111767710B (zh) 印尼语的情感分类方法、装置、设备及介质
CN114691716A (zh) Sql语句转换方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant