CN109359293A - 基于神经网络的蒙古文命名实体识别方法及其识别系统 - Google Patents
基于神经网络的蒙古文命名实体识别方法及其识别系统 Download PDFInfo
- Publication number
- CN109359293A CN109359293A CN201811068703.2A CN201811068703A CN109359293A CN 109359293 A CN109359293 A CN 109359293A CN 201811068703 A CN201811068703 A CN 201811068703A CN 109359293 A CN109359293 A CN 109359293A
- Authority
- CN
- China
- Prior art keywords
- vector
- language model
- text
- mark
- blstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于神经网络的蒙古文命名实体识别方法及其识别系统,属于自然语言处理技术领域,识别系统包括:Glove工具,双向语言模型组件获取模块,语言模型向量获取模块,BLSTM向量获取模块,注意力机制层,CRF层,最终模型的获取模块。本发明采用前向和后向层叠神经语言模型BLSTM从大量无标注语料中学习上下文信息,并用注意力机制把学习的上下文信息引入基于BLSTM和CRF的神经网络,提高蒙古文命名实体识别效率,解决了现有技术中存在的问题。
Description
技术领域
本发明属于自然语言处理技术领域,涉及一种基于神经网络的蒙古文命名实体识别方法及其识别系统。
背景技术
传统蒙古文是我国内蒙古自治区的主体文字。然而,其在自然语言处理上的研究才刚刚起步,相对于中文和英文等大语种来说,发展相对滞后。
命名实体识别是文本中基本的信息单元,主要包括人名、地名、组织机构名等。命名实体识别是机器翻译、问答系统、句法分析、信息抽取、知识图谱等自然语言处理任务的重要基础性工作。
在传统蒙古文命名实体识别领域,现有的方法可以分为两类,一类是基于词典和规则的命名实体识别方法,将尽可能多的不同类别的实体词汇收录进词典中,识别时将文本信息与词典中的词语进行匹配,匹配上的就标记为对应的实体类别;或者根据实体词汇的组成规则,例如地名或组织结构名通常包含特定的结尾词,将满足相应规则的词组直接进行标注。另一种是基于统计学习的方法,相关方法有最大熵模型、隐马尔科夫模型、条件随机场,其中条件随机场近年来被广泛运用于蒙古文命名实体识别领域。
近年来,人们对中文和英文等大语种广泛展开了基于神经网络的命名实体识别研究,无需大量人工特征,只需要足够的标注语料。中文和英文上使用的模型主要是基于双向长短期记忆网络(BLSTM)和条件随机场(CRF)相结合的架构,但在传统蒙古文这样的小语种上还缺乏相关研究。
因为传统蒙古文词法特征以及元音词中词尾变形显现等问题,语料中会出现同型但不同音的问题;甚至有时候因为录入人员方言原因导致同一个单词在语料中的编码序列不一致等问题,上述这些问题使传统蒙古文具有丰富的词形态。基于词典和规则的命名实体识别方法依赖于词典和规则的构造,在处理传统蒙古文文本方面有很大的局限性;基于统计模型的方法依赖于人工特征模板的选取,对于特征模板的选取需要大量人工经验和专业知识,这需要花费大量人力和时间,而且在向新的文本领域进行扩展时,通常不具有适用的迁移性,需要重新构造人工特征模板,这些问题使得基于统计模型的方法已经不能很好的满足人们的要求。
近年来,人们对中文和英文等大语种广泛展开了基于神经网络的命名实体识别研究,无需大量人工特征,只需要足够的标注语料。对于基于BLSTM和CRF相结合的神经网络命名实体识别方法,在中文和英文等大语种上展开了广泛的研究,但在传统蒙古文这样的小语种上还缺乏相关研究。在尝试直接移植到传统蒙古文上时,因为可以使用的标注语料,无论在数量和质量上都不如中文和英文。而基于BLSTM和CRF的神经网络方法用于命名实体识别的信息来源主要是标注语料,这使得仅仅把技术移植到传统蒙古文上时存在性能不佳的情况。
发明内容
为了解决上述问题,本发明提供一种基于神经网络的蒙古文命名实体识别方法,采用前向和后向层叠神经语言模型BLSTM从大量无标注语料中学习上下文信息,并用注意力机制把学习的上下文信息引入基于BLSTM和CRF的神经网络,提高蒙古文命名实体识别效率,解决了现有技术中存在的问题。
本发明的另一目的是,提供一种基于神经网络的蒙古文命名实体识别识别系统。
本发明所采用的技术方案是,一种基于神经网络的蒙古文命名实体识别方法,具体按照以下步骤进行,
步骤1,从蒙古文新闻网站获取大量无标注文本语料并进行预处理;从无标注文本语料中选取一部分,以人工方式进行命名实体标注,获得标注文本;
步骤2,对经过预处理的无标注文本采用Glove工具进行处理得到词向量;
步骤3,以经过预处理的无标注文本为输入,训练得到前向和后向层叠神经语言模型BLSTM,截断顶层的softmax函数,获取前向语言模型组件和后向语言模型组件,从大量无标注语料中学习上下文信息;
步骤4,将标注文本分为训练集、验证集、测试集;以训练集为输入,经过前向和后向语言模型组件的学习,分别获得训练集中每个词对应的前向语言模型向量和后向语言模型向量,将前向语言模型向量和后向语言模型向量经过拼接层组合,得到语言模型向量;
步骤5,以训练集中每个单词的字符信息为输入,经过前向和后向层叠神经语言模型BLSTM进行编码转换,获得字符向量;把训练集中每个单词的词向量和对应的字符向量经过拼接层组合,再次输入BLSTM,通过学习获得对应的BLSTM向量;
步骤6,通过注意力机制层将BLSTM向量和语言模型向量结合,利用CRF层进行解码,通过维特比算法得到训练集的命名实体标注;
步骤7,将步骤6得到的训练集的命名实体标注和人工方式获得的训练集的命名实体标注进行误差计算,通过反向传播算法更新模型参数,每训练一次,使用验证集验证模型识别效果,如此重复,待模型迭代训练结束后,选择识别效果最好的模型,通过测试集测试后,作为最终模型;
步骤8,将最终模型中的标注文本替换为需要标注的文本内容,经过步骤4-6的处理,即完成蒙古文命名实体识别。
本发明的特征在还于,进一步的,所述步骤1中,对无标注文本语料进行预处理,包括对蒙古文文本分句,词干词缀切分和文本格式处理;蒙古文文本分句采用基于正则匹配的方法,对文本中匹配到的蒙古文句号、感叹号的前后未分句做分句处理;词干词缀切分是根据蒙古文的构词规则将蒙古文单词切分成蒙古文词干和蒙古文后缀的形式,对文本进行窄的无中断空格符匹配,在前面加空格进行切分,是一个不显示的字符,是蒙古文词干词缀的边界;文本格式处理是指把无标注语料转写成程序中定义的接收输入形式。
进一步的,所述步骤6中,通过注意力机制层将BLSTM向量和语言模型向量结合,具体为:对语言模型向量和BLSTM向量进行权衡,由权重参数控制,允许模型动态决定二者的信息使用量;使用tanh()和σ()对加权和进行二次映射,最终使权重矩阵Z的每个值都到范围[0,1]:
Z=σ(Wz(3)tanh(Wz(1)H+Wz(2)M))
Y=Z×H+(1-Z)×M
其中,tanh()是双曲正切函数;σ()表示Sigmoid函数;Y代表注意力机制层的输出,H代表语言模型向量,M代表BLSTM向量,其中Z、H和M具有相同的尺寸;Wz(1)、Wz(2)和Wz(3)是权重矩阵Z的权重参数,开始时随机初始化,在迭代过程中自动更新。
进一步的,所述步骤7中,当模型迭代训练达到预先设置的迭代次数,或者连续10次验证集没有出现更好的预测结果时,结束训练。
进一步的,所述步骤1中,从蒙古文新闻网站获取大量无标注文本语料,具体为:对蒙古文新闻网站的新闻页正文进行整合,把获取的蒙科立编码文本进行编码转换,得到国标码utf-8的无标注文本语料。
进一步的,所述步骤6中,利用CRF层进行解码,具体为:利用CRF层考虑上下文标记间的转移概率,以序列化形式进行全局参数优化和解码,然后用维特比算法找出输出标签序列,得到文本的命名实体标注。
进一步的,所述步骤5中,字符向量的获取方法,具体为:向字符级BLSTM输入训练集中每个单词的字符信息,通过前向LSTM学习,输出前向字符向量;通过后向LSTM学习,输出后向字符向量,把前向字符向量和后向字符向量以拼接的方式组合得到单词对应的字符向量。
本发明提供的另一技术方案是,一种基于神经网络的蒙古文命名实体识别系统,包括:
Glove工具,用于输入经过预处理的无标注文本,输出词频表和对应的词向量;
双向语言模型组件获取模块,用于输入经过预处理的无标注文本,训练前向和后向层叠神经语言模型BLSTM,截断顶层的softmax函数,获取前向语言模型组件和后向语言模型组件;
语言模型向量获取模块,用于输入训练集,经过训练好的前向和后向语言模型组件,分别获得训练集中每个词对应的前向语言模型向量和后向语言模型向量,将前向语言模型向量和后向语言模型向量经过拼接层组合,得到语言模型向量;
BLSTM向量获取模块,用于以训练集中每个单词的字符信息为输入,经过前向和后向层叠神经语言模型BLSTM进行编码转换,获得字符向量;把训练集中每个单词的词向量和对应的字符向量经过拼接层组合,再次输入BLSTM,通过学习获得对应的BLSTM向量;
注意力机制层,用于将语言模型向量和BLSTM向量进行权衡,由权重参数控制,允许模型动态决定语言模型向量和BLSTM向量的信息使用量;
CRF层,用于将注意力机制层输出的信息进行解码,通过维特比算法获得文本的命名实体标注。
最终模型的获取模块,将CRF层输出的训练集的命名实体标注和人工方式获得的训练集的命名实体标注进行误差计算,通过反向传播算法更新模型参数;每训练一次,使用验证集验证模型识别效果,如此重复,待模型迭代训练结束后,选择识别效果最好的模型,通过测试集测试后,得到最终模型;其中,训练集、验证集、测试集均为经过人工命名实体标注的标注文本。
进一步的,所述前向和后向层叠神经语言模型BLSTM,用于把单词向量化表示,得到语言模型嵌入向量,然后用softmax函数计算下一个词出现的概率;前向LSTM神经语言模型是前一个单词预测后一个单词,后向LSTM神经语言模型是后一个单词预测前一个单词。
进一步的,基于神经网络的蒙古文命名实体识别系统,采用Tensorflow框架,使用python语言进行开发。
本发明的有益效果是,本发明基于传统蒙古文国标码,语料是蒙古文网站的新闻,使用神经网络模型自动提取分类特征,不需要大量人工经验和专业知识,使本发明具有很强的适用性,能够很方便的泛化到新闻之外的领域。
本发明采用前向和后向两个层叠神经语言模型BLSTM从大量无标注语料中学习上下文信息,利用大量无标注语料获得词嵌入,并用注意力机制把学习的上下文信息引入基于BLSTM和CRF的神经网络,优化拼接方式,以半监督的方式扩展。采用本发明的命名实体识别方法对蒙古文新闻文本中综合类命名实体的识别准确率达到85.32%、精确率达到85.90%、F1达到85.61%;其中人名类命名实体的F1达到86.30%、地名类命名实体的F1达到87.93%、机构名类命名实体的F1达到81.97%。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明中无标注文本语料训练语言模型的架构图。
图2是本发明中标注文本语料训练语言模型的架构图。
图3是图2中词的相关表示的架构图。
图4是注意力机制层的内部结构图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前为基于BLSTM和CRF的神经网络方法引入的外部信息来源是使用大量无标注语料获得的词嵌入。考虑到在文本中,判断一个词是否属于命名实体,它的上下文信息也是有价值的。本发明从使用的数据来源角度,分为无标注文本语料和标注文本语料,采用前向和后向两个层叠LSTM神经语言模型从大量无标注语料中学习上下文信息,并用注意力机制把学习的上下文信息引入基于BLSTM和CRF的神经网络。
本发明的基于神经网络的蒙古文命名实体识别方法,具体按照以下步骤进行,
步骤1,从蒙古文新闻网站获取大量无标注文本语料并进行预处理;从无标注文本语料中选取一部分,使用已有的命名实体识别工具进行标注,然后以人工校对的方式进行命名实体标注,即以人工方式进行命名实体标注,获得标注文本;
步骤2,对经过预处理的无标注文本采用Glove工具进行处理得到词向量;
步骤3,以经过预处理的无标注文本为输入,训练得到前向和后向两个层叠神经语言模型BLSTM,截断顶层的softmax函数(softmax层),获取前向语言模型组件和后向语言模型组件,见图1,从大量无标注语料中学习上下文信息;
步骤4,将标注文本分为训练集、验证集、测试集;以训练集为输入,经过训练好的前向语言模型组件学习,获得训练集中每个词对应的前向语言模型向量;同样方式,以训练集作为输入,经过训练好的后向语言模型组件学习,获得训练集中每个词对应的后向语言模型向量;将前向语言模型向量和后向语言模型向量经过拼接层组合,得到语言模型向量;
步骤5,以训练集中每个单词的字符信息为输入,经过前向和后向两个层叠神经语言模型BLSTM进行编码转换,获得字符向量;然后把训练集中每个单词在预训练好的词向量中查找替换,把单词的词向量和对应的字符向量经过拼接层组合,输入BLSTM,通过学习获得对应的BLSTM向量;其中,预训练好的词向量为采用Glove工具进行处理得到的词向量;
步骤6,通过注意力机制层将BLSTM向量和语言模型向量结合,利用CRF层进行解码,通过维特比算法计算最有可能的训练集的命名实体标注,见图2;
步骤7,将步骤6得到的训练集的命名实体标注和人工方式获得的训练集的命名实体标注进行误差计算,通过反向传播算法更新模型参数,每训练一次,使用验证集验证一次模型预测效果;当模型迭代训练达到预先设置的迭代次数,或者连续10次验证集没有出现更好的预测结果时,结束训练;选择识别效果最好的模型,通过测试集测试后,作为最终模型;
步骤8,将最终模型中的标注文本替换为需要标注的文本内容,经过步骤4-6的处理,即完成蒙古文命名实体识别。因为最终模型的语言模型向量和BLSTM向量中包含了用于命名实体预测的信息,经过步骤4-6的处理,就能获得命名实体标注结果,也就是我们最终模型的输出。
对无标注文本语料进行预处理,包括对蒙古文文本分句,词干词缀切分和文本格式处理;蒙古文文本分句采用基于正则匹配的方法,对文本中匹配到的蒙古文句号、感叹号的前后未分句做分句处理;词干词缀切分是根据蒙古文的构词规则将蒙古文单词切分成蒙古文词干和蒙古文后缀的形式,对文本进行窄的无中断空格符(U+202F)匹配,在前面加空格进行切分,是一个不显示的字符,是蒙古文词干词缀的边界;文本格式处理是指把未标注语料转写成程序中定义的接收输入形式,具体为,将原来的一句一行改为一句多行,一行有空格隔开的一个单词和一个标注结果,一句转写完后加一个换行用于区分句与句。
预训练词嵌入:词嵌入将词转化成一个分布式表示,也就是一个定长的连续的稠密向量;词嵌入在基于深度学习的方法中被广泛使用,生成一个和词嵌入下标相对应的词表,通过查找词表,按对应下标替换成词嵌入来把文本语料向量化表示;在图1中两个语言模型组件和图2的词相关表示中词嵌入均使用预训练词嵌入。
语言模型组件:语言模型组件和softmax层组合在一起就是语言模型;语言模型,就是在给定一个单词序列之后,预测下一个词产生的概率;但我们要使用的是softmax层之前的语言模型嵌入,因为它包含单词的上下文语法和句法角色信息;把语言模型截断获得语言模型组件,分为前向和后向两个独立的语言模型组件,分别由两个层叠的LSTM构成。
LSTM:长短期记忆网络,是一种时间递归神经网络,在基于深度学习的自然语言处理领域被广泛应用。
前向和后向层叠神经语言模型BLSTM:双向长短期记忆网络,是一个前向LSTM神经语言模型和后向LSTM神经语言模型的组合。
字符级BLSTM:字符级BLSTM就是BLSTM,因为其将接受文本中每个单词的字符信息进行编码转换成字符向量,为了区别于后面的BLSTM,方便模型解释,我们把此处的命名为字符级BLSTM。
拼接层:把接收的两个输入以拼接的方式进行组合,然后输出。
注意力机制层:如图4,是对接收的两个输入进行权衡的机制,由权重参数控制,允许模型动态决定二者的信息使用量。使用tanh()和σ()对加权和进行二次映射,最终使权重矩阵Z的每个值都到范围[0,1]:
Z=σ(Wz(3)tanh(Wz(1)H+Wz(2)M))
Y=Z×H+(1-Z)×M
其中,tanh()是双曲正切函数,用于把接受的数值映射到[-1,1]之间;σ()表示Sigmoid函数,用于把接受的数值映射到[0,1]之间;Z是计算出来的权重矩阵,用于控制H(语言模型向量)和M(BLSTM向量)的使用比例,Y是注意力机制层的输出,其中Z、H和M具有相同的尺寸;Wz(1)、Wz(2)和Wz(3)是权重矩阵Z的权重参数,开始时随机初始化,在迭代过程中自动更新。
CRF层:CRF是条件随机场,一种典型的判别式模型。考虑上下文标记间的转移概率,以序列化形式进行全局参数优化和解码,然后用维特比算法找出输出标签序列,得到文本标注的命名实体。
本发明基于神经网络的蒙古文命名实体识别系统,采用Tensorflow框架,使用python语言进行开发,包括:
Glove工具,是词向量计算工具,输入经过预处理的无标注文本,输出词频表和对应的词向量;
双向语言模型组件获取模块,输入经过预处理的无标注文本,训练前向和后向层叠神经语言模型BLSTM,截断顶层的softmax函数,获取前向语言模型组件和后向语言模型组件,从大量无标注语料中学习上下文信息;前向和后向层叠神经语言模型BLSTM,用于把单词向量化表示,得到语言模型嵌入向量,然后用softmax函数计算下一个词出现的概率;前向LSTM神经语言模型是前一个单词预测后一个单词,后向LSTM神经语言模型是后一个单词预测前一个单词。
语言模型向量获取模块,输入训练集,经过训练好的前向和后向层叠神经语言模型BLSTM,分别获得训练集中每个词对应的前向语言模型向量和后向语言模型向量,将前向语言模型向量和后向语言模型向量经过拼接层组合,得到语言模型向量;
BLSTM向量获取模块,如图3所示,以训练集中每个单词的字符信息为输入,经过前向和后向层叠神经语言模型BLSTM进行编码转换,获得字符向量,具体为:向BLSTM输入训练集中每个单词的字符信息,通过前向LSTM学习,输出前向字符向量,用“F”表示;通过后向LSTM学习,输出后向字符向量,用“B”表示,把“F”和“B”以拼接的方式组合得到单词对应的字符向量;然后把训练集中每个单词的词向量和对应的字符向量经过拼接层组合,再次输入BLSTM,通过学习获得对应的BLSTM向量;
注意力机制层,用于将语言模型向量和BLSTM向量进行权衡,由权重参数控制,允许模型动态决定语言模型向量和BLSTM向量的信息使用量;
CRF层,用于将注意力机制层输出的信息进行解码,通过维特比算法获得文本的命名实体标注。
最终模型的获取模块,将CRF层输出的训练集的命名实体标注和人工方式获得的训练集的命名实体标注进行误差计算,通过反向传播算法更新模型参数;每训练一次,使用验证集验证一次模型预测效果;当模型迭代训练达到预先设置的迭代次数,或者连续10次验证集没有出现更好的预测结果时,结束训练;选择识别效果最好的模型,通过测试集测试后,得到最终模型;其中,训练集、验证集、测试集均为经过人工命名实体标注的标注文本。
本发明识别效果验证:
我们用756853句无标注文本语料和31000句标注文本语料做了实验,标注文本语料通过已有工具进行识别后人工校正。选择无标注文本语料训练语言模型;把标注文本语料按80%、10%和10%分成训练集、验证集和测试集,训练集用于训练模型中的参数,在完成一次训练后,使用验证集来验证模型的效果;在模型迭代过程中,选择效果最好的模型作为最终模型,再使用测试集测试最终模型的效果;语料的详细信息如表1。
表1数据集的统计和分布
采用本发明基于神经网络的蒙古文命名实体识别方法,将最终模型中的标注文本替换为需要标注的文本,识别出文本中的命名实体,使用conll的F1评价指标,分别对命名实体中的人名、地名、组织机构名和综合类,分别计算准确率、召回率和F1值;结果如表2所示:
表2识别结果
命名实体标记 | 精确率 | 召回率 | F1值 |
人名 | 87.96% | 84.70% | 86.30 |
地名 | 87.36% | 88.52% | 87.93 |
组织机构名 | 80.99% | 82.97% | 81.97 |
综合 | 85.32% | 85.90% | 85.61 |
从表中2可以看出综合类的F1值达到了85.61,因为蒙古语形态复杂,数据来源又是互联网新闻语料,规范性不是太强,而深度学习方法对数据质量需求比较高,这是影响效果的主要原因。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种基于神经网络的蒙古文命名实体识别方法,其特征在于,具体按照以下步骤进行,
步骤1,获取无标注文本语料并进行预处理;从无标注文本语料中选取一部分,以人工方式进行命名实体标注,获得标注文本;
步骤2,对经过预处理的无标注文本采用Glove工具进行处理得到词向量;
步骤3,以经过预处理的无标注文本为输入,训练得到前向和后向层叠神经语言模型BLSTM,截断顶层的softmax函数,获取前向语言模型组件和后向语言模型组件,从大量无标注语料中学习上下文信息;
步骤4,将标注文本分为训练集、验证集、测试集;以训练集为输入,经过前向和后向语言模型组件的学习,分别获得训练集中每个词对应的前向语言模型向量和后向语言模型向量,将前向语言模型向量和后向语言模型向量经过拼接层组合,得到语言模型向量;
步骤5,以训练集中每个单词的字符信息为输入,经过前向和后向层叠神经语言模型BLSTM进行编码转换,获得字符向量;把训练集中每个单词的词向量和对应的字符向量经过拼接层组合,再次输入BLSTM,通过学习获得对应的BLSTM向量;
步骤6,通过注意力机制层将BLSTM向量和语言模型向量结合,利用CRF层进行解码,通过维特比算法得到训练集的命名实体标注;
步骤7,将步骤6得到的训练集的命名实体标注和人工方式获得的训练集的命名实体标注进行误差计算,通过反向传播算法更新模型参数,每训练一次,使用验证集验证模型识别效果,如此重复,待模型迭代训练结束后,选择识别效果最好的模型,通过测试集测试后,作为最终模型;
步骤8,将最终模型中的标注文本替换为需要标注的文本内容,经过步骤4-6的处理,即完成蒙古文命名实体识别。
2.根据权利要求1所述的一种基于神经网络的蒙古文命名实体识别方法,其特征在于,所述步骤1中,对无标注文本语料进行预处理,包括对蒙古文文本分句,词干词缀切分和文本格式处理;蒙古文文本分句采用基于正则匹配的方法,对文本中匹配到的蒙古文句号、感叹号的前后未分句做分句处理;词干词缀切分是根据蒙古文的构词规则将蒙古文单词切分成蒙古文词干和蒙古文后缀的形式,对文本进行窄的无中断空格符匹配,在前面加空格进行切分,是一个不显示的字符,是蒙古文词干词缀的边界;文本格式处理是指把无标注语料转写成程序中定义的接收输入形式。
3.根据权利要求1所述的一种基于神经网络的蒙古文命名实体识别方法,其特征在于,所述步骤6中,通过注意力机制层将BLSTM向量和语言模型向量结合,具体为:对语言模型向量和BLSTM向量进行权衡,由权重参数控制,允许模型动态决定二者的信息使用量;使用tanh()和σ()对加权和进行二次映射,最终使权重矩阵Z的每个值都到范围[0,1]:
Z=σ(Wz(3)tanh(Wz(1)H+Wz(2)M))
Y=Z×H+(1-Z)×M
其中,tanh()是双曲正切函数;σ()表示Sigmoid函数;Y代表注意力机制层的输出,H代表语言模型向量,M代表BLSTM向量,其中Z、H和M具有相同的尺寸;Wz(1)、Wz(2)和Wz(3)是权重矩阵Z的权重参数,开始时随机初始化,在迭代过程中自动更新。
4.根据权利要求1所述的一种基于神经网络的蒙古文命名实体识别方法,其特征在于,所述步骤7中,当模型迭代训练达到预先设置的迭代次数,或者连续10次验证集没有出现更好的预测结果时,结束训练。
5.根据权利要求1所述的一种基于神经网络的蒙古文命名实体识别方法,其特征在于,所述步骤1中,从蒙古文新闻网站获取大量无标注文本语料,具体为:对蒙古文新闻网站的新闻页正文进行整合,把获取的蒙科立编码文本进行编码转换,得到国标码utf-8的无标注文本语料。
6.根据权利要求1所述的一种基于神经网络的蒙古文命名实体识别方法,其特征在于,所述步骤6中,利用CRF层进行解码,具体为:利用CRF层考虑上下文标记间的转移概率,以序列化形式进行全局参数优化和解码,然后用维特比算法找出输出标签序列,得到文本的命名实体标注。
7.根据权利要求1所述的一种基于神经网络的蒙古文命名实体识别方法,其特征在于,所述步骤5中,字符向量的获取方法,具体为:向字符级BLSTM输入训练集中每个单词的字符信息,通过前向LSTM学习,输出前向字符向量;通过后向LSTM学习,输出后向字符向量,把前向字符向量和后向字符向量以拼接的方式组合得到单词对应的字符向量。
8.一种基于神经网络的蒙古文命名实体识别系统,其特征在于,包括:
Glove工具,用于输入经过预处理的无标注文本,输出词频表和对应的词向量;
双向语言模型组件获取模块,用于输入经过预处理的无标注文本,训练前向和后向层叠神经语言模型BLSTM,截断顶层的softmax函数,获取前向语言模型组件和后向语言模型组件;
语言模型向量获取模块,用于输入训练集,经过训练好的前向和后向语言模型组件,分别获得训练集中每个词对应的前向语言模型向量和后向语言模型向量,将前向语言模型向量和后向语言模型向量经过拼接层组合,得到语言模型向量;
BLSTM向量获取模块,用于以训练集中每个单词的字符信息为输入,经过前向和后向层叠神经语言模型BLSTM进行编码转换,获得字符向量;把训练集中每个单词的词向量和对应的字符向量经过拼接层组合,再次输入BLSTM,通过学习获得对应的BLSTM向量;
注意力机制层,用于将语言模型向量和BLSTM向量进行权衡,由权重参数控制,允许模型动态决定语言模型向量和BLSTM向量的信息使用量;
CRF层,用于将注意力机制层输出的信息进行解码,通过维特比算法获得文本的命名实体标注;
最终模型的获取模块,将CRF层输出的训练集的命名实体标注和人工方式获得的训练集的命名实体标注进行误差计算,通过反向传播算法更新模型参数;每训练一次,使用验证集验证模型识别效果,如此重复,待模型迭代训练结束后,选择识别效果最好的模型,通过测试集测试后,得到最终模型;其中,训练集、验证集、测试集均为经过人工命名实体标注的标注文本。
9.根据权利要求8所述的一种基于神经网络的蒙古文命名实体识别系统,其特征在于,所述前向和后向层叠神经语言模型BLSTM,用于把单词向量化表示,得到语言模型嵌入向量,然后用softmax函数计算下一个词出现的概率;前向LSTM神经语言模型是前一个单词预测后一个单词,后向LSTM神经语言模型是后一个单词预测前一个单词。
10.根据权利要求8所述的一种基于神经网络的蒙古文命名实体识别系统,其特征在于,采用Tensorflow框架,使用python语言进行开发。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811068703.2A CN109359293B (zh) | 2018-09-13 | 2018-09-13 | 基于神经网络的蒙古文命名实体识别方法及其识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811068703.2A CN109359293B (zh) | 2018-09-13 | 2018-09-13 | 基于神经网络的蒙古文命名实体识别方法及其识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109359293A true CN109359293A (zh) | 2019-02-19 |
CN109359293B CN109359293B (zh) | 2019-09-10 |
Family
ID=65350673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811068703.2A Active CN109359293B (zh) | 2018-09-13 | 2018-09-13 | 基于神经网络的蒙古文命名实体识别方法及其识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109359293B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871541A (zh) * | 2019-03-06 | 2019-06-11 | 电子科技大学 | 一种适用于多语言多领域的命名实体识别方法 |
CN109902303A (zh) * | 2019-03-01 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种实体识别方法及相关设备 |
CN109948615A (zh) * | 2019-03-26 | 2019-06-28 | 中国科学技术大学 | 多语言文本检测识别系统 |
CN110008469A (zh) * | 2019-03-19 | 2019-07-12 | 桂林电子科技大学 | 一种多层次命名实体识别方法 |
CN110110335A (zh) * | 2019-05-09 | 2019-08-09 | 南京大学 | 一种基于层叠模型的命名实体识别方法 |
CN110134954A (zh) * | 2019-05-06 | 2019-08-16 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
CN110147551A (zh) * | 2019-05-14 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 多类别实体识别模型训练、实体识别方法、服务器及终端 |
CN110175330A (zh) * | 2019-05-29 | 2019-08-27 | 广州伟宏智能科技有限公司 | 一种基于注意力机制的命名实体识别方法 |
CN110276069A (zh) * | 2019-05-17 | 2019-09-24 | 中国科学院计算技术研究所 | 一种中国盲文错误自动检测方法、系统及存储介质 |
CN110334213A (zh) * | 2019-07-09 | 2019-10-15 | 昆明理工大学 | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 |
CN111079433A (zh) * | 2019-11-29 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种事件抽取方法、装置及电子设备 |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
CN111222339A (zh) * | 2020-01-13 | 2020-06-02 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
CN111428502A (zh) * | 2020-02-19 | 2020-07-17 | 中科世通亨奇(北京)科技有限公司 | 一种面向军事语料的命名实体标注方法 |
CN111553157A (zh) * | 2020-04-08 | 2020-08-18 | 南通大学 | 一种基于实体替换的对话意图识别方法 |
WO2021017025A1 (zh) * | 2019-07-29 | 2021-02-04 | 东北大学 | 一种从自然语言自动生成Python代码的方法 |
CN112417874A (zh) * | 2020-11-16 | 2021-02-26 | 珠海格力电器股份有限公司 | 命名实体的识别方法和装置、存储介质、电子装置 |
CN112464644A (zh) * | 2020-12-04 | 2021-03-09 | 北京中科凡语科技有限公司 | 自动断句模型建立方法及自动断句方法 |
CN112699683A (zh) * | 2020-12-31 | 2021-04-23 | 大唐融合通信股份有限公司 | 一种融合神经网络和规则的命名实体识别方法及装置 |
WO2021114745A1 (zh) * | 2019-12-13 | 2021-06-17 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN113326700A (zh) * | 2021-02-26 | 2021-08-31 | 西安理工大学 | 一种基于ALBert的复杂重型装备实体抽取方法 |
CN113673219A (zh) * | 2021-08-20 | 2021-11-19 | 合肥中科类脑智能技术有限公司 | 一种停电计划文本解析方法 |
CN114092700A (zh) * | 2021-11-25 | 2022-02-25 | 吉林大学 | 基于目标检测和知识图谱的古文字识别方法 |
CN114582449A (zh) * | 2022-01-17 | 2022-06-03 | 内蒙古大学 | 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统 |
CN116912845A (zh) * | 2023-06-16 | 2023-10-20 | 广东电网有限责任公司佛山供电局 | 一种基于nlp与ai的智能内容识别与分析方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101576924A (zh) * | 2009-06-25 | 2009-11-11 | 内蒙古大学 | 一种蒙古文检索方法 |
US20110137636A1 (en) * | 2009-12-02 | 2011-06-09 | Janya, Inc. | Context aware back-transliteration and translation of names and common phrases using web resources |
CN103810161A (zh) * | 2014-02-21 | 2014-05-21 | 飞龙 | 西里尔蒙古文到传统蒙古文转换方法 |
CN106339367A (zh) * | 2016-08-22 | 2017-01-18 | 内蒙古大学 | 一种蒙古文自动校正方法 |
-
2018
- 2018-09-13 CN CN201811068703.2A patent/CN109359293B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101576924A (zh) * | 2009-06-25 | 2009-11-11 | 内蒙古大学 | 一种蒙古文检索方法 |
US20110137636A1 (en) * | 2009-12-02 | 2011-06-09 | Janya, Inc. | Context aware back-transliteration and translation of names and common phrases using web resources |
CN103810161A (zh) * | 2014-02-21 | 2014-05-21 | 飞龙 | 西里尔蒙古文到传统蒙古文转换方法 |
CN106339367A (zh) * | 2016-08-22 | 2017-01-18 | 内蒙古大学 | 一种蒙古文自动校正方法 |
Non-Patent Citations (1)
Title |
---|
谢志宁: "中文命名实体识别算法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902303A (zh) * | 2019-03-01 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种实体识别方法及相关设备 |
CN109902303B (zh) * | 2019-03-01 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 一种实体识别方法及相关设备 |
CN109871541A (zh) * | 2019-03-06 | 2019-06-11 | 电子科技大学 | 一种适用于多语言多领域的命名实体识别方法 |
CN110008469A (zh) * | 2019-03-19 | 2019-07-12 | 桂林电子科技大学 | 一种多层次命名实体识别方法 |
CN110008469B (zh) * | 2019-03-19 | 2022-06-07 | 桂林电子科技大学 | 一种多层次命名实体识别方法 |
CN109948615A (zh) * | 2019-03-26 | 2019-06-28 | 中国科学技术大学 | 多语言文本检测识别系统 |
CN110134954B (zh) * | 2019-05-06 | 2023-12-22 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
CN110134954A (zh) * | 2019-05-06 | 2019-08-16 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
CN110110335A (zh) * | 2019-05-09 | 2019-08-09 | 南京大学 | 一种基于层叠模型的命名实体识别方法 |
CN110110335B (zh) * | 2019-05-09 | 2023-01-06 | 南京大学 | 一种基于层叠模型的命名实体识别方法 |
CN110147551B (zh) * | 2019-05-14 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 多类别实体识别模型训练、实体识别方法、服务器及终端 |
CN110147551A (zh) * | 2019-05-14 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 多类别实体识别模型训练、实体识别方法、服务器及终端 |
CN110276069B (zh) * | 2019-05-17 | 2021-04-02 | 中国科学院计算技术研究所 | 一种中国盲文错误自动检测方法、系统及存储介质 |
CN110276069A (zh) * | 2019-05-17 | 2019-09-24 | 中国科学院计算技术研究所 | 一种中国盲文错误自动检测方法、系统及存储介质 |
CN110175330B (zh) * | 2019-05-29 | 2023-07-14 | 广州伟宏智能科技有限公司 | 一种基于注意力机制的命名实体识别方法 |
CN110175330A (zh) * | 2019-05-29 | 2019-08-27 | 广州伟宏智能科技有限公司 | 一种基于注意力机制的命名实体识别方法 |
CN110334213A (zh) * | 2019-07-09 | 2019-10-15 | 昆明理工大学 | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 |
CN110334213B (zh) * | 2019-07-09 | 2021-05-11 | 昆明理工大学 | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 |
WO2021017025A1 (zh) * | 2019-07-29 | 2021-02-04 | 东北大学 | 一种从自然语言自动生成Python代码的方法 |
CN111079433A (zh) * | 2019-11-29 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种事件抽取方法、装置及电子设备 |
CN111079433B (zh) * | 2019-11-29 | 2023-10-27 | 北京奇艺世纪科技有限公司 | 一种事件抽取方法、装置及电子设备 |
WO2021114745A1 (zh) * | 2019-12-13 | 2021-06-17 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
CN111222339A (zh) * | 2020-01-13 | 2020-06-02 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
CN111222339B (zh) * | 2020-01-13 | 2023-05-23 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
CN111428502A (zh) * | 2020-02-19 | 2020-07-17 | 中科世通亨奇(北京)科技有限公司 | 一种面向军事语料的命名实体标注方法 |
CN111553157A (zh) * | 2020-04-08 | 2020-08-18 | 南通大学 | 一种基于实体替换的对话意图识别方法 |
CN112417874A (zh) * | 2020-11-16 | 2021-02-26 | 珠海格力电器股份有限公司 | 命名实体的识别方法和装置、存储介质、电子装置 |
CN112464644A (zh) * | 2020-12-04 | 2021-03-09 | 北京中科凡语科技有限公司 | 自动断句模型建立方法及自动断句方法 |
CN112464644B (zh) * | 2020-12-04 | 2024-03-29 | 北京中科凡语科技有限公司 | 自动断句模型建立方法及自动断句方法 |
CN112699683A (zh) * | 2020-12-31 | 2021-04-23 | 大唐融合通信股份有限公司 | 一种融合神经网络和规则的命名实体识别方法及装置 |
CN113326700A (zh) * | 2021-02-26 | 2021-08-31 | 西安理工大学 | 一种基于ALBert的复杂重型装备实体抽取方法 |
CN113326700B (zh) * | 2021-02-26 | 2024-05-14 | 西安理工大学 | 一种基于ALBert的复杂重型装备实体抽取方法 |
CN113673219A (zh) * | 2021-08-20 | 2021-11-19 | 合肥中科类脑智能技术有限公司 | 一种停电计划文本解析方法 |
CN114092700B (zh) * | 2021-11-25 | 2022-09-20 | 吉林大学 | 基于目标检测和知识图谱的古文字识别方法 |
CN114092700A (zh) * | 2021-11-25 | 2022-02-25 | 吉林大学 | 基于目标检测和知识图谱的古文字识别方法 |
CN114582449A (zh) * | 2022-01-17 | 2022-06-03 | 内蒙古大学 | 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统 |
CN116912845A (zh) * | 2023-06-16 | 2023-10-20 | 广东电网有限责任公司佛山供电局 | 一种基于nlp与ai的智能内容识别与分析方法及装置 |
CN116912845B (zh) * | 2023-06-16 | 2024-03-19 | 广东电网有限责任公司佛山供电局 | 一种基于nlp与ai的智能内容识别与分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109359293B (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359293B (zh) | 基于神经网络的蒙古文命名实体识别方法及其识别系统 | |
CN112487143B (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN107239446B (zh) | 一种基于神经网络与注意力机制的情报关系提取方法 | |
CN101539907B (zh) | 词性标注模型训练装置、词性标注系统及其方法 | |
CN110738057B (zh) | 一种基于语法约束和语言模型的文本风格迁移方法 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN108304372A (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN110232439B (zh) | 一种基于深度学习网络的意图识别方法 | |
CN101866337A (zh) | 词性标注系统、用于训练词性标注模型的装置及其方法 | |
CN109885824A (zh) | 一种层次的中文命名实体识别方法、装置及可读存储介质 | |
CN110287482A (zh) | 半自动化分词语料标注训练装置 | |
CN114926150A (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN110362797A (zh) | 一种研究报告生成方法及相关设备 | |
CN113312453A (zh) | 一种面向跨语言对话理解的模型预训练系统 | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN114153971A (zh) | 一种含错中文文本纠错识别分类设备 | |
CN115062104A (zh) | 融合知识提示的法律文本小样本命名实体识别方法 | |
CN116484848B (zh) | 一种基于nlp的文本实体识别方法 | |
CN112036179A (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN116541533A (zh) | 基于多源异构数据的风力发电机多模态工艺图谱建模方法 | |
CN116108175A (zh) | 基于语义解析和数据构造的语言转化方法及系统 | |
CN115840815A (zh) | 基于指针关键信息的自动摘要生成方法 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |