CN109871535A - 一种基于深度神经网络的法语命名实体识别方法 - Google Patents

一种基于深度神经网络的法语命名实体识别方法 Download PDF

Info

Publication number
CN109871535A
CN109871535A CN201910039188.3A CN201910039188A CN109871535A CN 109871535 A CN109871535 A CN 109871535A CN 201910039188 A CN201910039188 A CN 201910039188A CN 109871535 A CN109871535 A CN 109871535A
Authority
CN
China
Prior art keywords
word
vector
french
sequence
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910039188.3A
Other languages
English (en)
Other versions
CN109871535B (zh
Inventor
王文贤
唐瑞
陈兴蜀
严红
王海舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201910039188.3A priority Critical patent/CN109871535B/zh
Publication of CN109871535A publication Critical patent/CN109871535A/zh
Application granted granted Critical
Publication of CN109871535B publication Critical patent/CN109871535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度神经网络的法语命名实体识别方法,包括以下步骤:步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC‑fr;步骤2:获取法语新闻文本,训练法语词向量,得到词‑词向量集;步骤3:使用标注的法语命名实体识别语料,得到词‑字符向量集和词‑语法向量集;步骤4:将语料划分为测试集和训练集,形成对应的三维向量;步骤5:对神经网络模型进行训练;步骤6:对测试集进行命名实体识别;本发明充分考虑法语单词的语义特征,构建的神经网络对单词的形态结构特征敏感,可兼顾上下文信息,针对性强,识别准确率高。

Description

一种基于深度神经网络的法语命名实体识别方法
技术领域
本发明涉及法语命名实体识别技术领域,具体涉及一种基于深度神经网络的法语命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,NER)是指在文本识别出特定类型事务名称或符号的过程;这些类型通常是预先定义的,常见命名实体类型有三大类:人名、机构名、地名,除此之外还有七小类;它是自然语言处理的一个基础任务,从文本中提取出可能更具有意义的人名、组织名、地名等,使得后续的自然语言处理任务能根据抽取得到的命名实体进一步处理获取需要的信息;在其之上还有命名实体链接、实体关系提取、时间抽取等多种任务依赖于它;有一些相对复杂的任务例如话题检测、文本摘要、机器翻译等将命名实体识别作为中间环节用于提升效果。
随着全球化发展,各国之间信息交换日益频繁,外语的舆情文本信息逐渐增多,相比于中文,外语信息更能影响其他国家对中国的看法,而了解这些信息非常重要;法语在非英语的语种中影响力相对较大,其文本是多种舆情分析中的重要目标之一;在舆情文本分析中,命名实体识别是文本分析的基础任务,重要性不可忽视;在命名实体识别的领域,英文方面的研究有很多,而法语方面的较少;目前对法语文本的研究中,通常采用人工选择分辨命名实体和非命名实体的特征,然后由机器学习模型进行学习,识别出文本中存在的命名实体;这些特征包括词后缀、字符窗口、临近词、词前缀、单词长度、首字母是否大写等等;可以看出多为单词或文本的形态结构特征而非语义特征;除此之外,多语言通用的命名实体识别方法也可以应用到法语中,但是这种识别方法一般是以英语为研究主体,法语和其他语言套用英语的方法;但是其识别效果和英语相比有一定的差距,法语与英语相比不但词的种类复杂,词的用法位置以及由此导致整个句子的性数变化也不同,直接应用到法语命名实体识别上,识别的准确率相对较低。
发明内容
本发明提供一种兼顾文本中的形态结构特征、语义特征和语法特征,识别准确率高的基于深度神经网络的法语命名实体识别方法。
本发明采用的技术方案是:一种基于深度神经网络的法语命名实体识别方法,包括以下步骤:
步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC-fr;
CGC-fr包括文本特征层、上下文特征层和CRF层;
文本特征层将输入的句子中的每个单词转换为一个特征向量ri,得到特征序列{r1,r2,…,rN};i=1,2,…N,N为句子中单词的数量;
上下文特征层将特征序列通过双向门控循环网络BiGRU网络得到输出序列,经线性层得到句子的上下文特征;
CRF层将上下文特征通过BIO标注每个词在实体中的位置信息,通过条件随机场CRF得到单词的实体标签;
步骤2:获取法语新闻文本,训练法语词向量,得到词-词向量集;
步骤3:使用标注的法语命名实体识别语料,训练对应的字符向量与语法特征向量,分别得到词-字符向量集和词-语法向量集;
步骤4:将步骤3中识别得到的语料划分为测试集和训练集,根据步骤2得到的词-词向量集和步骤3得到的词-字符向量集、词-语法向量集将测试集和训练集中的语料形成对应的三维向量;
步骤5:根据步骤4得到的训练集对步骤1构建的神经网络模型进行训练;
步骤6:采用步骤5训练得到的神经网络模型对步骤4得到的测试集进行命名实体识别。
进一步的,所述步骤1中的特征向量表示为:r=[rword,rchar,rsem],其中rword为表示单词语义特征的词嵌入,rchar为表示单词形态结构特征的全局字符特征,rsem为语法特征;
其中:
式中:为词汇表中第n个词的词嵌入,Wword为词汇表所有词嵌入构成的矩阵,为大小为V的onehot向量,n为1到V之间的一个整数,w为法语单词,V为词汇表的大小;
rchar提取过程如下:
给定一个法语单词w,表示为字符嵌入序列,将上述字符嵌入序列作为CNN的输入,定义F个卷积核,将每个卷积核以滑动窗口在字符嵌入序列上滑动,得到一系列字符嵌入的子序列;将字符嵌入的子序列通过池化得到全局字符特征rchar
进一步的,所述步骤1中上下文特征层得到的网络输出序列过程如下:
根据特征序列{r1,r2,…,rN},t时刻的输入为xt,经过正向RGU网络得到反向RGU网络得到其计算过程如下:
zt=sigm(Wzxt+Uzht-1)
rt=sigm(Wrxt+Urht-1)
z为RGU网络的更新门,r为RGU网络的重置门,zt为t时刻RGU网络的更新门,rt为t时刻RGU网络的重置门,为RGU网络的候选隐含单元,W、b、U为参数,ht为t时刻隐含层输出,ht-1为上一时刻隐含层输出,h为隐含层输出;
t时刻经双向门控循环网络BiGRU网络输出at一段时间输出序列为{a1,a2,...,aN},t=1,2,…N。
进一步的,所述步骤1中CRF层单词实体标签的获取过程如下:
定义实际的标签序列为Y,输入特征序列为L且实际标签序列为Y的情况下的条件概率为P(Y|L):
式中:ψi(yi-1,yi,L)为CRF的势函数,yi为实际标签序列Y中第i个标签,yi-1为实际标签序列Y中的第i-1个标签,y′为预测的标签,f(L)为特征函数,N为序列长度;
条件概率最大的标签类型即单词的实体标签。
进一步的,所述步骤2中获取词-词向量集的过程如下:
对文本进行预处理,去除标点符号;通过GENSIM进行词向量的训练即可得到词-词向量集合。
进一步的,所述步骤4中的三维向量表示方法如下:
对语料进行文本预处理,用二维数组Array_Term存储整个语料;第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号;
词-词向量集:通过三维数组Array_Word2Vec存储法语命名识别语料的嵌入,第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号,第三个维度为词向量;
词-字符向量集:二维数组Array_Term中按字母分隔其中的每个词,用三维数组Array_Char存储整个语料的字符表示形式;按照字母出现的顺序,得到非重复的字母表,建立字符索引,形成三维数组Array_CharVec用于存储整个语料的字符向量;
词-语法向量集:通过Spacy对法语命名实体识别语料中每个词进行词性标注,形成二维数组Array_Pos,按照词性出现的先后顺序,得到非重复的词性表,形成词性索引;将每个索引替换成One-Hot形式,形成三维数组Array_PosVec用于存储整个语料的语法特征向量。
本发明的有益效果是:
(1)本发明根据法语单词的语义特征,对局部特征的敏感性抽取单词的形态结构特征;
(2)本发明通过双向门控循环网络可兼顾上下文信息;
(3)本发明中CRF层对处理前后存在依赖的序列更强大,建立的模型可端对端的实现法语命名实体识别;
(4)本发明针对性强、识别准确率高。
附图说明
图1为本发明流程结构示意图。
图2本发明中建立的CGC-fr模型的结构示意图。
图3为本发明中提取单词字符特征的过程示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
如图1所示,一种基于深度神经网络的法语命名实体识别方法,包括以下步骤:
步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC-fr;
CGC-fr包括文本特征层、上下文特征层和CRF层;
1、文本特征层
文本特征层作为模型的第一层和输入层密切相关,输入为一个句子,由N个单词wi组成,i=1,2,…N,形成{w1,w2,...,wN};文本特征层将其中每个法语单词转换成一个特征向量r,r=[rword,rchar,rsem];其中rword为表示单词语义特征的词嵌入,rchar为表示单词形态结构特征的全局字符特征,代表单词的形态结构特征,比如说词根词缀信息等,rsem为语法特征。
语义特征:
词嵌入rword的表示法和普通One-Hot表示法(One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效)只是相差一个词嵌入矩阵,但是也正是这个矩阵的存在导致词嵌入比One-Hot表示法蕴含更多的语义信息;该矩阵Wword表示词汇表中所有词嵌入;它的每列Wi word代表词汇表中的第i个词,是一个大小为V的向量,除了w所在索引n为1,其余为0。
其中:
式中:为词汇表中第n个词的词嵌入,Wword为词汇表所有词嵌入构成的矩阵,为大小为V的onehot向量,n为1到V之间的一个整数,w为法语单词,V为词汇表的大小。
将词嵌入表示为模型的参数,即可在训练法语命名实体识别模型时不断迭代得到,训练的输入输出是词的上下文;所以生成的词嵌入代表在该语料中的语义信息;模型中还可以直接加载外部已经训练好的词嵌入,已经训练好的词嵌入相较于训练时生成的词嵌入会使得模型的效果更好,提升模型的识别准确率。
形态结构特征
字符嵌入为:给定一个法语单词w。这个词的字符分割后可表示为字符嵌入序列依靠词的字符序列不仅难以表达出词的形态特征,还增加了模型的计算复杂度;本发明模型是基于CNN构建的,CNN采用了局部连接和权值共享技术,对局部的特征非常敏感,在提取字符特征方面富有成效;使用CNN来提取一个单词的字符嵌入序列所蕴含的形态结构特征,如图3所示,图中是以给定的法语单词Boujour为例展示的提取字符特征的过程。
将包含M个字符的单词的字符嵌入序列作为CNN的输入,定义F个卷积核,每个卷积核以kchar大小的窗口在字符嵌入序列上以步长为1滑动(选择步长为1是为了不漏过每个可能的词根词缀信息),每次滑动得到一个字符嵌入的子序列:
再通过池化Max-pooling得到全局字符特征rchar,其中第j位元素的计算方法如下:
其中,Wp为所有卷积核的权重,其大小为固定长度,等于卷积核数量F;通过对卷积核提取的局部特征进行汇总得到该单词的全局字符特征。
语法特征
作为语法的一部分,法语单词的词性有助于从词性的角度来丰富文本的特征,使得后续的过程中能够具有丰富含义的特征更有效地提取命名实体;本发明中将每个单词的词性特征表示为One-Hot形式的向量rsem,代表法语单词的语法特征。
最终,将词嵌入rword、字符特征rchar、语法特征rsem串联得到最终的词表示为r,一个句子中所有的词均通过特征向量表示,其组合形成特征序列{r1,r2,…,rN}。
2、上下文特征层
上下文特征层将特征序列通过双向门控循环网络BiGRU网络得到输出序列,经线性层得到句子的上下文特征;
文本的上下文信息往往是双向的,当前词语不仅与之前的序列有关还与之后的序列有关;用单词序列表示的法语句子{w1,w2,...,wN}的特征{r1,r2,…,rN}代表句子本身时,通常希望能综合句子全局上下文信息来判断实体类别。
目前的循环神经网络可以达成这个目标,最开始循环神经网络(RecurrentNeural Network,RNN)被期待能具有记忆功能,保持前文的信息,传递给后面的单元使用,然而它实际表现效果并不好,会遇到梯度消失问题;为了解决RNN梯度消失问题而提出的BiGRU解决了这个问题,同时在具有上下文联系的情况下,具有更少的参数,训练更快;BiGRU比GRU更强大,由正向GRU和逆向GRU组成,接受上文或者下文传来的信息,综合考虑当前和上下文信息得到输出,让输出效果准确率得到一定程度提升;它的循环神经网络结构的特质决定了它能捕获序列从左向右的上下文和从右向左的上下文,如图2所示。
其中GRU网络:即Gated Recurrent Unit。GRU模型如下只有两个门,分别为更新门和重置门;更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多(在GRU神经网络-超人汪小建的博客中有详细记载)。
根据特征序列{r1,r2,…,rN},t时刻的输入为xt,经过正向RGU网络得到反向RGU网络得到其计算过程如下:
zt=sigm(Wzxt+Uzht-1)
rt=sigm(Wrxt+Urht-1)
z为RGU网络的更新门,r为RGU网络的重置门,zt为t时刻RGU网络的更新门,rt为t时刻RGU网络的重置门,为RGU网络的候选隐含单元,W、b、U为参数,ht为t时刻隐含层输出,ht-1为上一时刻隐含层输出,h为隐含层输出;
t时刻经双向门控循环网络BiGRU网络输出at一段时间输出序列为{a1,a2,...,aN},t=1,2,…N。
输出序列通过线性层压缩特征向量的维度,得到句子的上下文特征,即上下文特征的输出{l1,l2,...,lN}。
3、CRF层
CRF层将上下文特征通过BIO标注每个词在实体中的位置信息,通过条件随机场CRF得到单词的实体标签。
将法语命名实体识别看作是一个简单的序列标注问题,也就是序列中的每个词都有着对应的命名实体的标签;命名实体往往是一个词组,因此命名实体的标签不仅标识着类别还标识该词在命名实体中的位置信息;实用BIO标注(BIO标注:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型;其中序列标注中的BIO标注介绍-HappyRocking的博客中有详细说明)来表示实体中每个词在实体中的位置信息。
例如句子“Alleràla Tour Eiffel”(去巴菲尔铁塔)为例,其中“Tour Eiffel”为地名LOC实体,整个句子的实体BIO2标签序列为O,O,O,B-LOC,I-LOC,O代表非实体的标签,B-前缀代表实体的第一个词,I-前缀表示实体非头部的词;在标签序列中,I-LOC标签后肯定不可后接I-ORG,所以引入条件随机场CRF,来学习标签序列间的关系;CRF能有效捕获序列内部之间的联系,尤其是序列中前后临近元素词的关系(关于条件随机场CRF在“条件随机场CRF”-Treant的博客中有详细说明)。
定义实际的标签序列为Y,输入特征序列为L且实际标签序列为Y的情况下的条件概率为P(Y|L):
式中:ψi(yi-1,yi,L)为CRF的势函数,yi为实际标签序列Y中第i个标签,yi-1为实际标签序列Y中的第i-1个标签,y′为预测的标签,f(L)为特征函数,N为序列长度;
训练CRF时,用最大似然估计法使得条件概率最大化,从预测概率最大的标签类型即单词的实体标签。
实际使用时,按照以下步骤进行:
步骤2:获取法语新闻文本,训练法语词向量,得到词-词向量集;
使用获取的5万篇法语新闻文文本,首先对文本进行预处理,去除其中的标点符号,把所有新闻文文本合并到一个文件,文件的每一行表示原新闻文本中的一句话;然后以该文件为输入,使用GENSIM进行词向量的训练,输出为词-词向量集;其中GENSIM为一个用于从文档中自动提取语义主题的Python库。
步骤3:使用标注的法语命名实体识别语料,训练对应的字符向量与语法特征向量,分别得到词-字符向量集和词-语法向量集。
步骤4:将步骤3中识别得到的语料划分为测试集和训练集,根据步骤2得到的词-词向量集和步骤3得到的词-字符向量集、词-语法向量集将测试集和训练集中的语料形成对应的三维向量;
三维向量表示方法如下:
使用标注的法语命名实体识别预料,首先对对语料进行文本预处理,去除其中的标点符号,用二维数组Array_Term存储整个语料;第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号;数组中存储的值是对应的词,第二个维度的大小由语料中最长句子的词的个数确定,较短的句子在数组中空缺的位置用填充字符UNK进行填充。
词-词向量集:通过三维数组Array_Word2Vec存储法语命名识别语料的词嵌入表示,Array_Word2Vec前两个维度与Array_Term对应;第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号,第三个维度为词向量,存储的值与词-词向量对应。
词-字符向量集:二维数组Array_Term中按字母分隔其中的每个词,用三维数组Array_Char存储整个语料的字符表示形式;按照字母出现的顺序,得到非重复的字母表,建立字符索引;该索引区分大小字母以及某些非标点的特殊字符情况;形成三维数组Array_CharVec用于存储整个语料的字符向量,每一个值是对应字母的索引值,空缺的位置用填充字符UNK进行填充。
词-语法向量集:通过Spacy对法语命名实体识别语料中每个词进行词性标注,形成二维数组Array_Pos,用于记录整个语料的词性标注结果;按照词性出现的先后顺序,得到非重复的词性表,形成词性索引;将每个索引替换成One-Hot形式,形成三维数组Array_PosVec用于存储整个语料的语法特征向量。
步骤5:根据步骤4得到的训练集对步骤1构建的神经网络模型进行训练;
步骤6:采用步骤5训练得到的神经网络模型对步骤4得到的测试集进行命名实体识别。
可将本发明方法编为程序代码,通过计算机刻度存储介质存储该代码,将程序代码传输给处理器,通过处理器执行本发明方法。
本发明利用卷积神经网络CNN(Convolutional Neural Network,CNN)对局部特征的敏感性抽取单词的形态结构特征;通过双向门控循环网络BiGRU对上下文信息敏感,CRF对处理前后存在的依赖的序列更强力,结合它们的优势端对端地实现法语命名实体识别。并且使用词嵌入表示文本中单词的语义特征,字符嵌入用于提取单词的形态结构特征,并提取出法语语法特征,使得本发明方法能够兼顾文本中的形态结构特征、语义特征和语法特征,充分利用法语本身的特征抽取命名实体;通过本发明方法标注了法语的数据集,其中包含1005篇文章,29016个实体,增加了法语命名实体识别的数据集;该数据集后续可以开展更多的研究。

Claims (6)

1.一种基于深度神经网络的法语命名实体识别方法,其特征在于,包括以下步骤:
步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC-fr;
CGC-fr包括文本特征层、上下文特征层和CRF层;
文本特征层将输入的句子中的每个单词转换为一个特征向量ri,得到特征序列{r1,r2,…,rN};i=1,2,…N,N为句子中单词的数量;
上下文特征层将特征序列通过双向门控循环网络BiGRU网络得到输出序列,经线性层得到句子的上下文特征;
CRF层将上下文特征通过BIO标注每个词在实体中的位置信息,通过条件随机场CRF得到单词的实体标签;
步骤2:获取法语新闻文本,训练法语词向量,得到词-词向量集;
步骤3:使用标注的法语命名实体识别语料,训练对应的字符向量与语法特征向量,分别得到词-字符向量集和词-语法向量集;
步骤4:将步骤3中识别得到的语料划分为测试集和训练集,根据步骤2得到的词-词向量集和步骤3得到的词-字符向量集、词-语法向量集将测试集和训练集中的语料形成对应的三维向量;
步骤5:根据步骤4得到的训练集对步骤1构建的神经网络模型进行训练;
步骤6:采用步骤5训练得到的神经网络模型对步骤4得到的测试集进行命名实体识别。
2.根据权利要求1所述的一种基于深度神经网络的法语命名实体识别方法,其特征在于,所述步骤1中的特征向量表示为:r=[rword,rchar,rsem],其中rword为表示单词语义特征的词嵌入,rchar为表示单词形态结构特征的全局字符特征,rsem为语法特征;
其中:
式中:为词汇表中第n个词的词嵌入,为词汇表所有词嵌入构成的矩阵,为大小为V的onehot向量,n为1到V之间的一个整数,w为法语单词,V为词汇表的大小;
rchar提取过程如下:
给定一个法语单词w,表示为字符嵌入序列,将上述字符嵌入序列作为CNN的输入,定义F个卷积核,将每个卷积核以滑动窗口在字符嵌入序列上滑动,得到一系列字符嵌入的子序列;将字符嵌入的子序列通过池化得到全局字符特征rchar
3.根据权利要求1所述的一种基于深度神经网络的法语命名实体识别方法,其特征在于,所述步骤1中上下文特征层得到的网络输出序列过程如下:
根据特征序列{r1,r2,…,rN},t时刻的输入为xt,经过正向RGU网络得到反向RGU网络得到其计算过程如下:
zt=sigm(Wzxt+Uzht-1)
rt=sigm(Wrxt+Urht-1)
z为RGU网络的更新门,r为RGU网络的重置门,zt为t时刻RGU网络的更新门,rt为t时刻RGU网络的重置门,为RGU网络的候选隐含单元,W、b、U为参数,ht为t时刻隐含层输出,ht-1为上一时刻隐含层输出,h为隐含层输出;
t时刻经双向门控循环网络BiGRU网络输出at一段时间输出序列为{a1,a2,…,aN},t=1,2,…N。
4.根据权利要求1所述的一种基于深度神经网络的法语命名实体识别方法,其特征在于,所述步骤1中CRF层单词实体标签的获取过程如下:
定义实际的标签序列为Y,输入特征序列为L且实际标签序列为Y的情况下的条件概率为P(Y|L):
式中:ψi(yi-1,yi,L)为CRF的势函数,yi为实际标签序列Y中第i个标签,yi-1为实际标签序列Y中的第i-1个标签,y′为预测的标签,f(L)为特征函数,N为序列长度;
条件概率最大的标签类型即单词的实体标签。
5.根据权利要求1所述的一种基于深度神经网络的法语命名实体识别方法,其特征在于,所述步骤2中获取词-词向量集的过程如下:
对文本进行预处理,去除标点符号;通过GENSIM进行词向量的训练即可得到词-词向量集合。
6.根据权利要求1所述的一种基于深度神经网络的法语命名实体识别方法,其特征在于,所述步骤4中的三维向量表示方法如下:
对语料进行文本预处理,用二维数组Array_Term存储整个语料;第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号;
词-词向量集:通过三维数组Array_Word2Vec存储法语命名识别语料的嵌入,第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号,第三个维度为词向量;
词-字符向量集:二维数组Array_Term中按字母分隔其中的每个词,用三维数组Array_Char存储整个语料的字符表示形式;按照字母出现的顺序,得到非重复的字母表,建立字符索引,形成三维数组Array_CharVec用于存储整个语料的字符向量;
词-语法向量集:通过Spacy对法语命名实体识别语料中每个词进行词性标注,形成二维数组Array_Pos,按照词性出现的先后顺序,得到非重复的词性表,形成词性索引;将每个索引替换成One-Hot形式,形成三维数组Array_PosVec用于存储整个语料的语法特征向量。
CN201910039188.3A 2019-01-16 2019-01-16 一种基于深度神经网络的法语命名实体识别方法 Active CN109871535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910039188.3A CN109871535B (zh) 2019-01-16 2019-01-16 一种基于深度神经网络的法语命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910039188.3A CN109871535B (zh) 2019-01-16 2019-01-16 一种基于深度神经网络的法语命名实体识别方法

Publications (2)

Publication Number Publication Date
CN109871535A true CN109871535A (zh) 2019-06-11
CN109871535B CN109871535B (zh) 2020-01-10

Family

ID=66917716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910039188.3A Active CN109871535B (zh) 2019-01-16 2019-01-16 一种基于深度神经网络的法语命名实体识别方法

Country Status (1)

Country Link
CN (1) CN109871535B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322962A (zh) * 2019-07-03 2019-10-11 重庆邮电大学 一种自动生成诊断结果的方法、系统及计算机设备
CN110348021A (zh) * 2019-07-17 2019-10-18 湖北亿咖通科技有限公司 基于命名实体模型的字符串识别方法、电子设备、存储介质
CN110347793A (zh) * 2019-06-28 2019-10-18 北京牡丹电子集团有限责任公司宁安智慧工程中心 一种中文语义解析方法及装置
CN110472063A (zh) * 2019-07-12 2019-11-19 新华三大数据技术有限公司 社交媒体数据处理方法、模型训练方法及相关装置
CN110516247A (zh) * 2019-08-27 2019-11-29 湖北亿咖通科技有限公司 基于神经网络的命名实体识别方法及计算机存储介质
CN110750992A (zh) * 2019-10-09 2020-02-04 吉林大学 命名实体识别方法、装置、电子设备及介质
CN110795563A (zh) * 2019-10-31 2020-02-14 支付宝(杭州)信息技术有限公司 文本分类模型训练方法、事件检测方法及对应的装置
CN110827831A (zh) * 2019-11-15 2020-02-21 广州洪荒智能科技有限公司 基于人机交互的语音信息处理方法、装置、设备及介质
CN110990525A (zh) * 2019-11-15 2020-04-10 华融融通(北京)科技有限公司 一种基于自然语言处理的舆情信息抽取及知识库生成方法
CN111008526A (zh) * 2019-12-06 2020-04-14 安徽理工大学 一种基于双通道神经网络的命名实体识别方法
CN111079898A (zh) * 2019-11-28 2020-04-28 华侨大学 一种基于TextCNN网络的信道编码识别方法
CN111160033A (zh) * 2019-12-18 2020-05-15 车智互联(北京)科技有限公司 一种基于神经网络的命名实体识别方法、计算设备及存储介质
CN111160031A (zh) * 2019-12-13 2020-05-15 华南理工大学 一种基于词缀感知的社交媒体命名实体识别方法
CN111179937A (zh) * 2019-12-24 2020-05-19 上海眼控科技股份有限公司 文本处理的方法、设备和计算机可读存储介质
CN111259116A (zh) * 2020-01-16 2020-06-09 北京珞安科技有限责任公司 基于卷积神经网络的敏感文件检测方法
CN111274804A (zh) * 2020-01-17 2020-06-12 珠海市新德汇信息技术有限公司 基于命名实体识别的案件信息提取方法
CN111274788A (zh) * 2020-01-16 2020-06-12 创新工场(广州)人工智能研究有限公司 一种双通道联合处理方法和装置
CN111444720A (zh) * 2020-03-30 2020-07-24 华南理工大学 一种英文文本的命名实体识别方法
CN111460821A (zh) * 2020-03-13 2020-07-28 云知声智能科技股份有限公司 一种实体识别与链接方法及装置
CN111597810A (zh) * 2020-04-13 2020-08-28 广东工业大学 一种半监督解耦的命名实体识别方法
CN111597814A (zh) * 2020-05-22 2020-08-28 北京慧闻科技(集团)有限公司 一种人机交互命名实体识别方法、装置、设备及存储介质
CN112016313A (zh) * 2020-09-08 2020-12-01 迪爱斯信息技术股份有限公司 口语化要素识别方法及装置、警情分析系统
CN112084783A (zh) * 2020-09-24 2020-12-15 中国民航大学 基于民航不文明旅客的实体识别方法及系统
CN112135334A (zh) * 2020-10-27 2020-12-25 上海连尚网络科技有限公司 一种用于确定无线接入点的热点类型的方法与设备
CN112507718A (zh) * 2020-12-16 2021-03-16 科大讯飞股份有限公司 一种跨语种实体标注方法、装置、设备及存储介质
CN113076751A (zh) * 2021-02-26 2021-07-06 北京工业大学 命名实体识别方法及系统、电子设备和存储介质
CN113488035A (zh) * 2020-04-28 2021-10-08 海信集团有限公司 一种语音信息的处理方法、装置、设备及介质
CN113723103A (zh) * 2021-08-26 2021-11-30 北京理工大学 融合多源知识的中文医学命名实体和词性联合学习方法
CN114444485A (zh) * 2022-01-24 2022-05-06 四川大学 一种云环境网络设备实体识别方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140236578A1 (en) * 2013-02-15 2014-08-21 Nec Laboratories America, Inc. Question-Answering by Recursive Parse Tree Descent
CN106557462A (zh) * 2016-11-02 2017-04-05 数库(上海)科技有限公司 命名实体识别方法和系统
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN107797992A (zh) * 2017-11-10 2018-03-13 北京百分点信息科技有限公司 命名实体识别方法及装置
CN108460012A (zh) * 2018-02-01 2018-08-28 哈尔滨理工大学 一种基于gru-crf的命名实体识别方法
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN109117472A (zh) * 2018-11-12 2019-01-01 新疆大学 一种基于深度学习的维吾尔文命名实体识别方法
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置
CN109190120A (zh) * 2018-08-31 2019-01-11 第四范式(北京)技术有限公司 神经网络训练方法和装置及命名实体识别方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140236578A1 (en) * 2013-02-15 2014-08-21 Nec Laboratories America, Inc. Question-Answering by Recursive Parse Tree Descent
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106557462A (zh) * 2016-11-02 2017-04-05 数库(上海)科技有限公司 命名实体识别方法和系统
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN107797992A (zh) * 2017-11-10 2018-03-13 北京百分点信息科技有限公司 命名实体识别方法及装置
CN108460012A (zh) * 2018-02-01 2018-08-28 哈尔滨理工大学 一种基于gru-crf的命名实体识别方法
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置
CN109190120A (zh) * 2018-08-31 2019-01-11 第四范式(北京)技术有限公司 神经网络训练方法和装置及命名实体识别方法和装置
CN109117472A (zh) * 2018-11-12 2019-01-01 新疆大学 一种基于深度学习的维吾尔文命名实体识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANDONI AZPEITIA ET AL.: ""NERC-fr: Supervised Named Entity Recognition for French"", 《SPRINGER》 *
GUL KHAN SAFI QAMAS 等: ""基于深度神经网络的命名实体识别"", 《信息网络安全》 *
XIAOYAN ZHANG ET AL.: ""Chinese Named Entity Recognition with a Hybrid-Statistical Model"", 《SPRINGER》 *
张海楠 等: ""基于深度神经网络的中文命名实体识别"", 《中文信息学报》 *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347793A (zh) * 2019-06-28 2019-10-18 北京牡丹电子集团有限责任公司宁安智慧工程中心 一种中文语义解析方法及装置
CN110322962A (zh) * 2019-07-03 2019-10-11 重庆邮电大学 一种自动生成诊断结果的方法、系统及计算机设备
CN110472063A (zh) * 2019-07-12 2019-11-19 新华三大数据技术有限公司 社交媒体数据处理方法、模型训练方法及相关装置
CN110472063B (zh) * 2019-07-12 2022-04-08 新华三大数据技术有限公司 社交媒体数据处理方法、模型训练方法及相关装置
CN110348021B (zh) * 2019-07-17 2021-05-18 湖北亿咖通科技有限公司 基于命名实体模型的字符串识别方法、电子设备、存储介质
CN110348021A (zh) * 2019-07-17 2019-10-18 湖北亿咖通科技有限公司 基于命名实体模型的字符串识别方法、电子设备、存储介质
CN110516247A (zh) * 2019-08-27 2019-11-29 湖北亿咖通科技有限公司 基于神经网络的命名实体识别方法及计算机存储介质
CN110750992A (zh) * 2019-10-09 2020-02-04 吉林大学 命名实体识别方法、装置、电子设备及介质
CN110750992B (zh) * 2019-10-09 2023-07-04 吉林大学 命名实体识别方法、装置、电子设备及介质
CN110795563A (zh) * 2019-10-31 2020-02-14 支付宝(杭州)信息技术有限公司 文本分类模型训练方法、事件检测方法及对应的装置
CN110827831A (zh) * 2019-11-15 2020-02-21 广州洪荒智能科技有限公司 基于人机交互的语音信息处理方法、装置、设备及介质
CN110990525A (zh) * 2019-11-15 2020-04-10 华融融通(北京)科技有限公司 一种基于自然语言处理的舆情信息抽取及知识库生成方法
CN111079898A (zh) * 2019-11-28 2020-04-28 华侨大学 一种基于TextCNN网络的信道编码识别方法
CN111079898B (zh) * 2019-11-28 2023-04-07 华侨大学 一种基于TextCNN网络的信道编码识别方法
CN111008526A (zh) * 2019-12-06 2020-04-14 安徽理工大学 一种基于双通道神经网络的命名实体识别方法
WO2021114745A1 (zh) * 2019-12-13 2021-06-17 华南理工大学 一种基于词缀感知的社交媒体命名实体识别方法
CN111160031A (zh) * 2019-12-13 2020-05-15 华南理工大学 一种基于词缀感知的社交媒体命名实体识别方法
CN111160033A (zh) * 2019-12-18 2020-05-15 车智互联(北京)科技有限公司 一种基于神经网络的命名实体识别方法、计算设备及存储介质
CN111160033B (zh) * 2019-12-18 2024-02-27 车智互联(北京)科技有限公司 一种基于神经网络的命名实体识别方法、计算设备及存储介质
CN111179937A (zh) * 2019-12-24 2020-05-19 上海眼控科技股份有限公司 文本处理的方法、设备和计算机可读存储介质
CN111274788A (zh) * 2020-01-16 2020-06-12 创新工场(广州)人工智能研究有限公司 一种双通道联合处理方法和装置
CN111259116A (zh) * 2020-01-16 2020-06-09 北京珞安科技有限责任公司 基于卷积神经网络的敏感文件检测方法
CN111274804A (zh) * 2020-01-17 2020-06-12 珠海市新德汇信息技术有限公司 基于命名实体识别的案件信息提取方法
CN111460821A (zh) * 2020-03-13 2020-07-28 云知声智能科技股份有限公司 一种实体识别与链接方法及装置
CN111460821B (zh) * 2020-03-13 2023-08-29 云知声智能科技股份有限公司 一种实体识别与链接方法及装置
CN111444720A (zh) * 2020-03-30 2020-07-24 华南理工大学 一种英文文本的命名实体识别方法
CN111597810A (zh) * 2020-04-13 2020-08-28 广东工业大学 一种半监督解耦的命名实体识别方法
CN111597810B (zh) * 2020-04-13 2024-01-05 广东工业大学 一种半监督解耦的命名实体识别方法
CN113488035A (zh) * 2020-04-28 2021-10-08 海信集团有限公司 一种语音信息的处理方法、装置、设备及介质
CN111597814B (zh) * 2020-05-22 2023-05-26 北京慧闻科技(集团)有限公司 一种人机交互命名实体识别方法、装置、设备及存储介质
CN111597814A (zh) * 2020-05-22 2020-08-28 北京慧闻科技(集团)有限公司 一种人机交互命名实体识别方法、装置、设备及存储介质
CN112016313A (zh) * 2020-09-08 2020-12-01 迪爱斯信息技术股份有限公司 口语化要素识别方法及装置、警情分析系统
CN112016313B (zh) * 2020-09-08 2024-02-13 迪爱斯信息技术股份有限公司 口语化要素识别方法及装置、警情分析系统
CN112084783A (zh) * 2020-09-24 2020-12-15 中国民航大学 基于民航不文明旅客的实体识别方法及系统
CN112135334A (zh) * 2020-10-27 2020-12-25 上海连尚网络科技有限公司 一种用于确定无线接入点的热点类型的方法与设备
CN112507718A (zh) * 2020-12-16 2021-03-16 科大讯飞股份有限公司 一种跨语种实体标注方法、装置、设备及存储介质
CN112507718B (zh) * 2020-12-16 2024-02-13 中国科学技术大学 一种跨语种实体标注方法、装置、设备及存储介质
CN113076751A (zh) * 2021-02-26 2021-07-06 北京工业大学 命名实体识别方法及系统、电子设备和存储介质
CN113723103A (zh) * 2021-08-26 2021-11-30 北京理工大学 融合多源知识的中文医学命名实体和词性联合学习方法
CN114444485A (zh) * 2022-01-24 2022-05-06 四川大学 一种云环境网络设备实体识别方法

Also Published As

Publication number Publication date
CN109871535B (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN109871535A (zh) 一种基于深度神经网络的法语命名实体识别方法
CN109684648B (zh) 一种多特征融合的古今汉语自动翻译方法
CN111310471B (zh) 一种基于bblc模型的旅游命名实体识别方法
CN109858041B (zh) 一种半监督学习结合自定义词典的命名实体识别方法
CN110750635B (zh) 一种基于联合深度学习模型的法条推荐方法
CN112784051A (zh) 专利术语抽取方法
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN110414009B (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
Gao et al. Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF
CN114091460B (zh) 一种多任务中文实体命名识别方法
CN109918681B (zh) 一种基于汉字-拼音的融合问题语义匹配方法
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、系统及介质
CN112487820A (zh) 一种中文医疗命名实体识别方法
CN109800434A (zh) 基于眼动注意力的抽象文本标题生成方法
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN110083824A (zh) 一种基于多模型组合神经网络的老挝语分词方法
CN111651983A (zh) 一种基于自训练与噪声模型的因果事件抽取方法
Li et al. Integrating language model and reading control gate in BLSTM-CRF for biomedical named entity recognition
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN111159345A (zh) 一种中文知识库答案获取方法及其装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN110134950A (zh) 一种字词结合的文本自动校对方法
CN115238691A (zh) 基于知识融合的嵌入的多意图识别与槽位填充模型
CN112507717A (zh) 融合实体关键字特征的医疗领域实体分类方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant