CN108959252A - 基于深度学习的半监督中文命名实体识别方法 - Google Patents
基于深度学习的半监督中文命名实体识别方法 Download PDFInfo
- Publication number
- CN108959252A CN108959252A CN201810686249.0A CN201810686249A CN108959252A CN 108959252 A CN108959252 A CN 108959252A CN 201810686249 A CN201810686249 A CN 201810686249A CN 108959252 A CN108959252 A CN 108959252A
- Authority
- CN
- China
- Prior art keywords
- label
- word
- learner
- sentence
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Abstract
本发明属于人工智能领域中的信息抽取技术,针对只有少量标注数据和大量未标注数据的特定领域的中文文本,提供一种基于深度学习的半监督中文命名实体识别方法。具体包括:第一步,构建基于字符的深度学习命名实体识别模型;第二步,设计打分器,利用有标注数据训练学习器和打分器;第三步,设计半监督学习框架,利用无标注数据实现半监督中文命名实体识别。本发明可以提高特定领域中文命名实体识别的准确率和召回率。
Description
技术领域
本发明属于人工智能领域中的信息抽取技术,特别是针对只有少量标注数据和大量未标注数据的特定领域的中文文本,能提高自动抽取出的命名实体及其类型的准确率和召回率。
背景技术
命名实体识别(Named Entity Recognition,NER)任务主要是识别出文本中出现的人名、地名、机构名等专有名称并加以归类,它是信息抽取、信息检索、问答系统等多种自然语言处理任务的基础。随着不同领域对命名实体识别有了自定义的需求,对识别的准确率和召回率提出了更高的要求。比如,对于一般的专有名词,需要更细致的划分,将地名划分为国家名、省/州、城市名、街道名等。对于特定领域的命名实体识别,如医疗文本中抽取出疾病、症状、检查、治疗、身体部位等特定实体名字,只有准确而全面的抽取出医疗文本中的实体,才能更好地服务于医疗知识挖掘、医疗智能机器人、医疗临床决策支持系统等应用领域。特定领域文本的命名实体识别,由于文本中专有名词更多,标注数据一般较少,比一般的专有名词识别更难。
对于特定领域的特定需求的命名实体识别任务,目前基于深度学习的监督方法能取得最好的准确率,比如基于双向长短时记忆网络(Bi-directional Long Short TermMemory network,BiLSTM),卷积神经网络(Convolutional neural network,CNN)和条件随机场(Conditional Random Fields,CRF)相结合的模型在多种实体识别任务上取得最好的表现。基于深度学习的监督方法需要大量的标注数据,一般情况下,标注数据越多,效果越好。然而,特定领域的标注数据往往并不容易获得,人工标注耗时费力,而且由于信息的快速增长更新,一些旧的标注数据也不能很好地适应新的需求。这些特定领域往往有丰富的未标注文本数据,如何利用少量的标注数据和大量未标注的数据,构造出有效的命名实体识别模型具有重要的应用意义。
一种直观的方法是基于自训练的半监督学习方法。先用有标注的样本集训练一个学习器,用该学习器去给未标注的样本打上标签,挑选出其中可信度高的标签的样本,然后将新标记的样本加入到原来的训练集中,用这个新的训练集来重新训练学习器,重复以上过程直到迭代条件终止。如何挑选出可信度高的自动标注的样本,是半监督学习方法的难点。已有的自训练方法,往往是通过学习器给未标注数据打标签时给出的概率值作为参考,大于某个阈值的就认为置信度高,反之舍弃。
现有的普遍实现都是将命名实体识别任务转换为序列标注任务。使用BIO(Begin,Inside,Outside)或BIOES(Begin,Inside,Outside,End,Single)标签策略标注句子中实体的相对位置,即可识别出实体的边界;再加上实体的类型信息即可生成所有的标签,如B-PERSON表示一个人名实体的起始词。BIO分别表示实体的开始(Begin)、中间(Inside)位置或不是实体(Outside)的标注信息;BIOES策略则增加了实体结束(End)的标记信息和单个实体(Single)的标注信息,这两种策略可以相互转换。基于BiLSTM-CNNs-CRF之类的深度学习模型是英文命名实体识别的最佳方法。这种方法往往用低维向量表示每个单词,单词的向量表示由预训练的词嵌入(word embedding)和基于神经网络学习的字符表示相连接而成。词嵌入是通过使用Word2vec或Glove等工具对语料进行无监督训练得到的低维稠密向量,包含了单词的语义信息;通过BiLSTM神经网络或卷积神经网络(CNN)学习到的字符表示能有效包含英文的形态学信息,如单词的前缀或后缀。但基于BiLSTM-CNNs-CRF的深度学习模型对中文命名实体识别则面临着新的困难,一个有意义的词可能由几个字组成,对应英文一个词的概念,如果也采用相同的方法将一个词作为整体考虑,每个词的输入由词的词嵌入和基于字的表示连接而成,中文的文本就需要首先分词,这会受到当前分词器的错误的影响,造成错误传递,影响实体识别的性能。而且特定领域的不少实体词都有特殊的含义或由生僻字组成,比如,医疗文本中,治疗类别的药物名词,这些词分词出错的概率更大,也难以找到相应预训练的词嵌入表示。所以,中文特定领域的命名实体识别任务需要构建特定的神经网络模型。
利用自训练的方法提高基于深度学习的中文命名实体识别模型的性能,会遇到几个问题:(1)对于特定领域的中文命名实体识别任务,适用于英文语料的基于BiLSTM-CNNs-CRF的模型会受限于中文分词错误的影响,也不能很好地适应特定领域中文含有更多歧义词和生僻字的特点,影响模型表现;(2)深度学习模型最后一层使用条件随机场CRF的方法,它将综合一个序列各个标签可能出现的概率,挑选出最优的标签序列,而给出一个序列的一个置信值;但是一般自训练的方法需要对序列中每个字都判断其标签的置信值,因此不能直接应用到CRF作为输出层的实体识别模型上。如何利用深度学习的标注模型来判断其标注结果的置信度是利用无标注数据的半监督方法的关键,要求是尽量筛除学习器判断出错的部分,只选用高置信度的标注样本加入训练集来提高原模型;(3)在得到序列中每个字的置信值时,如何筛除不可信的命名实体标签,挑选出只包含高置信值实体词且句子结构完整的句子样本加入到原训练集,是半监督方法的重要一步。
发明内容
本发明针对现有中文命名实体识别方法对特定领域中中文文本命名实体识别准确率不高的问题,提供一种基于深度学习的半监督中文命名实体识别方法,提高命名实体识别的准确率和召回率。
具体技术方案如下:
第一步,构建基于字符的深度学习命名实体识别模型,方法是:利用特定领域的大量文本语料训练字向量,在BiLSTM-CRF的深度学习框架上抽取出命名实体及其类型;
第二步,设计打分器,利用有标注数据训练学习器和打分器,训练好的打分器可用于筛选出学习器给未标注数据自动标注的高可信样本;打分器是对学习器标注的结果进行二分类判断的机器学习模型,二分类即可信标签和噪音标签,其中可信标签是学习器打出的高置信度的标签;噪音标签是学习器打出的可能出错的标签;利用第一步深度学习命名实体识别模型中,BiLSTM学习到的每个字的最优特征经过全连接层的映射后的向量表示作为打分器输入,使用Softmax函数计算每个字的预测标签的置信值,统计所有的置信值找到一个阈值,大于阈值的作为可信标签,小于阈值的作为噪音标签;
第三步,设计半监督学习框架,利用无标注数据实现半监督中文命名实体识别;利用无标注数据自动构造可信样本到训练集中,从学习器标注的结果中,利用打分器筛除掉含有命名实体噪音标签的子句,同时尽量保留连续的子句,生成新的训练数据。
作为本发明技术方案的进一步改进,所述第一步基于字符的深度学习命名实体识别模型构建过程如下:
1.1对于特定领域的中文文本命名实体识别任务,首先将该领域的语料预处理,去除特殊符号和标点,用Word2vec或Glove等方法训练得到每个字的分布式表达;
1.2使用深度学习框架构造基于字符的深度学习命名实体识别模型;利用有标注的数据训练模型,有标注的数据是一个个中文句子及相应的用BIO或BIOES标签策略标注的标签;模型结构如下:
1.2.1使用嵌入层(Embedding)导入预训练的字向量,将输入的句子匹配到一个分布式向量的序列上。形式化地,用x={x1,…,xi,…,xn}表示一个输入序列,其中,xi是用d维向量表示的第i个字,表示实数,1≤i≤n,n是句子长度,i为整数;
1.2.2使用BiLSTM的神经网络学习输入序列的长距离语义依赖。两层LSTM神经网络,通过从两个相反的方向处理输入序列x,学习到每个字上下文依赖的表示。每个LSTM将前一个时间步的隐藏状态和当前时间步的输入向量一起作为输入,得到当前时间步的隐藏状态:同理反方向可得:为了获得每个字在整个句子上的特定上下文表示,将两个方向的隐藏状态表示连接起来: 从而学习到输入层的最优特征表示h={h1,…,hn},其中m为LSTM神经元的个数;
1.2.3使用全连接层将序列中每个字的维度映射到标签类别数的维度上,以表示每种标签类别的权重;记s是输出的标签的类别数;全连接层将1.2.2得到的最优特征表示h={h1,…,hn}通过公式z=h·U+b进行变换,其中是模型可训练的参数,“·”为矩阵乘操作符;
1.2.4使用CRF层学习输出的序列标签之间的依赖,得到最后输出的序列标签。CRF能考虑两个临近的标签之间的关联,并计算整个输入句子的所有可能标签序列,选出最优的预测序列。
1.3利用已知标注y={y1,…,yn}和预测结果的误差,其中,yi为字xi的标签;通过随机梯度下降和反向传播算法不断地优化神经网络的参数,损失函数的值不再下降时迭代停止,得到最优的神经网络参数。
作为本发明技术方案的进一步改进,所述第二步打分器训练具体流程如下:
2.1利用第一步构建的神经网络模型作为学习器,用有标注数据训练网络的参数,得到训练好的学习器;
2.2将学习器中全连接层输出的每个字的向量表示,和每个字的预测标签作为打分器的输入特征;根据学习器预测的结果和真实的标签对比,学习器预测正确的标签为负样本,预测错误的标签为正样本,正样本远少于负样本,得到学习器预测的结果是否正确的二分类标签,作为打分器的标注信息;
2.3利用2.2得到的有标注信息的训练数据,训练出二分类机器学习模型的打分器。
所述第三步,设计半监督学习框架,利用无标注数据实现半监督中文命名实体识别,具体流程如下:
3.1用训练好的学习器给未标注数据自动打上标签;
3.2用打分器对自动标注的标签计算置信值,同时挑选出可信样本;这里挑选新的标注样本的策略是:已知句子中每个字的标签和可信判断;如果句子中每个字的标签都是可信的,则该句子是可信的;如果句子中含有噪音标签,查找该句子中是否存在短句或子句,用逗号隔开的是子句;如果没有子句,该句子为不可信的样本,被过滤掉;如果有子句,则将含有噪音标签的子句去除,剩余连续的没有噪音标签的子句合并为一个句子样本,否则被有噪音标签子句隔开的单个子句为一个句子样本;最后过滤掉没有命名实体的可信样本;
3.3将新标注的可信样本加入原标注数据,重新训练学习器;判断模型在测试集上的表现是否提升,如果不再提升,或没有新的未标注数据,训练结束;如果有提升,用新的未标注数据继续训练模型,跳转至步骤3.1。
作为本发明技术方案的进一步改进,采用softmax函数计算步骤2.3所述打分器的置信值,具体实现如下:
2.3.1计算学习器每个预测标签的置信值;利用1.2.3中全连接层输出的矩阵z,对每个字的中间向量表示若学习器预测的标签为yi′=j,j∈[1,s],那该标签的置信值为:
2.3.2计算阈值:根据对有标注数据计算的置信值,计算出打分器ROC曲线的召回率,根据任务选择适当的阈值。
与现有技术相比,本发明的有益效果是:
1.本发明第一步构建的基于字符的深度学习命名实体识别模型核心思想是利用特定领域的大量文本语料训练字向量,在BiLSTM-CRF的深度学习框架上抽取出命名实体及其类型,这种模型可以有效避免中文分词错误的影响,进而提高命名实体的识别准确度;
2.本发明第二步设计的打分器,利用有标注数据训练学习器和打分器,训练好的打分器可用于筛选出学习器给未标注数据自动标注的高可信样本,从而减少加入到训练样本中的噪音,保证训练集标签的准确性,进而提高命名实体的识别准确度;
3.本发明第三步设计半监督学习框架,利用无标注数据实现半监督中文命名实体识别;利用无标注数据自动构造可信样本到训练集中,以此有效提高命名实体识别模型的性能;从学习器标注的结果中,筛除掉含有噪音标签的命名实体的子句,尽可能保留原句子的完整性;因此,本发明可以保证新增样本的语义完整,而且尽可能多的保留了学习器标注的高置信度的命名实体。
附图说明
图1为本发明整体流程图
图2为第一步基于字符的BiLSTM-CRF深度学习命名实体识别模型框架图;
图3为本发明第二步利用有标注数据训练学习器和打分器的流程图;
图4为本发明第三步利用无标注数据实现半监督中文命名实体识别的流程图。
具体实施方式
为了使本申请中的技术方案被更好地理解,下面将结合本申请实施例中的附图和具体实施方式,对本申请进行清楚、详细的描述。
基于深度学习的半监督中文命名实体识别方法中,包含学习器和打分器两个功能部件。
●学习器是用于命名实体识别的监督学习模型;本发明采用基于深度学习的神经网络模型,通过构建具有多层神经网络的模型,可以学习出更有效的特征表示。
●打分器是对学习器标注的结果进行二分类(即可信标签和噪音标签)判断的机器学习模型,其中可信标签指的是学习器打出的高置信度的标签,假设跟人工标注结果一样可靠,可以用作学习器的训练样本。噪音标签是指学习器打出的可能出错的标签,这一类标注结果不能用于学习器的训练。
基于深度学习的半监督中文命名实体识别方法,包括以下步骤:
第一步,构建基于字符的深度学习命名实体识别模型。方法是:利用特定领域的大量文本语料训练字向量,在BiLSTM-CRF的深度学习框架上抽取出命名实体及其类型。基于字符的深度学习命名实体识别模型构建过程如下:
1.1对于特定领域的中文文本命名实体识别任务,首先将该领域的语料预处理,去除特殊符号和标点,用Word2vec或Glove等方法训练得到每个字的分布式表达;
1.2使用深度学习框架构造基于字符的深度学习命名实体识别模型。利用有标注的数据训练模型,有标注的数据是一个个中文句子及相应的用BIO或BIOES标签策略标注的标签。如BIO标注的医疗文本:
根据标注结果,可以容易找到命名实体及类型,右髋部是身体部位(BOD),疼痛是症状和体征(SYM)。模型结构如下:
1.2.1使用Embedding层导入预训练的字向量,将输入的句子匹配到一个分布式向量的序列上。形式化地,用x={x1,…,xi,…,xn}表示一个一般的输入序列,其中,xi是用d维向量表示的第i个字,表示实数,n是句子长度;
1.2.2使用BiLSTM的神经网络学习输入序列的长距离语义依赖。两层LSTM神经网络,通过从两个相反的方向处理这个句子,可以对每个字学习到上下文依赖的表示。每个LSTM将前一个时间步的隐藏状态和当前时间步的输入向量一起作为输入,得到当前时间步的隐藏状态:同理反方向可得:为了获得每个字在整个句子上的特定上下文表示,将两个方向的隐藏状态表示连接起来:从而学习到输入层的最优特征表示h={h1,…,hn},其中m为LSTM神经元的个数;
1.2.3使用全连接层将序列中每个字的维度映射到标签类别数的维度上,以表示每种标签类别的权重。记s是输出的标签的类别数;全连接层将1.2.2得到的最优特征表示h={h1,…,hn}通过公式z=h·U+b进行变换,其中是模型可训练的参数,“·”为矩阵乘操作符。
1.2.4使用CRF层学习输出的序列标签之间的依赖,得到最后输出的序列标签。如I-PERSON标签只应该出现在B-PERSON标签的后面,而I-LOCATION不可能出现在B-PERSON标签的后面。
1.3利用已知标注y={y1,…,yn}和预测结果的误差,通过随机梯度下降和反向传播算法不断地优化神经网络的参数,损失函数的值不再下降时迭代停止,得到最优的神经网络参数。
第二步,设计打分器,利用有标注数据训练学习器和打分器,筛选出学习器自动标注的高可信样本。利用第一步深度学习命名实体识别模型中,BiLSTM学习到的每个字的最优特征经过全连接层的映射后的向量表示作为打分器输入,使用Softmax函数计算每个字自动标签的置信值,统计所有的置信值找到一个阈值,大于阈值的作为可信标签,小于阈值的作为噪音标签。通过打分器的筛选,进一步提高学习器自动标注的未标注数据的准确率,有利于在下一步半监督学习框架中取得更好的效果。具体流程如下:
2.1利用第一步构建的神经网络模型作为学习器,用有标注数据训练网络的参数,得到训练好的学习器,使用训练好的模型给未标注的数据打标签时,该命名实体识别(NER)学习器的参数就是固定的,训练好的学习器就可以自动识别出文本中的命名实体;
2.2将学习器中全连接层输出的每个字的向量表示,和每个字的预测标签作为打分器的输入特征。根据学习器预测的结果和真实的标签对比,学习器预测正确的标签为负样本,预测错误的为正样本,正样本远少于负样本,得到学习器预测的结果是否正确的二分类标签,作为打分器的标注信息;
2.3利用2.2得到的有标注信息的训练数据,训练出一个打分器。打分器可以是任一分类的机器学习模型,由于打分器面临的是正负样本不平衡的数据,且为了尽可能挑出正样本,要求打分器的召回率要高。经过实践,本发明选择了一种简单的用softmax函数计算置信值的打分器,具体实现如下:
2.3.1计算学习器每个预测标签的置信值。利用1.2.3中全连接层输出的矩阵z,对每个字的中间向量表示若学习器预测的标签为yi′=j,j∈[1,s],那该标签的置信值为:
2.3.2计算阈值。根据对有标注数据计算的置信值,再计算出打分器ROC曲线(Receiver Operating Characteristic curve,接收者操作特征曲线)的tpr(Truepositive rate,真阳性率)值,即召回率;根据任务选择适当的阈值。如,对中文医疗命名实体识别任务,当tpr值在0.9左右时的阈值,能有效过滤掉大部分噪音标签,且抽取出适量的高可信样本。
第三步,设计半监督学习框架,利用无标注数据实现半监督中文命名实体识别;利用无标注数据自动构造可信样本到训练集中,以此提高命名实体识别模型的性能。从学习器标注的结果中,利用打分器筛除掉含有命名实体噪音标签的子句,同时尽可能保留连续的子句,生成新的训练数据。具体流程如下:
3.1用训练好的学习器给未标注数据自动打上标签;
3.2用打分器对自动标注的标签计算置信值,同时挑选出可信样本。这里挑选新的标注样本的策略是:已知句子中每个字的标签和可信判断。如果句子中每个字的标签都是可信的,则该句子是可信的。如果句子中含有噪音标签,查找该句子中是否存在短句或子句,用逗号隔开的是子句;如果没有子句,该句子为不可信的样本,被过滤掉;如果有子句,则将含有噪音标签的子句去除,剩余连续的没有噪音标签的子句合并为一个句子样本,否则被有噪音标签子句隔开的单个子句为一个句子样本。最后过滤掉没有命名实体的可信样本。
3.3将新标注的可信样本加入原标注数据,重新训练学习器。判断模型在测试集上的表现是否提升,如果不再提升,或没有新的未标注数据,训练结束;如果有提升,用新的未标注数据继续训练模型,跳转至步骤3.1。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.基于深度学习的半监督中文命名实体识别方法,其特征在于,包括以下步骤:
第一步,构建基于字符的深度学习命名实体识别模型,方法是:利用特定领域的大量文本语料训练字向量,在BiLSTM-CRF的深度学习框架上抽取出命名实体及其类型;
第二步,设计打分器,利用有标注数据训练学习器和打分器;打分器是对学习器标注的结果进行二分类判断的机器学习模型,二分类即可信标签和噪音标签,其中可信标签是学习器打出的高置信度的标签;噪音标签是学习器打出的可能出错的标签;利用第一步深度学习命名实体识别模型中,BiLSTM学习到的每个字的最优特征经过全连接层的映射后的向量表示作为打分器输入,计算每个字的预测标签的置信值,统计所有的置信值找到一个阈值,大于阈值的作为可信标签,小于阈值的作为噪音标签;
第三步,设计半监督学习框架,利用无标注数据实现半监督中文命名实体识别;利用无标注数据自动构造可信样本到训练集中,从学习器标注的结果中,利用打分器筛除掉含有命名实体噪音标签的子句,同时尽量保留连续的子句,生成新的训练数据。
2.如权利要求1所述的基于深度学习的半监督中文命名实体识别方法,其特征在于,所述第一步基于字符的深度学习命名实体识别模型构建过程如下:
1.1对于特定领域的中文文本命名实体识别任务,首先将该领域的语料预处理,去除特殊符号和标点,训练得到每个字的分布式表达;
1.2使用深度学习框架构造基于字符的深度学习命名实体识别模型;利用有标注的数据训练模型;模型结构如下:
1.2.1使用嵌入层导入预训练的字向量,将输入的句子匹配到一个分布式向量的序列上;形式化地,用x={x1,…,xi,…,xn}表示一个输入序列,其中,xi是用d维向量表示的第i个字, 表示实数,1≤i≤n,n是句子长度,i为整数;
1.2.2使用BiLSTM的神经网络学习输入序列的长距离语义依赖;两层LSTM神经网络,通过从两个相反的方向处理输入序列x,学习到每个字上下文依赖的表示;每个LSTM将前一个时间步的隐藏状态和当前时间步的输入向量一起作为输入,得到当前时间步的隐藏状态:同理反方向可得:为了获得每个字在整个句子上的特定上下文表示,将两个方向的隐藏状态表示连接起来: 从而学习到输入层的最优特征表示h={h1,…,hn},其中m为LSTM神经元的个数;
1.2.3使用全连接层将序列中每个字的维度映射到标签类别数的维度上,以表示每种标签类别的权重;记s是输出的标签的类别数;全连接层将1.2.2得到的最优特征表示h={h1,…,hn}通过公式z=h·U+b进行变换,其中是模型可训练的参数,“·”为矩阵乘操作符;
1.2.4使用CRF层学习输出的序列标签之间的依赖,得到最后输出的序列标签;CRF能考虑两个临近的标签之间的关联,并计算整个输入句子的所有可能标签序列,选出最优的预测序列;
1.3利用已知标注y={y1,…,yn}和预测结果的误差,其中,yi为字xi的标签;通过随机梯度下降和反向传播算法不断地优化神经网络的参数,损失函数的值不再下降时迭代停止,得到最优的神经网络参数。
3.如权利要求1所述的基于深度学习的半监督中文命名实体识别方法,其特征在于,所述第二步打分器训练具体流程如下:
2.1利用第一步构建的神经网络模型作为学习器,用有标注数据训练网络的参数,得到训练好的学习器;
2.2将学习器中全连接层输出的每个字的向量表示,和每个字的预测标签作为打分器的输入特征;根据学习器预测的结果和真实的标签对比,学习器预测正确的标签为负样本,预测错误的标签为正样本,正样本远少于负样本,得到二分类标签,作为打分器的标注信息;
2.3利用2.2得到的有标注信息的训练数据,训练出二分类机器学习模型的打分器。
4.如权利要求1所述的基于深度学习的半监督中文命名实体识别方法,其特征在于,所述第三步,设计半监督学习框架,利用无标注数据实现半监督中文命名实体识别,具体流程如下:
3.1用训练好的学习器给未标注数据自动打上标签;
3.2用打分器对自动标注的标签计算置信值,同时挑选出可信样本;所述挑选可信样本作为新的标注样本的策略是:已知句子中每个字的标签和可信判断;如果句子中每个字的标签都是可信的,则该句子是可信的;如果句子中含有噪音标签,查找该句子中是否存在短句或子句,用逗号隔开的是子句;如果没有子句,该句子为不可信的样本,被过滤掉;如果有子句,则将含有噪音标签的子句去除,剩余连续的没有噪音标签的子句合并为一个句子样本,否则被有噪音标签子句隔开的单个子句为一个句子样本;最后过滤掉没有命名实体的可信样本;
3.3将新标注的可信样本加入原标注数据,重新训练学习器;判断模型在测试集上的表现是否提升,如果不再提升,或没有新的未标注数据,训练结束;如果有提升,用新的未标注数据继续训练模型,跳转至步骤3.1。
5.如权利要求3所述的基于深度学习的半监督中文命名实体识别方法,其特征在于,采用softmax函数计算步骤2.3所述打分器的置信值,具体实现如下:
2.3.1计算学习器每个预测标签的置信值;利用1.2.3中全连接层输出的矩阵z,对每个字的中间向量表示若学习器预测的标签为y′i=j,j∈[1,s],那该标签的置信值为:
2.3.2计算阈值:根据对有标注数据计算的置信值,计算出打分器接收者操作特征曲线的召回率,根据任务选择适当的阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810686249.0A CN108959252B (zh) | 2018-06-28 | 2018-06-28 | 基于深度学习的半监督中文命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810686249.0A CN108959252B (zh) | 2018-06-28 | 2018-06-28 | 基于深度学习的半监督中文命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959252A true CN108959252A (zh) | 2018-12-07 |
CN108959252B CN108959252B (zh) | 2022-02-08 |
Family
ID=64487377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810686249.0A Active CN108959252B (zh) | 2018-06-28 | 2018-06-28 | 基于深度学习的半监督中文命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959252B (zh) |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670494A (zh) * | 2018-12-13 | 2019-04-23 | 深源恒际科技有限公司 | 一种附带识别置信度的文本检测方法及系统 |
CN109726299A (zh) * | 2018-12-19 | 2019-05-07 | 中国科学院重庆绿色智能技术研究院 | 一种不完备专利自动标引方法 |
CN109740149A (zh) * | 2018-12-11 | 2019-05-10 | 英大传媒投资集团有限公司 | 一种基于远程监督的同义词提取方法 |
CN109885827A (zh) * | 2019-01-08 | 2019-06-14 | 北京捷通华声科技股份有限公司 | 一种基于深度学习的命名实体的识别方法和系统 |
CN109933784A (zh) * | 2019-01-31 | 2019-06-25 | 北京明略软件系统有限公司 | 一种文本识别方法和装置 |
CN109960728A (zh) * | 2019-03-11 | 2019-07-02 | 北京市科学技术情报研究所(北京市科学技术信息中心) | 一种开放域会议信息命名实体识别方法及系统 |
CN110032634A (zh) * | 2019-04-17 | 2019-07-19 | 北京理工大学 | 一种基于多类型深度特征的中文命名实体识别方法 |
CN110110042A (zh) * | 2019-03-21 | 2019-08-09 | 昆明理工大学 | 基于cnn+blstm+crf的老挝语复杂人名地名实体识别方法 |
CN110222186A (zh) * | 2019-06-13 | 2019-09-10 | 出门问问信息科技有限公司 | 叠字类问题处理方法、处理装置、设备及存储介质 |
CN110287481A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN110298036A (zh) * | 2019-06-06 | 2019-10-01 | 昆明理工大学 | 一种基于词性增量迭代的在线医疗文本症状识别方法 |
CN110297913A (zh) * | 2019-06-12 | 2019-10-01 | 中电科大数据研究院有限公司 | 一种电子公文实体抽取方法 |
CN110309305A (zh) * | 2019-06-14 | 2019-10-08 | 中国电子科技集团公司第二十八研究所 | 基于多任务联合训练的机器阅读理解方法及计算机存储介质 |
CN110688449A (zh) * | 2019-09-20 | 2020-01-14 | 京东数字科技控股有限公司 | 基于深度学习的地址文本处理方法、装置、设备及介质 |
CN110705630A (zh) * | 2019-09-27 | 2020-01-17 | 聚时科技(上海)有限公司 | 半监督学习式目标检测神经网络训练方法、装置及应用 |
CN110738052A (zh) * | 2019-09-29 | 2020-01-31 | 中国中医科学院 | 一种基于特征字的半监督中医命名实体获取方法 |
CN111062215A (zh) * | 2019-12-10 | 2020-04-24 | 金蝶软件(中国)有限公司 | 基于半监督学习训练的命名实体识别方法和装置 |
CN111160031A (zh) * | 2019-12-13 | 2020-05-15 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN111209362A (zh) * | 2020-01-07 | 2020-05-29 | 苏州城方信息技术有限公司 | 基于深度学习的地址数据解析方法 |
CN111274821A (zh) * | 2020-02-25 | 2020-06-12 | 北京明略软件系统有限公司 | 一种命名实体识别数据标注质量评估方法及装置 |
CN111310459A (zh) * | 2018-12-11 | 2020-06-19 | 阿里巴巴集团控股有限公司 | 机器学习组件的训练方法及装置、中文分词方法及装置 |
CN111339760A (zh) * | 2018-12-18 | 2020-06-26 | 北京京东尚科信息技术有限公司 | 词法分析模型的训练方法、装置、电子设备、存储介质 |
EP3646245A4 (en) * | 2019-04-25 | 2020-07-01 | Alibaba Group Holding Limited | IDENTIFICATION OF INSTANCES IN ELECTRONIC MEDICAL FILES |
CN111460820A (zh) * | 2020-03-06 | 2020-07-28 | 中国科学院信息工程研究所 | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 |
CN111563208A (zh) * | 2019-01-29 | 2020-08-21 | 株式会社理光 | 一种意图识别的方法、装置及计算机可读存储介质 |
CN111651983A (zh) * | 2020-05-12 | 2020-09-11 | 哈尔滨工业大学 | 一种基于自训练与噪声模型的因果事件抽取方法 |
CN111651986A (zh) * | 2020-04-28 | 2020-09-11 | 银江股份有限公司 | 事件关键词提取方法、装置、设备及介质 |
CN111797629A (zh) * | 2020-06-23 | 2020-10-20 | 平安医疗健康管理股份有限公司 | 医疗文本数据的处理方法、装置、计算机设备和存储介质 |
CN111914555A (zh) * | 2019-05-09 | 2020-11-10 | 中国人民大学 | 基于Transformer结构的自动化关系抽取系统 |
CN112257441A (zh) * | 2020-09-15 | 2021-01-22 | 浙江大学 | 一种基于反事实生成的命名实体识别增强方法 |
CN112446335A (zh) * | 2020-12-02 | 2021-03-05 | 电子科技大学中山学院 | 一种基于深度学习的太赫兹违禁物品检测方法 |
CN112699682A (zh) * | 2020-12-11 | 2021-04-23 | 山东大学 | 一种基于可组合弱认证器的命名实体识别方法和装置 |
WO2021096571A1 (en) * | 2019-11-15 | 2021-05-20 | Intuit Inc. | Pre-trained contextual embedding models for named entity recognition and confidence prediction |
CN112989835A (zh) * | 2021-04-21 | 2021-06-18 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种复杂医疗实体抽取方法 |
CN113052217A (zh) * | 2021-03-15 | 2021-06-29 | 上海云从汇临人工智能科技有限公司 | 预测结果标识及其模型训练方法、装置及计算机存储介质 |
CN113111654A (zh) * | 2021-04-09 | 2021-07-13 | 杭州电子科技大学 | 一种基于分词工具共性信息和部分监督学习的分词方法 |
CN113204643A (zh) * | 2021-06-23 | 2021-08-03 | 北京明略软件系统有限公司 | 一种实体对齐方法、装置、设备及介质 |
CN113221575A (zh) * | 2021-05-28 | 2021-08-06 | 北京理工大学 | Pu强化学习的远程监督命名实体识别方法 |
CN113239257A (zh) * | 2021-06-07 | 2021-08-10 | 北京字跳网络技术有限公司 | 信息处理方法、装置、电子设备及存储介质 |
WO2021212612A1 (zh) * | 2020-04-23 | 2021-10-28 | 平安科技(深圳)有限公司 | 智能化文本纠错方法、装置、电子设备及可读存储介质 |
CN115440238A (zh) * | 2022-08-16 | 2022-12-06 | 广西壮族自治区通信产业服务有限公司技术服务分公司 | 一种语音自动标注数据中的噪音筛选方法及系统 |
WO2023065635A1 (zh) * | 2021-10-22 | 2023-04-27 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、存储介质及终端设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8321220B1 (en) * | 2005-11-30 | 2012-11-27 | At&T Intellectual Property Ii, L.P. | System and method of semi-supervised learning for spoken language understanding using semantic role labeling |
CN106294593A (zh) * | 2016-07-28 | 2017-01-04 | 浙江大学 | 结合从句级远程监督和半监督集成学习的关系抽取方法 |
CN106355628A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和系统 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106933804A (zh) * | 2017-03-10 | 2017-07-07 | 上海数眼科技发展有限公司 | 一种基于深度学习的结构化信息抽取方法 |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
US20170300565A1 (en) * | 2016-04-14 | 2017-10-19 | Xerox Corporation | System and method for entity extraction from semi-structured text documents |
CN107622050A (zh) * | 2017-09-14 | 2018-01-23 | 武汉烽火普天信息技术有限公司 | 基于Bi‑LSTM和CRF的文本序列标注系统及方法 |
-
2018
- 2018-06-28 CN CN201810686249.0A patent/CN108959252B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8321220B1 (en) * | 2005-11-30 | 2012-11-27 | At&T Intellectual Property Ii, L.P. | System and method of semi-supervised learning for spoken language understanding using semantic role labeling |
CN106355628A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和系统 |
US20170300565A1 (en) * | 2016-04-14 | 2017-10-19 | Xerox Corporation | System and method for entity extraction from semi-structured text documents |
CN106294593A (zh) * | 2016-07-28 | 2017-01-04 | 浙江大学 | 结合从句级远程监督和半监督集成学习的关系抽取方法 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106933804A (zh) * | 2017-03-10 | 2017-07-07 | 上海数眼科技发展有限公司 | 一种基于深度学习的结构化信息抽取方法 |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
CN107622050A (zh) * | 2017-09-14 | 2018-01-23 | 武汉烽火普天信息技术有限公司 | 基于Bi‑LSTM和CRF的文本序列标注系统及方法 |
Non-Patent Citations (6)
Title |
---|
DONGHUO ZENG 等: "LSTM-CRF for Drug-Named Entity Recognition", 《ENTROPY 2017》 * |
DONG-HYUN LEE: "Pseudo-Label:The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks", 《ICML 2013 WORKSHOP 》 * |
GUILLAUME LAMPLE 等: "Neural Architectures for Named Entity Recognition", 《PROCEEDINGS OF NAACL-HLT 2016》 * |
ZHIHENG HUANG 等: "Bidirectional LSTM-CRF Models for Sequence Tagging", 《ARXIV》 * |
冯钦林: "基于半监督和深度学习的生物实体关系抽取", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
秦颖 等: "Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF", 《JOURNAL OF SHANGHAI JIAOTONG UNIVERSITY(SCIENCE)》 * |
Cited By (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740149B (zh) * | 2018-12-11 | 2019-12-13 | 英大传媒投资集团有限公司 | 一种基于远程监督的同义词提取方法 |
CN109740149A (zh) * | 2018-12-11 | 2019-05-10 | 英大传媒投资集团有限公司 | 一种基于远程监督的同义词提取方法 |
CN111310459A (zh) * | 2018-12-11 | 2020-06-19 | 阿里巴巴集团控股有限公司 | 机器学习组件的训练方法及装置、中文分词方法及装置 |
CN111310459B (zh) * | 2018-12-11 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 机器学习组件的训练方法及装置、中文分词方法及装置 |
CN109670494B (zh) * | 2018-12-13 | 2023-09-01 | 北京深智恒际科技有限公司 | 一种附带识别置信度的文本检测方法及系统 |
CN109670494A (zh) * | 2018-12-13 | 2019-04-23 | 深源恒际科技有限公司 | 一种附带识别置信度的文本检测方法及系统 |
CN111339760A (zh) * | 2018-12-18 | 2020-06-26 | 北京京东尚科信息技术有限公司 | 词法分析模型的训练方法、装置、电子设备、存储介质 |
CN109726299A (zh) * | 2018-12-19 | 2019-05-07 | 中国科学院重庆绿色智能技术研究院 | 一种不完备专利自动标引方法 |
CN109726299B (zh) * | 2018-12-19 | 2023-03-17 | 中国科学院重庆绿色智能技术研究院 | 一种不完备专利自动标引方法 |
CN109885827A (zh) * | 2019-01-08 | 2019-06-14 | 北京捷通华声科技股份有限公司 | 一种基于深度学习的命名实体的识别方法和系统 |
CN109885827B (zh) * | 2019-01-08 | 2023-10-27 | 北京捷通华声科技股份有限公司 | 一种基于深度学习的命名实体的识别方法和系统 |
US11468233B2 (en) * | 2019-01-29 | 2022-10-11 | Ricoh Company, Ltd. | Intention identification method, intention identification apparatus, and computer-readable recording medium |
CN111563208A (zh) * | 2019-01-29 | 2020-08-21 | 株式会社理光 | 一种意图识别的方法、装置及计算机可读存储介质 |
CN109933784A (zh) * | 2019-01-31 | 2019-06-25 | 北京明略软件系统有限公司 | 一种文本识别方法和装置 |
CN109933784B (zh) * | 2019-01-31 | 2022-12-20 | 北京明略软件系统有限公司 | 一种文本识别方法和装置 |
CN109960728A (zh) * | 2019-03-11 | 2019-07-02 | 北京市科学技术情报研究所(北京市科学技术信息中心) | 一种开放域会议信息命名实体识别方法及系统 |
CN109960728B (zh) * | 2019-03-11 | 2021-01-22 | 北京市科学技术情报研究所(北京市科学技术信息中心) | 一种开放域会议信息命名实体识别方法及系统 |
CN110110042A (zh) * | 2019-03-21 | 2019-08-09 | 昆明理工大学 | 基于cnn+blstm+crf的老挝语复杂人名地名实体识别方法 |
CN110032634A (zh) * | 2019-04-17 | 2019-07-19 | 北京理工大学 | 一种基于多类型深度特征的中文命名实体识别方法 |
US10740561B1 (en) | 2019-04-25 | 2020-08-11 | Alibaba Group Holding Limited | Identifying entities in electronic medical records |
EP3646245A4 (en) * | 2019-04-25 | 2020-07-01 | Alibaba Group Holding Limited | IDENTIFICATION OF INSTANCES IN ELECTRONIC MEDICAL FILES |
CN111914555B (zh) * | 2019-05-09 | 2022-08-23 | 中国人民大学 | 基于Transformer结构的自动化关系抽取系统 |
CN111914555A (zh) * | 2019-05-09 | 2020-11-10 | 中国人民大学 | 基于Transformer结构的自动化关系抽取系统 |
CN110287481A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN110287481B (zh) * | 2019-05-29 | 2022-06-14 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN110298036A (zh) * | 2019-06-06 | 2019-10-01 | 昆明理工大学 | 一种基于词性增量迭代的在线医疗文本症状识别方法 |
CN110298036B (zh) * | 2019-06-06 | 2022-07-22 | 昆明理工大学 | 一种基于词性增量迭代的在线医疗文本症状识别方法 |
CN110297913A (zh) * | 2019-06-12 | 2019-10-01 | 中电科大数据研究院有限公司 | 一种电子公文实体抽取方法 |
CN110222186A (zh) * | 2019-06-13 | 2019-09-10 | 出门问问信息科技有限公司 | 叠字类问题处理方法、处理装置、设备及存储介质 |
CN110309305B (zh) * | 2019-06-14 | 2021-05-11 | 中国电子科技集团公司第二十八研究所 | 基于多任务联合训练的机器阅读理解方法及计算机存储介质 |
CN110309305A (zh) * | 2019-06-14 | 2019-10-08 | 中国电子科技集团公司第二十八研究所 | 基于多任务联合训练的机器阅读理解方法及计算机存储介质 |
CN110688449A (zh) * | 2019-09-20 | 2020-01-14 | 京东数字科技控股有限公司 | 基于深度学习的地址文本处理方法、装置、设备及介质 |
CN110705630A (zh) * | 2019-09-27 | 2020-01-17 | 聚时科技(上海)有限公司 | 半监督学习式目标检测神经网络训练方法、装置及应用 |
CN110738052A (zh) * | 2019-09-29 | 2020-01-31 | 中国中医科学院 | 一种基于特征字的半监督中医命名实体获取方法 |
WO2021096571A1 (en) * | 2019-11-15 | 2021-05-20 | Intuit Inc. | Pre-trained contextual embedding models for named entity recognition and confidence prediction |
US11568143B2 (en) | 2019-11-15 | 2023-01-31 | Intuit Inc. | Pre-trained contextual embedding models for named entity recognition and confidence prediction |
CN111062215B (zh) * | 2019-12-10 | 2024-02-13 | 金蝶软件(中国)有限公司 | 基于半监督学习训练的命名实体识别方法和装置 |
CN111062215A (zh) * | 2019-12-10 | 2020-04-24 | 金蝶软件(中国)有限公司 | 基于半监督学习训练的命名实体识别方法和装置 |
CN111160031A (zh) * | 2019-12-13 | 2020-05-15 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN111209362A (zh) * | 2020-01-07 | 2020-05-29 | 苏州城方信息技术有限公司 | 基于深度学习的地址数据解析方法 |
CN111274821B (zh) * | 2020-02-25 | 2024-04-26 | 北京明略软件系统有限公司 | 一种命名实体识别数据标注质量评估方法及装置 |
CN111274821A (zh) * | 2020-02-25 | 2020-06-12 | 北京明略软件系统有限公司 | 一种命名实体识别数据标注质量评估方法及装置 |
CN111460820A (zh) * | 2020-03-06 | 2020-07-28 | 中国科学院信息工程研究所 | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 |
WO2021212612A1 (zh) * | 2020-04-23 | 2021-10-28 | 平安科技(深圳)有限公司 | 智能化文本纠错方法、装置、电子设备及可读存储介质 |
CN111651986A (zh) * | 2020-04-28 | 2020-09-11 | 银江股份有限公司 | 事件关键词提取方法、装置、设备及介质 |
CN111651986B (zh) * | 2020-04-28 | 2024-04-02 | 银江技术股份有限公司 | 事件关键词提取方法、装置、设备及介质 |
CN111651983B (zh) * | 2020-05-12 | 2021-06-18 | 哈尔滨工业大学 | 一种基于自训练与噪声模型的因果事件抽取方法 |
CN111651983A (zh) * | 2020-05-12 | 2020-09-11 | 哈尔滨工业大学 | 一种基于自训练与噪声模型的因果事件抽取方法 |
CN111797629A (zh) * | 2020-06-23 | 2020-10-20 | 平安医疗健康管理股份有限公司 | 医疗文本数据的处理方法、装置、计算机设备和存储介质 |
CN112257441A (zh) * | 2020-09-15 | 2021-01-22 | 浙江大学 | 一种基于反事实生成的命名实体识别增强方法 |
CN112257441B (zh) * | 2020-09-15 | 2024-04-05 | 浙江大学 | 一种基于反事实生成的命名实体识别增强方法 |
CN112446335A (zh) * | 2020-12-02 | 2021-03-05 | 电子科技大学中山学院 | 一种基于深度学习的太赫兹违禁物品检测方法 |
CN112699682A (zh) * | 2020-12-11 | 2021-04-23 | 山东大学 | 一种基于可组合弱认证器的命名实体识别方法和装置 |
CN113052217A (zh) * | 2021-03-15 | 2021-06-29 | 上海云从汇临人工智能科技有限公司 | 预测结果标识及其模型训练方法、装置及计算机存储介质 |
CN113111654A (zh) * | 2021-04-09 | 2021-07-13 | 杭州电子科技大学 | 一种基于分词工具共性信息和部分监督学习的分词方法 |
CN113111654B (zh) * | 2021-04-09 | 2022-03-08 | 杭州电子科技大学 | 一种基于分词工具共性信息和部分监督学习的分词方法 |
CN112989835A (zh) * | 2021-04-21 | 2021-06-18 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种复杂医疗实体抽取方法 |
CN113221575A (zh) * | 2021-05-28 | 2021-08-06 | 北京理工大学 | Pu强化学习的远程监督命名实体识别方法 |
CN113221575B (zh) * | 2021-05-28 | 2022-08-02 | 北京理工大学 | Pu强化学习的远程监督命名实体识别方法 |
CN113239257A (zh) * | 2021-06-07 | 2021-08-10 | 北京字跳网络技术有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN113204643A (zh) * | 2021-06-23 | 2021-08-03 | 北京明略软件系统有限公司 | 一种实体对齐方法、装置、设备及介质 |
WO2023065635A1 (zh) * | 2021-10-22 | 2023-04-27 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、存储介质及终端设备 |
CN115440238A (zh) * | 2022-08-16 | 2022-12-06 | 广西壮族自治区通信产业服务有限公司技术服务分公司 | 一种语音自动标注数据中的噪音筛选方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108959252B (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959252A (zh) | 基于深度学习的半监督中文命名实体识别方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN109902145A (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
CN110334213B (zh) | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN106844349B (zh) | 基于协同训练的垃圾评论识别方法 | |
CN109299262A (zh) | 一种融合多粒度信息的文本蕴含关系识别方法 | |
CN106383816B (zh) | 基于深度学习的中文少数民族地区地名的识别方法 | |
CN108984745A (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN109376242A (zh) | 基于循环神经网络变体和卷积神经网络的文本分类算法 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN106844741A (zh) | 一种面向特定领域的问题解答方法 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及系统 | |
CN107526799A (zh) | 一种基于深度学习的知识图谱构建方法 | |
CN109543722A (zh) | 一种基于情感分析模型的情感趋势预测方法 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN109885824A (zh) | 一种层次的中文命名实体识别方法、装置及可读存储介质 | |
CN109766544A (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN109840322A (zh) | 一种基于强化学习的完形填空型阅读理解分析模型及方法 | |
CN110879831A (zh) | 基于实体识别技术的中医药语句分词方法 | |
CN110555084A (zh) | 基于pcnn和多层注意力的远程监督关系分类方法 | |
CN109960728A (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN104573711B (zh) | 基于文本‑物体‑场景关系的物体和场景的图像理解方法 | |
CN110633365A (zh) | 一种基于词向量的层次多标签文本分类方法及系统 | |
CN111144119B (zh) | 一种改进知识迁移的实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |