CN110298044B - 一种实体关系识别方法 - Google Patents

一种实体关系识别方法 Download PDF

Info

Publication number
CN110298044B
CN110298044B CN201910615210.4A CN201910615210A CN110298044B CN 110298044 B CN110298044 B CN 110298044B CN 201910615210 A CN201910615210 A CN 201910615210A CN 110298044 B CN110298044 B CN 110298044B
Authority
CN
China
Prior art keywords
text
processed
speech
entity relationship
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910615210.4A
Other languages
English (en)
Other versions
CN110298044A (zh
Inventor
程良伦
曾广荣
曾广宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910615210.4A priority Critical patent/CN110298044B/zh
Publication of CN110298044A publication Critical patent/CN110298044A/zh
Application granted granted Critical
Publication of CN110298044B publication Critical patent/CN110298044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种实体关系识别方法包括:根据词性样本库对待处理文本进行词性筛选,得到预处理文本;对预处理文本进行词嵌入处理,得到待处理特征向量;采用已训练的双向LSTM网络对待处理特征向量进行识别,得到实体关系识别结果。通过词形样本库对待处理文本进行词性筛选得到预处理文本,后再对文本进行实体关系识别处理,而不是将获取到的待处理文本直接进行实体关系识别处理,避免了对大量无用的词语进行识别,提高了对长度较长的文本进行识别处理的效率。

Description

一种实体关系识别方法
技术领域
本申请涉及数据处理技术领域,特别涉及一种实体关系识别方法。
背景技术
在自然语言处理中,信息抽取能够快速、准确地从大型语料库中发现有价值的信息,提高自然语言处理的效率。
信息抽取包括概念抽取与关系抽取两方面,关系抽取的目标是自动识别相关三元组,该三元组由一对概念及其之间的关系构成。传统关系抽取方法通常采用基于手工标注语料的模式匹配方法,该方法在提取句子特征时依赖于命名实体识别的NLP系统,容易导致计算成本和额外传播错误增加;另外,手工标记特征非常耗时,而且由于不同训练数据集的覆盖率较低,因而导致通用性较差。
经典的实体关系抽取方法主要分为有监督、半监督、弱监督和无监督四类。有监督的实体关系抽取主要分为基于特征和基于核函数的方法。有监督方法需要手工标注大量的训练数据,浪费时间精力。因此基于半监督、弱监督和无监督的关系抽取方法来解决人工标注语料问题。从文本中抽取结构化数据、建立生物学知识库的过程中采用了弱监督机器学习思想。
但是,基于深度学习的有监督实体关系抽取方法当处理长度较长的文本,由于数据量较多,无关内容参杂,进行实体关系识别的效果不佳,且处理的效率较低,降低了硬件系统的性能利用率。
因此,如何提高对长度较长的文本进行实体关系识别时的效率和性能利用率,是本领域技术人员关注的重点问题。
发明内容
本申请的目的是提供一种实体关系识别方法,通过先将待处理的文本进行词性筛选,筛除不需要的词语降低减少文本中无关词语的数量,降低进行实体关系识别时的数据量提高数据处理的效率,以及利用率。
本申请提供一种实体关系识别方法,包括:
根据词性样本库对待处理文本进行词性筛选,得到预处理文本;
对所述预处理文本进行词嵌入处理,得到待处理特征向量;
采用已训练的双向LSTM网络对所述待处理特征向量进行识别,得到实体关系识别结果。
可选的,根据词性样本库对待处理文本进行词性筛选,得到预处理文本,包括:
根据所述词性样本库对所述待处理文本中的词语进行词性标注,得到多个已标注词语;
对所述多个已标注词语进行实体筛选,得到所述预处理文本。
可选的,根据所述词性样本库对所述待处理文本中的词语进行词性标注,得到多个已标注词语,包括:
判断所述待处理文本中的词语是否存在于所述词性样本库中;
若是,则根据所述词性样本库对该词语进行词性标注,得到已标注词语;
若否,则采用隐马尔可夫模型对该词语进行词性标注,得到已标注词语。
可选的,采用已训练的双向LSTM网络对所述待处理特征向量进行识别,得到实体关系识别结果,包括:
采用所述双向LSTM网络中的双向LSTM层对所述待处理特征向量进行处理,得到状态信息序列;
采用所述双向LSTM网络中的注意力层对所述状态信息序列进行加权变换,得到特征信息;
采用所述双向LSTM网络中的Softmax层对所述特征信息进行分类操作,得到所述实体关系识别结果。
本申请所提供的一种实体关系识别方法,包括:根据词性样本库对待处理文本进行词性筛选,得到预处理文本;对所述预处理文本进行词嵌入处理,得到待处理特征向量;采用已训练的双向LSTM网络对所述待处理特征向量进行识别,得到实体关系识别结果。
通过词形样本库对待处理文本进行词性筛选得到预处理文本,后再对文本进行实体关系识别处理,而不是将获取到的待处理文本直接进行实体关系识别处理,避免了对大量无用的词语进行识别,提高了对长度较长的文本进行识别处理的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的第一种实体关系识别方法的流程图;
图2为本申请实施例所提供的第二种实体关系识别方法的流程图。
具体实施方式
本申请的核心是提供一种实体关系识别方法,通过先将待处理的文本进行词性筛选,筛除不需要的词语降低减少文本中无关词语的数量,降低进行实体关系识别时的数据量提高数据处理的效率,以及利用率。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有技术中经典的实体关系抽取方法主要分为有监督、半监督、弱监督和无监督四类。有监督的实体关系抽取主要分为基于特征和基于核函数的方法。有监督方法需要手工标注大量的训练数据,浪费时间精力。因此基于半监督、弱监督和无监督的关系抽取方法来解决人工标注语料问题。从文本中抽取结构化数据、建立生物学知识库的过程中采用了弱监督机器学习思想。但是,基于深度学习的有监督实体关系抽取方法当处理长度较长的文本,由于数据量较多,无关内容参杂,进行实体关系识别的效果不佳,且处理的效率较低,降低了硬件系统的性能利用率。
因此,本申请提供一种实体关系识别方法,通过词形样本库对待处理文本进行词性筛选得到预处理文本,后再对文本进行实体关系识别处理,而不是将获取到的待处理文本直接进行实体关系识别处理,避免了对大量无用的词语进行识别,提高了对长度较长的文本进行识别处理的效率。
请参考图1,图1为本申请实施例所提供的第一种实体关系识别方法的流程图。
本实施例中,该方法可以包括:
S101,根据词性样本库对待处理文本进行词性筛选,得到预处理文本;
本步骤旨在根据词性样本库对待处理文本进行文本筛选,得到预处理文本。一般由于过长的文本中存在有与实体关系识别无关的词语,使得文本中的语句过长。不仅增加了实体关系识别过程中的数据处理量降低数据处理效率,由于无关词语的引入还降低了实体关系识别过程中的精度和准确性。
并且,一般与实体关系识别无关的词语大部分都是没有实际意义的,承担功能性的词汇。通过词性的差异就可以将文本中的无关词语进行筛选,因此,本步骤中根据词性样本库对待处理文本进行词性筛选,得到预处理文本,去除了无关词语的文本数据。
具体的,可以是先根据词性样本库对待处理文本中的词语进行词性标注,然后根据标注结果删除不用的词语。例如删除词性为形容词、副词、叹词、助词、连词、拟声词。最后得到的文本词语个数减少,利于进行实体关系识别处理,提高了性能利用率。
可以想到是的,本步骤中为了对待处理文本进行词性筛选,还需要先将该待处理文本进行分词处理。其中,进行的分词处理可以采用现有技术提供的任意一种分词处理方法,在此不做具体限定。
可选的,本步骤可以包括:
步骤一,根据词性样本库对待处理文本中的词语进行词性标注,得到多个已标注词语;
步骤二,对多个已标注词语进行实体筛选,得到预处理文本。
可见,本可选方案中,对待处理文本进行的词性筛选首先对待处理文本中的词语进行词性标注,当对每个词语进行词性标注后,根据每个词语对应的词性对该词语进行筛选判断。也就是判断该词语的词性是否符合需要保留的词性;若是,则处理下一个词语;若否,则删除该词语并继续处理下一个词语。
可选的,上一可选方案中的步骤一可以包括:
判断待处理文本中的词语是否存在于词性样本库中;
若是,则根据词性样本库对该词语进行词性标注,得到已标注词语;
若否,则采用隐马尔可夫模型对该词语进行词性标注,得到已标注词语。
可见,本可选方案主要是对上一可选方案中的词语标注方式做进一步说明。具体的,本可选方案中首先是判断该词语是否存在于词性样本库中,也就是说存在部分词语不在词性样本库中。当词语在词性样本库中时,即可通过词性样本库对该词语进行词性标注。当该词语不在词性样本库中时,则需要采用隐马尔可夫模型对该词语进行词性标注,也就是采用隐马尔可夫模型对该词语的词性进行识别,将识别结果对该词语进行标注,得到已标注词语。
其中,隐马尔可夫模型是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程,其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数作进一步的分析,例如模式识别。
S102,对预处理文本进行词嵌入处理,得到待处理特征向量;
在S101的基础上,本步骤旨在对预处理文本进行特征向量处理,得到对应的待处理特征向量。本步骤中为了保持特征向量提取的有效程度,采用用了词嵌入处理,对预处理文本进行处理。即对预处理文本进行词嵌入处理,得到待处理特征向量。
其中,词嵌入处理是自然语言处理中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。词嵌入的方法包括人工神经网络、对词语同现矩阵降维、概率模型以及单词所在上下文的显式表示等。在底层输入中,使用词嵌入来表示词组的方法极大提升了自然语言处理中语法分析器和文本情感分析等的效果。
具体的,本步骤中进行词嵌入处理的方式可以采用现有技术提供的任意一种词嵌入处理的方式,在此不做具体限定。
S103,采用已训练的双向LSTM网络对待处理特征向量进行识别,得到实体关系识别结果。
在S102的基础上,本步骤旨在采用已经训练好的双向LSTM网络对待处理特征向量进行识别处理,得到实体关系识别结果。特别的,本步骤中为了考虑到实体关系识别中的上下文信息,在双向LSTM网络中加入了注意力层。也就是,本步骤采用了基于注意力机制的双向LSTM网络进行识别处理。具体的,本步骤中的双向LSTM网络包括双向LSTM层、注意力层以及Softmax层。
其中,对双向LSTM网络添加的注意力层主要是对其中双向LSTM层提取的状态信息序列进行加权变换处理,突出其中的重要状态信息的贡献,有效提高模型演化关系抽取准确性。由于S101中已经将文本中的无关词语进行删除,解决了无关词语的词性对注意力层的干扰,使得注意力层更加关注存在实体关系的词语。可见,S101中不仅减少了无关词语对识别过程的性能影响,还使双向LSTM网络对实体关系的识别更加关注,提高了实体关系识别的精度和准确率。
进一步,可选的,本步骤可以包括:
步骤一,采用双向LSTM网络中的双向LSTM层对待处理特征向量进行处理,得到状态信息序列;
步骤二,采用双向LSTM网络中的注意力层对状态信息序列进行加权变换,得到特征信息;
步骤三,采用双向LSTM网络中的Softmax层对特征信息进行分类操作,得到实体关系识别结果。
可见,本可选方案中主要是对通过包含注意力层的网络进行说明。可以按照该可选方案所示的执行步骤对本可选方案提供的方法进行执行,在此不作赘述。
综上,本实施例通过词形样本库对待处理文本进行词性筛选得到预处理文本,后再对文本进行实体关系识别处理,而不是将获取到的待处理文本直接进行实体关系识别处理,避免了对大量无用的词语进行识别,提高了对长度较长的文本进行识别处理的效率。
以下通过另一实施例,对本申请提供的一种实体关系识别方法做进一步说明。
请参考图2,图2为本申请实施例所提供的第二种实体关系识别方法的流程图。
本实施例中,以对中文实体进行识别为例,该方法可以包括:
S201,词性标注筛选;
其中,词性标注的目的是对给定的句子,然后得出句子中每个词语的词性。为此,本文采用jieba(中文分词组件)工具对句子进行分词和初步词性标注,对于未登录的词,本文使用HMM(Hidden Markov Model)隐马尔可夫模型进行处理。
本步骤将句子词语个数为M的句子SM进行分词,得到词语的集合SM={W1,W2,W3,...,WM},然后对词语W1,W2,W3,……,WM进行词性标注,并从句子中剔除一些与实体关系抽取任务无关的词语,如形容词、副词、叹词、助词、连词、拟声词,使句子中词语的个数减少为N,得到词语的集合SN={W1,W2,W3,...,WN},使得在长文本中实体关系抽取的准确率得到提高。
S202,词嵌入;
其中,词嵌入是词语的分布式表示,可以将文本中的每个单词都映射到一个k维的向量。该步骤可以很好地捕捉关于词语的语义和句法信息。训练神经网络的一种常用方法是随机初始化所有参数,然后使用优化算法对其进行优化。而当使用词嵌入初始化神经网络时,它们可以收敛到更好的局部极小值。词嵌入同时也是在完全无监督的方式下进行学习的。
具体的,本步骤是将缩短后的句子SN使用词嵌入的方法,使每个词语映射到一个k维的向量
Figure BDA0002123705070000071
以作为神经网络的输入。
S203,基于注意力机制的双向LSTM网络;
为了充分考虑上下文信息,本步骤使用双向LSTM网络,该网络分为双向LSTM层、注意力层、Softmax层。
S2031,双向LSTM层;
本步骤以词嵌入后的k维向量
Figure BDA0002123705070000072
的每一个特征
Figure BDA0002123705070000073
都传入双向LSTM网络进行特征分析。LSTM模型在处理时序性问题时,可以充分利用整个文本序列的信息,包括各个词的相互关系,并将该种信息用于对每个词的处理。
双向LSTM网络包含多个LSTM单元,每个LSTM单元包含3种门结构:遗忘门(forgetgates),输入门(input gates)和输出门(output gates)以此来保持和更新状态信息并进行传递。
首先,通过遗忘门计算上一个前向单元传递的记忆信息
Figure BDA0002123705070000081
与丢弃的信息概率值ft,遗忘门的表达式如下:
Figure BDA0002123705070000082
其中,
Figure BDA0002123705070000083
是上一个前向LSTM单元的输出状态信息,xt是当前单元的输入,Wf和bf是网络训练得到的遗忘门的权重和偏置。
LSTM的输入门决定让多少新的信息加入到该单元状态中来。该操作包括两个步骤:首先,sigmoid层决定哪些信息需要更新,也就是需要提取的新的特征;其次,tanh层生成一个向量,也就是备选的用来更新的内容。然后通过结合这两部分信息,更新单元的状态。输入门的操作如下:
Figure BDA0002123705070000084
Figure BDA0002123705070000085
其中,it表示输入的需要更新的信息,
Figure BDA0002123705070000086
是用来更新的候选内容,Ct是更新之后的单元状态,Wi,Wc,bi,bc是输入门中的权重和偏置。当前的前向单元传递的记忆信息
Figure BDA0002123705070000087
是由上一个前向单元传递的记忆信息
Figure BDA0002123705070000088
与丢弃的信息概率值ft相乘,再加上新的候选值
Figure BDA0002123705070000089
如下式:
Figure BDA00021237050700000810
最后,LSTM的输出门确定要输出的信息。首先,运行一个sigmoid层来确定单元状态的哪个部分将输出出去。接着,将前向单元传递的记忆信息通过tanh进行处理,得到一个在-1到1之间的值,并将该值和sigmoid门的输出相乘,得到了第N个词
Figure BDA00021237050700000811
的前向传播特征信息
Figure BDA00021237050700000812
输出门的过程如下:
Figure BDA00021237050700000813
Figure BDA00021237050700000814
后向传播计算过程与前向传播相同,不同之处在于序列信息为从句子后部向前传播,这样得到后向传播信息
Figure BDA00021237050700000815
融合前向传播特征信息
Figure BDA00021237050700000816
与后向传播特征信息
Figure BDA00021237050700000817
获得第N个词
Figure BDA00021237050700000818
完整特征信息ht,公式表达如下:
Figure BDA00021237050700000819
S2032,注意力层;
注意力层对双向LSTM提取的状态信息序列进行加权变换,突出重要状态信息的贡献,有效提高模型演化关系抽取准确性。
注意力层的计算流程如下所示:
M=tanh(H)
α=softmax(wTM)
r=HαT
H*=tanh(r)
其中,H={h1,h2,h3…hn}表示一条句子所有词语状态信息集合,w为训练学习的参数向量;wT表示向量转置。
首先对状态信息集合H进行tanh操作并与wT相乘,再通过Softmax得到加权概率a为0-1,然后状态信息H与概率相乘完成状态信息的加权变换,最后将加权后的状态信息通过tanh操作得到的值在-1与1之间用于演化关系分类的句子特征H*
S2033,Softmax层;
网络结构的最后使用Softmax对注意力层中得到的句子表征H*进行分类操作。每一个句子表征经过Softmax生成四种类别概率,取有最大类别概率的类别为模型预测类别,该过程表示如下:
p(y|H*)=softmax(W·H*+b)
Figure BDA0002123705070000091
其中,p(y|H*)表示句子表征H*属于四种关系类别的概率;
Figure BDA0002123705070000092
为概率值最大的类别,此类别作为模型预测的演化关系类别。模型使用交叉熵损失作为分类问题目标函数,采用自适应学习率的随机梯度下降算法进行模型训练优化。
可见,本实施例提供了实体关系识别方法,可以通过词形样本库对待处理文本进行词性筛选得到预处理文本,后再对文本进行实体关系识别处理,而不是将获取到的待处理文本直接进行实体关系识别处理,避免了对大量无用的词语进行识别,提高了对长度较长的文本进行识别处理的效率。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种实体关系识别方法进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (2)

1.一种实体关系识别方法,其特征在于,包括:
根据词性样本库对待处理文本进行词性筛选,得到预处理文本;
对所述预处理文本进行词嵌入处理,得到待处理特征向量;
采用已训练的双向LSTM网络对所述待处理特征向量进行识别,得到实体关系识别结果;
其中,根据词性样本库对待处理文本进行词性筛选,得到预处理文本,包括:
根据所述词性样本库对所述待处理文本中的词语进行词性标注,得到多个已标注词语;
对所述多个已标注词语进行实体筛选,得到所述预处理文本;
其中,根据所述词性样本库对所述待处理文本中的词语进行词性标注,得到多个已标注词语,包括:
判断所述待处理文本中的词语是否存在于所述词性样本库中;
若是,则根据所述词性样本库对该词语进行词性标注,得到已标注词语;
若否,则采用隐马尔可夫模型对该词语进行词性标注,得到已标注词语。
2.根据权利要求1所述的实体关系识别方法,其特征在于,采用已训练的双向LSTM网络对所述待处理特征向量进行识别,得到实体关系识别结果,包括:
采用所述双向LSTM网络中的双向LSTM层对所述待处理特征向量进行处理,得到状态信息序列;
采用所述双向LSTM网络中的注意力层对所述状态信息序列进行加权变换,得到特征信息;
采用所述双向LSTM网络中的Softmax层对所述特征信息进行分类操作,得到所述实体关系识别结果。
CN201910615210.4A 2019-07-09 2019-07-09 一种实体关系识别方法 Active CN110298044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910615210.4A CN110298044B (zh) 2019-07-09 2019-07-09 一种实体关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910615210.4A CN110298044B (zh) 2019-07-09 2019-07-09 一种实体关系识别方法

Publications (2)

Publication Number Publication Date
CN110298044A CN110298044A (zh) 2019-10-01
CN110298044B true CN110298044B (zh) 2023-04-18

Family

ID=68030880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910615210.4A Active CN110298044B (zh) 2019-07-09 2019-07-09 一种实体关系识别方法

Country Status (1)

Country Link
CN (1) CN110298044B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274412A (zh) * 2020-01-22 2020-06-12 腾讯科技(深圳)有限公司 信息提取方法、信息提取模型训练方法、装置及存储介质
CN111291197B (zh) * 2020-03-02 2021-05-11 北京邮电大学 基于新词发现算法的知识库构建系统
CN111553157A (zh) * 2020-04-08 2020-08-18 南通大学 一种基于实体替换的对话意图识别方法
CN111859968A (zh) * 2020-06-15 2020-10-30 深圳航天科创实业有限公司 一种文本结构化方法、文本结构化装置及终端设备
CN112329440B (zh) * 2020-09-01 2023-07-25 浪潮云信息技术股份公司 一种基于两阶段筛选和分类的关系抽取方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109145294A (zh) * 2018-08-07 2019-01-04 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN109918647A (zh) * 2019-01-30 2019-06-21 中国科学院信息工程研究所 一种安全领域命名实体识别方法及神经网络模型

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2691214C1 (ru) * 2017-12-13 2019-06-11 Общество с ограниченной ответственностью "Аби Продакшн" Распознавание текста с использованием искусственного интеллекта

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109145294A (zh) * 2018-08-07 2019-01-04 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质
CN109918647A (zh) * 2019-01-30 2019-06-21 中国科学院信息工程研究所 一种安全领域命名实体识别方法及神经网络模型
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置

Also Published As

Publication number Publication date
CN110298044A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN110298044B (zh) 一种实体关系识别方法
CN110502749B (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN109960804B (zh) 一种题目文本句子向量生成方法及装置
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN112417894B (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN111062217A (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN114896971B (zh) 一种特定前后缀否定词识别方法、装置及存储介质
CN111753058A (zh) 一种文本观点挖掘方法及系统
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
Suyanto Synonyms-based augmentation to improve fake news detection using bidirectional LSTM
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN113239694B (zh) 一种基于论元短语的论元角色识别的方法
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
CN113780418A (zh) 一种数据的筛选方法、系统、设备和存储介质
Malik et al. Named Entity Recognition on Software Requirements Specification Documents.
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN115391534A (zh) 文本情感原因识别方法、系统、设备及存储介质
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN114548117A (zh) 一种基于bert语义增强的因果关系抽取方法
CN115983269A (zh) 一种智慧社区数据命名实体识别方法、终端及计算机介质
CN110569331A (zh) 一种基于上下文的关联性预测方法、装置及存储设备
CN110826332A (zh) 一种基于gp的中医药专利命名实体自动识别方法
CN117436457B (zh) 反讽识别方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant