CN110705292A - 一种基于知识库和深度学习的实体名称提取方法 - Google Patents

一种基于知识库和深度学习的实体名称提取方法 Download PDF

Info

Publication number
CN110705292A
CN110705292A CN201910780471.1A CN201910780471A CN110705292A CN 110705292 A CN110705292 A CN 110705292A CN 201910780471 A CN201910780471 A CN 201910780471A CN 110705292 A CN110705292 A CN 110705292A
Authority
CN
China
Prior art keywords
entity
word
matched
text
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910780471.1A
Other languages
English (en)
Other versions
CN110705292B (zh
Inventor
冯翱
陈郑淏
吴锡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhi Rui Tong Tuo Technology Co Ltd
Chengdu University of Information Technology
Original Assignee
Chengdu Zhi Rui Tong Tuo Technology Co Ltd
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhi Rui Tong Tuo Technology Co Ltd, Chengdu University of Information Technology filed Critical Chengdu Zhi Rui Tong Tuo Technology Co Ltd
Priority to CN201910780471.1A priority Critical patent/CN110705292B/zh
Publication of CN110705292A publication Critical patent/CN110705292A/zh
Application granted granted Critical
Publication of CN110705292B publication Critical patent/CN110705292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于知识库和深度学习的实体名称提取方法,包括获得对待匹配实体进行描述的文本,将描述文本、外部知识库及两者的结合作为训练词和实体嵌入的文本集;使用词嵌入工具得到各个词和实体的嵌入式表达。建立深度学习网络,将嵌入式表达和外部现有知识库的文本表达作为输入,输出词m对应待匹配实体的概率,采集训练数据输入到建立好的深度学习网络中对深度学习网络模型进行训练,对待匹配文本,通过计算词w和实体之间的余弦相似度得到多个匹配候选项,最后将词w和匹配候选项输入到深度学习网络中,得到匹配概率。本发明较现有技术,可以基本实现端到端的自动化匹配,具有更好的匹配准确度和效率。

Description

一种基于知识库和深度学习的实体名称提取方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于知识库和深度学习的实体名称提取方法。
背景技术
通常在新闻中提及某个实体时,描述文字与实体的标准名称会有一定相似性,某些时候使用标准名称的缩写,因此多数时候可以采用特定的相似度度量(如编辑距离等)去计算提及文字和实体名称之间的相似性,这是相对比较简单的情况。但某些情况下描述文字可能和多个不同实体对应,这就存在一个消除歧义的问题,经常需要用到上下文的语义,再结合备选实体本身的流行度进行可能性判断。最复杂的情况是文字提及和实体名称没有任何文字上的相似性,如我们经常在新闻中看到的“滴滴”,实际指代的企业主体名称为“北京小桔科技有限公司”,这需要有更多的上下文知识让二者关联起来。现有的技术方案主要包括:
方案一:在正文中仅使用实体全名进行精确匹配,只有实体名称的完整出现才作为新闻中的提及标注。该技术方案存在不足是当实体名称足够长时,完整匹配基本可以保证100%的准确率,但由于大多数情况下新闻中都不会出现完整的全名,这种方法的召回率极低。
方案二:采用手工标注,或者半自动生成加人工筛选的方式生成实体名称的常见简称,只要匹配完整名称或其中某个简称均视为对该实体的提及。该方案的缺点是召回率比第一种方法高,但生成简称的工作量极大,不管是采用手工或者半手工的方式。对于匹配简称的场景,不能保证100%的准确率,而且可能会出现多个类似实体有相同简称的情况。
方案三:使用外部知识库建立实体的文档模型,将正文中的每个词作为关键词对这些实体组成的文本集进行检索,使用基本的向量空间模型、概率模型、主题模型等,将最相似的实体作为匹配对象。相对前两种方法更灵活,根据使用信息检索模型的不同,匹配的准确率和召回率也不一样。但一般来说,这种方法还是只能解决提及文本和实体知识库中有较多的重复关键词的情况,而且不能保证在有多个备选实体前提下正确进行消歧。正文中的每个词都这样进行匹配的计算复杂度较高,而且不容易划分提及和不提及实体文本的界限。
如何提高实体的匹配准确率和效率成为自然语言处理领域亟需解决的问题。
发明内容
针对现有技术之不足,本发明提出一种基于深度学习的实体名称提取方法,其特征在于,所述方法包括:
步骤1:对于待匹配实体E,在至少一个外部现有知识库中或通过网络爬虫的方式获得至少一个对所述待匹配实体E进行描述的文本;
步骤2:从描述文本中标注出在所述外部现有知识库中已经识别为实体的名词构成实体列表,将所述描述文本、所述实体列表以及所述描述文本和所述实体列表的组合分别作为一种表示方式,所述表示方式作为训练词和实体嵌入的文本集;
步骤3:对所述文本集中非实体名词的其他自由文本,采用切词工具划分成单个词后,使用词嵌入工具进行训练,得到各个词和实体的嵌入式表达;
步骤4:建立深度学习网络,将从网络上获取的待匹配新闻文本和所述外部现有知识库的文本表达,再加上待匹配实体E的嵌入式表达作为其输入,输出所述待匹配新闻文本中某个位置的词m对应待匹配实体E的概率;
步骤5:采集训练数据,包括带标注的公开数据集和采用人工标注的新闻文本集,取至少300个(m,E1)对,包括至少100个匹配的正样本,至少100个是实体提及但不匹配的负样本,至少100个不是实体提及的负样本;
步骤6:将采集的训练数据输入到建立好的深度学习网络中进行训练,将其损失函数定义为交叉熵,使用随机梯度下降或Adam优化方法进行深度学习网络的训练,并设定神经网络训练的网络参数,得到训练好的深度学习模型;
步骤7:对于从网络上获取的未标注文本集,首先对所述未标注文本集采用切词工具进行切分后得到词w,并获得词w的嵌入表达,将所述词w与每个实体E的嵌入表达计算余弦相似度:
Figure BDA0002176419220000031
其中
Figure BDA0002176419220000033
分别为词w和实体E的嵌入向量表达,分子为两个同维度向量的内积,计算词w与每个实体E的相似度后,取至少6个相似度最高的(m,E)对作为匹配候选项,若最大相似度低于匹配阈值,则判定w不匹配任何实体,未标注文本集中的每一个词w都进行一轮匹配。
步骤8:将词w的上下文数据和步骤7得到的匹配候选项及其描述文本输入到步骤6训练好的深度学习网络中,计算得到概率值最大且超过匹配阈值的实体作为所述描述文本对应的实体。
根据一种优选的实施方式,步骤4建立深度学习网络的方法包括:
步骤41:对于所述单词m,分别取其左边长度c的连续窗口[wlc,wlc-1,…,wl2,wl1,m]和右边长度c的连续窗口[m,wr1,wr2,…,wrc-1,wrc],作为其正向上下文数据和逆向上下文数据;
步骤42:将所述正向上下文数据[wlc,wlc-1,…,wl2,wl1,m]输入一个采用长短时记忆单元的循环神经网络,序列长度为c+1,从左到右进行处理,词m作为最后一个输入,每个时间点的输出采用最大池化方法提取其显著特征;
步骤43:将所述逆向上下文数据[m,wr1,wr2,…,wrc-1,wrc]输入一个使用长短时记忆单元的循环神经网络,序列长度为c+1,从右到左进行处理,词m作为最后一个输入,每个时间点的输出采用最大池化方法提取其显著特征;
步骤44:取所述知识库中对于所述待匹配实体E的文本描述前n个词作为输入,输入一个采用长短时记忆单元的循环神经网络,序列长度为n,从左到右进行处理,每个时间点的输出采用最大池化方法提取其显著特征;
步骤45:将步骤44输出的显著特征和所述待匹配实体E在步骤3中训练得到的嵌入式表达连接,作为所述待匹配实体E的向量化表征;
步骤44的输出为一个向量,嵌入式表达也是一个向量,两个向量直接拼接在一起作为待匹配实体的向量化表征,比如一个30维向量和一个40维向量合并,得到一个70维向量。
步骤46:基于所述向量化表征在词m的正向上下文数据和逆向上下文数据中增加注意力机制,并生成一个和为1的注意力向量,分别在表示词m的正向上下文数据和逆向上下文数据中每个位置上的词与待匹配实体E的相关度,数值越大,相关度越高,以找到与所述待匹配实体E最相关的文字。
步骤47:将步骤42和步骤43输出的显著特征和步骤45输出的向量化表征进行连接,连接后输入多层全连接网络,最后用一个sigmoid函数输出所述词m对应所述待匹配实体E的概率。所述概率值在0-1之间;分值越大相关性越大。
本发明的有益效果在于:
1、本发明通过对外部实体知识库的合理利用,在统一的嵌入空间上建立了词和实体的嵌入向量,并采用双向LSTM网络、注意力机制结合的深度学习模型,有效利用新闻中的上下文和知识库中的实体描述信息,提高了实体名称提取的准确度。
2、本发明技术方案除了部分训练集标注的工作需要人工完成外,整个深度学习模型的训练、优化和标注可以实现端到端自动化完成,并能获得比传统方法更好的效果,尤其是对于文中描述和实体名称没有文字重叠的情况。
附图说明
图1是本发明技术方案的方法原理图;和
图2是建立深度学习网络的原理示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
下面结合附图进行详细说明。
本发明中的实体是指:企业名称、组织名称、个人名称、酒店名称、地名、企业名称等名称。
本发明中的召回率是指:在文本中出现的实体,被本方法正确找到的比例,英文名称recall,这是信息检索领域的标准评测指标
本发明中的外部现有知识库是指:Wikipedia、百度百科、WordNet、Freebase、YAGO2等。
基于现有技术存在的不足,本发明提出一种基于知识库和深度学习的实体名称提取方法,如图1所示,方法包括:
步骤1:对于待匹配实体,在至少一个外部现有知识库中获得至少一个对待匹配实体进行描述的文本;
步骤2:从描述文本中标注出在知识库中已经识别为实体的名词构成实体列表,将描述文本、实体列表以及描述文本和实体列表的组合分别作为一种表示方式,表示方式作为训练词和实体嵌入的文本集;
在Wikipedia文本中实体名词都带超链接,指向对应词条,带超链接的实体名词就是已经识别为实体的名词。
例如:在Wikipedia中关于滴滴的描述中某段文字可以分别以下面三种方式表示。
第一种:与Uber一样,滴滴快车与专车业务也涉嫌非法营运车辆。
第二种:[优步][滴滴快车][非法营运车辆]。
第三种:与[优步]一样,[滴滴快车]与专车业务也涉嫌[非法营运车辆]。
第一种为描述文本,第二种为实体列表,第三种为实体列表和描述文本的组合,[]内的词为实体名词,[]外的词为非实体名词。
嵌入表示方法是自然语言处理中对于文本的常见特征表示方式,需要用一定的文本集加以训练,以上三种表达方式都是用来建立训练集,并训练词和实体这两类文本的嵌入式表达,最终表示方式均为一个向量,如[滴滴快车]转化为[0.5,1.0,-0.3]这个实体嵌入,“公司”训练得到[-0.2,0.7,0.9]这个词嵌入
步骤3:对文本集中非实体名词的其他自由文本,采用切词工具划分成单个词后,使用词嵌入工具进行训练,得到各个词和实体的嵌入式表达;
词嵌入的生成可以使用多种模型,最常见的就是Word2Vec和GloVe。嵌入式表达具体为一个向量,向量维度取200。
步骤4:建立深度学习网络,将从网络上获取的待匹配新闻文本和外部现有知识库的文本表达,再加上待匹配实体的嵌入式表达作为其输入,输出待匹配新闻文本中某个位置的词m对应待匹配实体的概率;
待匹配文本为新的没有标注实体名称的新闻文本,训练完成之后,需要在待匹配文本中进行实体名称提取。词m为通过切词工具对待匹配文本进行切割得到的每个单词。
图2为建立深度学习网络的工作原理图,如图2所示,
步骤41:对于单词m,分别取其左边长度c的连续窗口[wlc,wlc-1,…,wl2,wl1,m]和右边长度c的连续窗口[m,wr1,wr2,…,wrc-1,wrc],作为其正向上下文数据和逆向上下文数据;
步骤42:将正向上下文数据[wlc,wlc-1,…,wl2,wl1,m]输入一个采用长短时记忆单元的循环神经网络,序列长度为c+1,从左到右进行处理,词m作为最后一个输入,每个时间点的输出采用最大池化方法提取其显著特征。优选的,长短时记忆单元数为200。
步骤43:将逆向上下文数据[m,wr1,wr2,…,wrc-1,wrc]输入一个使用长短时记忆单元的循环神经网络,序列长度为c+1,从右到左进行处理,词m作为最后一个输入,每个时间点的输出采用最大池化方法提取其显著特征;优选的,长短时记忆单元数为200。
步骤44:取知识库中对于待匹配实体E的文本描述前n个词作为输入,输入一个采用长短时记忆单元的循环神经网络,序列长度为n,从左到右进行处理,每个时间点的输出采用最大池化方法提取其显著特征;
最大池化方法就是在一组或一个序列数据中提取其中值最大者,这个最大值就是这组或这个序列中的最显著特征。
步骤45:将步骤44输出的显著特征和待匹配实体E在步骤3中训练得到的嵌入式表达连接,作为待匹配实体E的向量化表征;
步骤44的输出为一个向量,嵌入式表达也是一个向量,两个向量直接拼接在一起作为待匹配实体的向量化表征,比如一个30维向量和一个40维向量合并,得到一个70维向量。
步骤46:基于向量化表征在词m的正向上下文数据和逆向上下文数据中增加注意力机制,并生成一个和为1的注意力向量,分别在表示词m的正向上下文数据和逆向上下文数据中每个位置上的词与待匹配实体E的相关度,数字越大,相关度越高,以找到与待匹配实体E最相关的文字。
注意力机制是文本处理/机器翻译中的通用做法,是通过在训练集上进行优化的方式,找到这里词m的上下文中哪些位置的文字与待匹配实体E最相关。注意力向量的维度为2c+1。优选的,c取10.
注意力机制是LSTM(长短时记忆网络)中常用的方法,用于找到和待匹配实体最相关的文字部分。
步骤47:将步骤42和步骤43输出的显著特征和步骤45输出的向量化表征进行连接,连接后输入多层全连接网络,最后用一个sigmoid函数输出词m对应待匹配实体E的概率。概率值在0-1之间;分值越大相关性越大。
多层全连接网络的层数一般选为2-3层。
步骤5:采集训练数据,包括带标注的公开数据集和采用人工标注的新闻文本集,取至少300个(m,E1)对,包括至少100个匹配的正样本,至少100个是实体提及但不匹配的负样本,至少100个不是实体提及的负样本。其中,m指带标注样本中的词,E1指带标注样本中与m相应的实体,E1与m之间的关系为上面三种类型之一。
步骤6:将采集的训练数据输入到建立好的深度学习网络中训练深度学习网络,将其损失函数定义为交叉熵,使用随机梯度下降或Adam优化方法进行深度学习网络的训练,并设定神经网络训练的网络参数;
网络参数包括训练轮次、随机舍弃率等。训练轮次依据训练数据量的大小进行选择,训练轮次为5-10次。随机舍弃率是为了防止网络训练过拟合,随机舍弃一定比例的训练样本,可以提高网络参数的稳定性。一种具体的实施方式,舍弃率设置为0.5。
步骤7:对于未标注文本集,首先对未标注文本集采用切词工具进行切分后得到词w,并获得词w的嵌入表达,将词w与每个待匹配实体E的嵌入表达计算余弦相似度:
Figure BDA0002176419220000071
其中
Figure BDA0002176419220000072
分别为词w和待匹配实体E的嵌入向量表达,分子为两个同维度向量的内积,计算词w与每个待匹配实体E的相似度后,取至少6个相似度最高的(m,E)对作为匹配候选项,若最大相似度低于匹配阈值,则判定w不匹配任何实体。未标注文本集中的每一个词w都进行一轮匹配。未标注文本可以从网络上获取,也可以是现有的文本。
根据经验确定,初始值可设定为0.5。
步骤8:将词w的上下文数据和步骤7得到的匹配候选项及其描述文本输入到步骤6训练好的深度学习网络中,计算得到概率值最大且超过匹配阈值的实体作为描述文本对应的实体。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims (2)

1.一种基于知识库和深度学习的实体名称提取方法,其特征在于,所述方法包括:
步骤1:对于待匹配实体E,在至少一个外部现有知识库中或通过网络爬虫的方式获得至少一个对所述待匹配实体E进行描述的文本;
步骤2:从描述文本中标注出在所述外部现有知识库中已经识别为实体的名词构成实体列表,将所述描述文本、所述实体列表以及所述描述文本和所述实体列表的组合分别作为一种表示方式,所述表示方式作为训练词和实体嵌入的文本集;
步骤3:对所述文本集中非实体名词的其他自由文本,采用切词工具划分成单个词后,使用词嵌入工具进行训练,得到各个词和实体的嵌入式表达;
步骤4:建立深度学习网络,将从网络上获取的待匹配新闻文本和所述外部现有知识库的文本表达,再加上待匹配实体E的嵌入式表达作为其输入,输出所述待匹配新闻文本中某个位置的词m对应待匹配实体E的概率;
步骤5:采集训练数据,包括带标注的公开数据集和采用人工标注的新闻文本集,取至少300个(m,E1)对,包括至少100个匹配的正样本,至少100个是实体提及但不匹配的负样本,至少100个不是实体提及的负样本;
步骤6:将采集的训练数据输入到建立好的深度学习网络中进行训练,将其损失函数定义为交叉熵,使用随机梯度下降或Adam优化方法进行深度学习网络的训练,并设定神经网络训练的网络参数,得到训练好的深度学习模型;
步骤7:对于从网络上获取的未标注文本集,首先对所述未标注文本集采用切词工具进行切分后得到词w,并获得词w的嵌入表达,将所述词w与每个待匹配实体E的嵌入表达计算余弦相似度:
其中
Figure FDA0002176419210000012
Figure FDA0002176419210000013
分别为词w和待匹配实体E的嵌入向量表达,分子为两个同维度向量的内积,计算词w与每个实体E的相似度后,取至少6个相似度最高的(m,E)对作为匹配候选项,若最大相似度低于匹配阈值,则判定w不匹配任何实体,未标注文本集中的每一个词w都进行一轮匹配;
步骤8:将词w的上下文数据和步骤7得到的匹配候选项及其描述文本输入到步骤6训练好的深度学习网络中,计算得到概率值最大且超过匹配阈值的实体作为所述描述文本对应的实体。
2.如权利要求1所述的一种基于知识库和深度学习的实体名称提取方法,其特征在于,步骤4建立深度学习网络的方法包括:
步骤41:对于所述单词m,分别取其左边长度c的连续窗口[wlc,wlc-1,…,wl2,wl1,m]和右边长度c的连续窗口[m,wr1,wr2,…,wrc-1,wrc],作为其正向上下文数据和逆向上下文数据;
步骤42:将所述正向上下文数据[wlc,wlc-1,…,wl2,wl1,m]输入一个采用长短时记忆单元的循环神经网络,序列长度为c+1,从左到右进行处理,词m作为最后一个输入,每个时间点的输出采用最大池化方法提取其显著特征;
步骤43:将所述逆向上下文数据[m,wr1,wr2,…,wrc-1,wrc]输入一个使用长短时记忆单元的循环神经网络,序列长度为c+1,从右到左进行处理,词m作为最后一个输入,每个时间点的输出采用最大池化方法提取其显著特征;
步骤44:取所述知识库中对于所述待匹配实体E的文本描述前n个词作为输入,输入一个采用长短时记忆单元的循环神经网络,序列长度为n,从左到右进行处理,每个时间点的输出采用最大池化方法提取其显著特征;
步骤45:将步骤44输出的显著特征和所述待匹配实体E在步骤3中训练得到的嵌入式表达连接,作为所述待匹配实体E的向量化表征;
步骤44的输出为一个向量,嵌入式表达也是一个向量,两个向量直接拼接在一起作为待匹配实体的向量化表征,比如一个30维向量和一个40维向量合并,得到一个70维向量;
步骤46:基于所述向量化表征在词m的正向上下文数据和逆向上下文数据中增加注意力机制,并生成一个和为1的注意力向量,分别在表示词m的正向上下文数据和逆向上下文数据中每个位置上的词与待匹配实体E的相关度,数值越大,相关度越高,以找到与所述待匹配实体E最相关的文字;
步骤47:将步骤42和步骤43输出的显著特征和步骤45输出的向量化表征进行连接,连接后输入多层全连接网络,最后用一个sigmoid函数输出所述词m对应所述待匹配实体E的概率,所述概率值在0-1之间,分值越大相关性越大。
CN201910780471.1A 2019-08-22 2019-08-22 一种基于知识库和深度学习的实体名称提取方法 Active CN110705292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910780471.1A CN110705292B (zh) 2019-08-22 2019-08-22 一种基于知识库和深度学习的实体名称提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910780471.1A CN110705292B (zh) 2019-08-22 2019-08-22 一种基于知识库和深度学习的实体名称提取方法

Publications (2)

Publication Number Publication Date
CN110705292A true CN110705292A (zh) 2020-01-17
CN110705292B CN110705292B (zh) 2022-11-29

Family

ID=69193496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910780471.1A Active CN110705292B (zh) 2019-08-22 2019-08-22 一种基于知识库和深度学习的实体名称提取方法

Country Status (1)

Country Link
CN (1) CN110705292B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069826A (zh) * 2020-07-15 2020-12-11 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN112836062A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种文本语料库的关系抽取方法
CN112989803A (zh) * 2021-02-25 2021-06-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接模型
CN113157890A (zh) * 2021-04-25 2021-07-23 深圳壹账通智能科技有限公司 智能问答方法、装置、电子设备及可读存储介质
CN113157890B (zh) * 2021-04-25 2024-06-11 深圳壹账通智能科技有限公司 智能问答方法、装置、电子设备及可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100242017A1 (en) * 2009-03-20 2010-09-23 Microsoft Corporation Inferring missing type information for reflection
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107526799A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于深度学习的知识图谱构建方法
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108304552A (zh) * 2018-02-01 2018-07-20 浙江大学 一种基于知识库特征抽取的命名实体链接方法
CN108829661A (zh) * 2018-05-09 2018-11-16 成都信息工程大学 一种基于模糊匹配的新闻主体名称提取方法
CN109408642A (zh) * 2018-08-30 2019-03-01 昆明理工大学 一种基于距离监督的领域实体属性关系抽取方法
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法
CN109726745A (zh) * 2018-12-19 2019-05-07 北京理工大学 一种融入描述知识的基于目标的情感分类方法
CN109933785A (zh) * 2019-02-03 2019-06-25 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN110110324A (zh) * 2019-04-15 2019-08-09 大连理工大学 一种基于知识表示的生物医学实体链接方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100242017A1 (en) * 2009-03-20 2010-09-23 Microsoft Corporation Inferring missing type information for reflection
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107526799A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于深度学习的知识图谱构建方法
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108304552A (zh) * 2018-02-01 2018-07-20 浙江大学 一种基于知识库特征抽取的命名实体链接方法
CN108829661A (zh) * 2018-05-09 2018-11-16 成都信息工程大学 一种基于模糊匹配的新闻主体名称提取方法
CN109408642A (zh) * 2018-08-30 2019-03-01 昆明理工大学 一种基于距离监督的领域实体属性关系抽取方法
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法
CN109726745A (zh) * 2018-12-19 2019-05-07 北京理工大学 一种融入描述知识的基于目标的情感分类方法
CN109933785A (zh) * 2019-02-03 2019-06-25 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN110110324A (zh) * 2019-04-15 2019-08-09 大连理工大学 一种基于知识表示的生物医学实体链接方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARK DREDZE等: "Entity Disambiguation for Knowledge Base Population", 《PROCEEDINGS OF THE 23RD INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS》 *
黄际洲等: "面向搜索引擎的实体推荐综述", 《计算机学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069826A (zh) * 2020-07-15 2020-12-11 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN112069826B (zh) * 2020-07-15 2021-12-07 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN112836062A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种文本语料库的关系抽取方法
CN112836062B (zh) * 2021-01-13 2022-05-13 哈尔滨工程大学 一种文本语料库的关系抽取方法
CN112989803A (zh) * 2021-02-25 2021-06-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接模型
CN113157890A (zh) * 2021-04-25 2021-07-23 深圳壹账通智能科技有限公司 智能问答方法、装置、电子设备及可读存储介质
CN113157890B (zh) * 2021-04-25 2024-06-11 深圳壹账通智能科技有限公司 智能问答方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN110705292B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN107463658B (zh) 文本分类方法及装置
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN110457689B (zh) 语义处理方法及相关装置
CN110705292B (zh) 一种基于知识库和深度学习的实体名称提取方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN107562843B (zh) 一种基于标题高频切分的新闻热点短语提取方法
CN106649666A (zh) 一种左右递归新词发现方法
WO2020074017A1 (zh) 基于深度学习的医学文献中关键词筛选方法及装置
CN110738033B (zh) 报告模板生成方法、装置及存储介质
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN107943514A (zh) 一种软件文档中核心代码元素的挖掘方法及系统
CN111144119A (zh) 一种改进知识迁移的实体识别方法
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN107451120B (zh) 一种公开文本情报的内容冲突检测方法及系统
CN109446399A (zh) 一种影视实体搜索方法
CN106815209B (zh) 一种维吾尔文农业技术术语识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant