CN112612884B - 一种基于公共文本的实体标签自动化标注方法 - Google Patents

一种基于公共文本的实体标签自动化标注方法 Download PDF

Info

Publication number
CN112612884B
CN112612884B CN202011360173.6A CN202011360173A CN112612884B CN 112612884 B CN112612884 B CN 112612884B CN 202011360173 A CN202011360173 A CN 202011360173A CN 112612884 B CN112612884 B CN 112612884B
Authority
CN
China
Prior art keywords
text
entity
tag
label
evidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011360173.6A
Other languages
English (en)
Other versions
CN112612884A (zh
Inventor
万海
陈德和
刘亚男
黄佳莉
曾娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011360173.6A priority Critical patent/CN112612884B/zh
Publication of CN112612884A publication Critical patent/CN112612884A/zh
Application granted granted Critical
Publication of CN112612884B publication Critical patent/CN112612884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于公共文本的实体标签自动化标注方法,包括:S1:预定义与任务相关的实体标签集合以及标签体系;S2:获得实体与标签的文本证据集合;S3:根据S2获得的文本证据集合,利用编码器对文本证据进行编码;S4:实体类型预测;S5:下游模型训练:将经实体类型预测后的知识图谱应用到下游任务中,根据下游任务的损失函数对自然语言处理模型进行训练,再通过梯度回传将误差反向传播到自然语言处理模型中,对模型参数进行更新;S6:利用更新后的自然语言处理模型对实体标签进行标注。本发明可避免大量数据标注的成本,并可解决了实体所属标签程度难以定量估计与标注的困难,具有良好的应用性,提高了实体归类方法的可用性。

Description

一种基于公共文本的实体标签自动化标注方法
技术领域
本发明涉及文本实体归类领域,更具体地,涉及一种基于公共文本的实体标签自动化标注方法。
背景技术
知识图谱是由真实世界中的多关系结构化数据构成的,描述了真实世界中的多个实体以及实体之间的关系。知识图谱能够体现多个事实,每一个事实是通过一个三元组(h,r,t)来进行表征,其中h代表头部实体,t代表尾部实体,r代表头尾实体存在的关系。随着近年来知识图谱技术的发展,知识图谱在许多人工智能相关的任务中的重要性越来越得以体现,例如智能问答、信息抽取等。目前已经存在许多大规模的通用知识图谱,诸如DBPedia、Freebase,但随着知识图谱在各个领域上的突出表现,许多研究者正关注于如何构建领域相关的知识图谱,从而使之能够更有利于下游人工智能相关的人物。
近年来,知识图谱构建的技术获得广泛的关注,并取得了较为先进的研究成果。知识图谱的构建涉及多个方面的流水线步骤:命名实体识别、实体归类、关系抽取等等。当前较为先进的命名实体识别技术中,Jacob Devlin等人首先利用Bert模型学习单词的词嵌入再往上拼接一个条件随机场(CRF)层从而进行命名实体识别。在关系抽取方面,TransE、TransR以及TransH是较为有代表性的技术。目前命名实体识别以及关系抽取技术的发展已经较为成熟。而在实体归类任务中,Ji Xin等人利用神经网络模型对文本进行处理再把实体归类任务转化为多分类任务。
但是目前实体归类方法存在较多不足之处,具体地:
(1)当前的方法都依赖于大量的标注训练数据,对这些训练数据来说,标签内容以及标签体系都是预先定义的,而同一批数据在不同的子任务上可能有不同的标签内容以及标签体系,从而带来了极大的标注成本。
(2)一个实体可能属于多个标签,并且由于每个实体的个体差异,实体属于的标签以及所属程度可能是不确定的,例如,某个编剧的写作题材可能更侧重在喜剧类但也会少部分涉及到动作类,因此在实体归类的过程中也需要将这种差异体现出来。
(3)基于第(2)点,进一步带来了数据标注的难度,因为实体在标签归类过程中的侧重程度并不能够轻易地定量确定,也不存在固定的准则来确定该侧重程度。
发明内容
本发明为克服上述现有技术所述的公共文本的实体标签标注难度大的缺陷,提供一种基于公共文本的实体标签自动化标注方法。
所述方法包括:
S1:根据下游任务领域的特性预定义知识图谱中与下游任务相关的实体标签集合;
其中,知识图谱是由一系列的节点以及边构成的,其中的节点就是实体,而边就是实体之间的关系。
S3:根据S2获得的文本证据集合,利用自然语言处理模型中的编码器对文本证据进行编码;
S4:实体类型预测:基于S3得到的文本证据编码结果,预测实体属于不同标签的程度;
S5:下游模型训练:将经实体类型预测后的知识图谱应用到下游任务中,根据下游任务的损失函数对自然语言处理模型进行训练,再通过梯度回传将误差反向传播到自然语言处理模型中,对模型参数进行更新;
S6:利用更新后的自然语言处理模型对实体标签进行标注。
优选地,S2具体为:基于步骤1的预定义的标签集合以及实体本身的名称作为搜索关键词,获得搜索引擎对于特定实体-标签搜索组合返回的网页快照,从而获得该实体属于该标签的文本证据集合。
优选地,S3中利用编码器对不同的文本证据集合应用自然语言处理模型对文本证据进行编码。
优选地,S3中所述编码器包括文本编码器、单标签文本证据集合编码器以及多标签文本证据集合编码器。
优选地,S3具体为:
文本编码器通过卷积神经网络文本处理模型对搜索引擎返回的每条文本证据进行编码,得到句子级别的标签嵌入表示;
单标签文本证据集合编码器利用单个实体与单个标签的文本证据集合,其中每条文本证据已经通过文本编码器模块编码成了句子级别的嵌入表示,再应用注意力机制对单标签文本证据集合中的所有文本证据进行编码,得到单标签级别的标签嵌入表示;
由于实体可能属于多个标签,因此多标签文本证据集合编码器基于实体在每个标签下的单标签级别标签嵌入表示,再应用一层注意力机制对标签集合中的单标签级别标签嵌入表示进行编码,得到最终的多标签级别的标签嵌入表示。
优选地,文本编码器过程具体为:
假设实体表示为e,标签集合表示为C={c1,c2,……cN},利用实体e与标签ci获得的文本集合为T(e,ci)={t1,t2,……tM},其中tj为搜索引擎返回的第j条文本网页快照,即一段文字;
对于T(e,ci)中的每一条文本,应用卷积神经网络(CNN)对文本进行编码,得到每条文本的文本嵌入表示
优选地,单标签文本证据集合编码器的编码过程具体为:
将T(e,ci)中的每个文本通过同一个卷积神经网络,就能得到每个文本的文本嵌入表示,基于T(e,ci)对应的文本嵌入集合,应用注意力机制进行单标签文本证据集合编码,获得实体e在ci上单标签嵌入表示
其中W1,b1,pa为可训练参数,W1表示实体单标签嵌入表示的权重矩阵、b1表示实体单标签嵌入表示的偏置项、pa表示注意力机制中的查询向量。
优选地,多标签文本证据集合编码器的编码过程具体为:对于实体e以及标签集合C={c1,c2,……cN},将每个标签对应的文本证据集合通过单标签文本证据集合编码器,得到每个标签对应的单标签嵌入表示,在单标签层面上再次应用另一套注意力机制,得到该实体的多标签文本嵌入表示le
其中W2,b2,qa为可训练参数,W2表示实体多标签文本嵌入表示的权重矩阵、b2表示实体多标签文本嵌入表示的偏置项、qa表示注意力机制中的查询向量。
优选地,S4具体为:
由于多标签文本证据集合编码器基于标签集合下的单标签级别的标签嵌入表示应用注意力机制进行编码,而在注意力机制中会产生每个标签的注意力权重β作为中间输出,因此该注意力权重β就能够体现该实体属于标签集合下每个标签的程度。
与现有技术相比,本发明技术方案的有益效果是:
本发明能够解决知识图谱构建过程中实体归类方法涉及的多标签问题,在解决多标签归类问题的同时,不仅能够预测实体所属的多个标签,还能够精确地预测实体属于每个标签的程度,这一点符合大多数现实应用场景,体现出实体在特定任务中对不同标签的侧重点不一样的特点,从而能够构建更精确的知识图谱并进一步提高下游人工智能相关任务的性能。
本发明能够利用公共互联网中与实体-标签相关的网页文本信息作为文本证据并利用自然语言处理模型来预测实体属于每个标签的程度,从而避免了大量数据标注的成本,并且解决了实体所属标签程度难以定量估计与标注的困难,具有良好的应用性,提高了实体归类方法的可用性。
附图说明
图1为实施例1所述基于公共文本的实体标签自动化标注方法流程图。
图2为本证据获得步骤的流程示意图。
图3为本证据编码步骤的流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1:
本实施例提供一种基于公共文本的实体标签自动化标注方法。如图1所示,所述方法包括:
S1:根据下游任务领域的特性预定义知识图谱中与下游任务相关的实体标签集合;
其中,知识图谱是由一系列的节点以及边构成的,其中的节点就是实体,而边就是实体之间的关系。
S2:获得实体与标签的文本证据集合:如图2所示,基于S1的预定义标签集合以及实体本身的名称作为搜索关键词,获得搜索引擎对于特定实体-标签搜索组合返回的前10条网页快照,从而获得该实体属于该标签的文本证据;
搜索的过程中可以选取必应或者百度作为特定搜索引擎,并且为了减少人工搜索的成本,这个步骤可以利用数据爬虫进行完成。最终在该过程中只需设定好搜索引擎的访问地址,以及枚举实体名称与标签的集合,即可通过数据爬虫自动获取特定实体与特定标签组合的文本证据;
S3:文本证据编码:该步骤分为文本编码器、单标签文本证据集合编码器以及多标签文本证据集合编码器三个模块。利用S2得到的文本证据,对于每个实体,不同的标签对应不同的文本证据集合。
具体的,如图3所示,文本编码器通过特定的文本处理模型对搜索引擎返回的每条文本证据进行编码,得到句子级别的标签嵌入表示;单标签证据集合编码器利用单个实体与单个标签的文本证据集合(其中每条文本证据已经通过文本编码器模块编码成了句子级别的嵌入表示),再应用注意力机制对该集合中的所有文本证据进行编码,得到单标签级别的标签嵌入表示;由于实体可能属于多个标签,因此多标签文本证据集合编码器基于实体在每个标签下的单标签级别标签嵌入表示,再应用一层注意力机制对标签集合中的单标签级别标签嵌入表示进行编码,得到最终的多标签级别的标签嵌入表示。
在S3中,文本证据编码分为文本编码器、单标签文本证据集合编码器以及多标签文本证据集合编码器三个模块。
假设实体表示为e,标签集合表示为C={c1,c2,……cN},利用实体e与标签ci获得的文本集合为T(e,ci)={t1,t2,……tM},其中tj为搜索引擎返回的第j条文本网页快照,即一段文字。
文本编码器:对于T(e,ci)中的每一条文本,应用卷积神经网络(CNN)对文本进行编码,得到每条文本的文本嵌入表示
单标签文本证据集合编码器:将T(e,ci)中的每个文本通过同一个卷积神经网络,就能得到每个文本的文本嵌入表示,基于T(e,ci)对应的文本嵌入集合,应用注意力机制进行单标签文本证据集合编码,获得实体e在ci上单标签嵌入表示
其中W1,b1,pa为可训练参数,W1表示实体单标签嵌入表示的权重矩阵、b1表示实体单标签嵌入表示的偏置项、pa表示注意力机制中的查询向量。
多标签文本证据集合编码器:对于实体e以及标签集合C={c1,c2,……cN},将每个标签对应的文本证据集合通过单标签文本证据集合编码器,得到每个标签对应的单标签嵌入表示,在单标签层面上再次应用另一套注意力机制,得到该实体的多标签文本嵌入表示le
其中W2,b2,qa为可训练参数,W2表示实体多标签文本嵌入表示的权重矩阵、b2表示实体多标签文本嵌入表示的偏置项、qa表示注意力机制中的查询向量。
S4:实体类型预测:在S3中,最后一个模块是多标签文本证据集合编码器,对于特定的实体,该模块基于标签集合下的单标签级别的标签嵌入表示应用注意力机制进行编码,而在注意力机制中会产生每个标签的注意力权重β作为中间输出,因此该注意力权重β就能够体现该实体属于标签集合下每个标签的程度。
S5:下游模型训练:由于实体归类的过程中是缺乏训练数据的,并且多标签体系下对实体类型以及所属程度进行标注是极其困难的,因此多标签实体归类任务需要与下游的人工智能相关的任务进行端到端学习,这样做一方面降低了实体归类过程中数据标注的难度,更重要的是能够产生与下游任务相关的实体类型。基于下游任务的损失函数,对该损失函数进行优化,产生的梯度能够进一步反向传输到实体归类任务中,继而对实体归类过程中涉及到的文本处理模型以及注意力机制的权重进行学习与更新,达到端到端学习的效果。
S6:利用更新后的自然语言处理模型对实体标签进行标注。附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (3)

1.一种基于公共文本的实体标签自动化标注方法,其特征在于,所述方法包括:
S1:根据下游任务领域的特性预定义知识图谱中与下游任务相关的实体标签集合;
其中,知识图谱是由一系列的节点以及边构成的,其中的节点就是实体,而边就是实体之间的关系;
S2:根据实体标签集合,获得实体与标签的文本证据集合;
S3:根据S2获得的文本证据集合,利用自然语言处理模型中的编码器对文本证据进行编码;
利用编码器对不同的文本证据集合应用卷积神经网络文本处理模型对文本证据进行编码;
所述编码器包括文本编码器、单标签文本证据集合编码器以及多标签文本证据集合编码器;
具体为:
(1)利用文本编码器对文本证据集合中的每个文本进行编码:利用文本编对搜索引擎返回的每条文本证据进行编码,得到句子级别的标签嵌入表示;
文本编码器通过卷积神经网络文本处理模型对搜索引擎返回的每条文本证据进行编码;文本编码器的编码过程具体为:
假设实体表示为e,标签集合表示为C={c1,c2,……cN},利用实体e与标签ci获得的文本集合为T(e,ci)={t1,t2,……tM},其中tj为搜索引擎返回的第j条文本网页快照,即一段文字;
对于T(e,ci)中的每一条文本,应用卷积神经网络对文本进行编码,得到每条文本的文本嵌入表示
(2)利用单标签文本证据集合编码器对同一标签下得到的文本证据集合进行编码:单标签文本证据集合编码器利用单个实体与单个标签的文本证据集合,再应用注意力机制对单标签文本证据集合中的所有文本证据进行编码,得到单标签级别的标签嵌入表示;
单标签文本证据集合编码器的编码过程具体为:
将T(e,ci)中的每个文本通过同一个卷积神经网络,就能得到每个文本的文本嵌入表示,基于T(e,ci)对应的文本嵌入集合,应用注意力机制进行单标签文本证据集合编码,获得实体e在ci上单标签嵌入表示
其中W1,b1,pa为可训练参数,W1表示实体单标签嵌入表示的权重矩阵、b1表示实体单标签嵌入表示的偏置项、pa表示注意力机制中的查询向量;
(3)利用多标签文本证据集合编码器对标签集合中的文本证据集合进行编码:由于实体可能属于多个标签,因此多标签文本证据集合编码器基于实体在每个标签下的单标签级别标签嵌入表示,再应用一层注意力机制对标签集合中的单标签级别标签嵌入表示进行编码,得到最终的多标签级别的标签嵌入表示;
多标签文本证据集合编码器的编码过程具体为:对于实体e以及标签集合C={c1,c2,……cN},将每个标签对应的文本证据集合通过单标签文本证据集合编码器,得到每个标签对应的单标签嵌入表示,在单标签层面上再次应用另一套注意力机制,得到该实体的多标签文本嵌入表示le
其中W2,b2,qa为可训练参数,W2表示实体多标签文本嵌入表示的权重矩阵、b2表示实体多标签文本嵌入表示的偏置项、qa表示注意力机制中的查询向量;
S4:实体类型预测:基于S3得到的文本证据编码结果,预测实体属于不同标签的程度;
S5:下游模型训练:将经实体类型预测后的知识图谱应用到下游任务中,根据下游任务的损失函数对自然语言处理模型进行训练,再通过梯度回传将误差反向传播到自然语言处理模型中,对模型参数进行更新;
S6:利用更新后的自然语言处理模型对实体标签进行标注。
2.根据权利要求1所述基于公共文本的实体标签自动化标注方法,其特征在于,S2具体为:基于S1的预定义的标签集合以及实体本身的名称作为搜索关键词,获得搜索引擎对于特定实体-标签搜索组合返回的网页快照,从而获得该实体属于该标签的文本证据集合。
3.根据权利要求2所述基于公共文本的实体标签自动化标注方法,其特征在于,S4具体为:
由于多标签文本证据集合编码器基于标签集合下的单标签级别的标签嵌入表示应用注意力机制进行编码,而在注意力机制中会产生每个标签的注意力权重β作为中间输出,因此该注意力权重β就能够体现该实体属于标签集合下每个标签的程度。
CN202011360173.6A 2020-11-27 2020-11-27 一种基于公共文本的实体标签自动化标注方法 Active CN112612884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011360173.6A CN112612884B (zh) 2020-11-27 2020-11-27 一种基于公共文本的实体标签自动化标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011360173.6A CN112612884B (zh) 2020-11-27 2020-11-27 一种基于公共文本的实体标签自动化标注方法

Publications (2)

Publication Number Publication Date
CN112612884A CN112612884A (zh) 2021-04-06
CN112612884B true CN112612884B (zh) 2024-03-12

Family

ID=75228091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011360173.6A Active CN112612884B (zh) 2020-11-27 2020-11-27 一种基于公共文本的实体标签自动化标注方法

Country Status (1)

Country Link
CN (1) CN112612884B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553439A (zh) * 2021-06-18 2021-10-26 杭州摸象大数据科技有限公司 知识图谱挖掘的方法和系统
CN113886438B (zh) * 2021-12-08 2022-03-15 济宁景泽信息科技有限公司 一种基于人工智能的成果转移转化数据筛选方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN108073677A (zh) * 2017-11-02 2018-05-25 中国科学院信息工程研究所 一种基于人工智能的多级文本多标签分类方法及系统
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
CN111177394A (zh) * 2020-01-03 2020-05-19 浙江大学 基于句法注意力神经网络的知识图谱关系数据分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10303999B2 (en) * 2011-02-22 2019-05-28 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and search engines

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN108073677A (zh) * 2017-11-02 2018-05-25 中国科学院信息工程研究所 一种基于人工智能的多级文本多标签分类方法及系统
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
CN111177394A (zh) * 2020-01-03 2020-05-19 浙江大学 基于句法注意力神经网络的知识图谱关系数据分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于知识图谱的短文本分类研究";张巍琦;《中国优秀硕士学位论文全文数据库 信息科技辑》(2020年第07期);第I138-1449页 *

Also Published As

Publication number Publication date
CN112612884A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN111291185B (zh) 信息抽取方法、装置、电子设备及存储介质
CN110020438B (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN102508859B (zh) 一种基于网页特征的广告分类方法及装置
CN111538835A (zh) 一种基于知识图谱的社交媒体情感分类方法与装置
CN112597296B (zh) 一种基于计划机制和知识图谱引导的摘要生成方法
CN112612884B (zh) 一种基于公共文本的实体标签自动化标注方法
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN115687610A (zh) 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN112148879B (zh) 一种自动给代码打数据结构标签的计算机可读存储介质
CN113886602B (zh) 一种基于多粒度认知的领域知识库实体识别方法
CN116304064A (zh) 一种基于抽取式的文本分类方法
CN116362246A (zh) 一种面向多源威胁情报的实体识别及关系抽取方法
CN113806536B (zh) 文本分类方法及其装置、设备、介质、产品
CN113392323B (zh) 基于多源数据联合学习的商务角色预测方法
CN115269984A (zh) 一种专业情报推荐方法和系统
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
CN114996407B (zh) 基于包重构的远程监督关系抽取方法及系统
CN113297845B (zh) 一种基于多层次双向循环神经网络的简历块分类方法
Zhu et al. Intelligent graph review system based on knowledge map
CN111831949B (zh) 快速垂类目标识别分类方法、分类系统及分类装置
CN116823306A (zh) 一种融合多算法模型的竞争对手挖掘方法
CN114328957A (zh) 面向科技服务的需求智能分析与服务组合方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant