CN112612884A - 一种基于公共文本的实体标签自动化标注方法 - Google Patents

一种基于公共文本的实体标签自动化标注方法 Download PDF

Info

Publication number
CN112612884A
CN112612884A CN202011360173.6A CN202011360173A CN112612884A CN 112612884 A CN112612884 A CN 112612884A CN 202011360173 A CN202011360173 A CN 202011360173A CN 112612884 A CN112612884 A CN 112612884A
Authority
CN
China
Prior art keywords
text
label
entity
evidence
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011360173.6A
Other languages
English (en)
Other versions
CN112612884B (zh
Inventor
万海
陈德和
刘亚男
黄佳莉
曾娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011360173.6A priority Critical patent/CN112612884B/zh
Publication of CN112612884A publication Critical patent/CN112612884A/zh
Application granted granted Critical
Publication of CN112612884B publication Critical patent/CN112612884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于公共文本的实体标签自动化标注方法,包括:S1:预定义与任务相关的实体标签集合以及标签体系;S2:获得实体与标签的文本证据集合;S3:根据S2获得的文本证据集合,利用编码器对文本证据进行编码;S4:实体类型预测;S5:下游模型训练:将经实体类型预测后的知识图谱应用到下游任务中,根据下游任务的损失函数对自然语言处理模型进行训练,再通过梯度回传将误差反向传播到自然语言处理模型中,对模型参数进行更新;S6:利用更新后的自然语言处理模型对实体标签进行标注。本发明可避免大量数据标注的成本,并可解决了实体所属标签程度难以定量估计与标注的困难,具有良好的应用性,提高了实体归类方法的可用性。

Description

一种基于公共文本的实体标签自动化标注方法
技术领域
本发明涉及文本实体归类领域,更具体地,涉及一种基于公共文本的实体标签自动化标注方法。
背景技术
知识图谱是由真实世界中的多关系结构化数据构成的,描述了真实世界中的多个实体以及实体之间的关系。知识图谱能够体现多个事实,每一个事实是通过一个三元组(h,r,t)来进行表征,其中h代表头部实体,t代表尾部实体,r代表头尾实体存在的关系,例如(刘德华,出生于,香港)。随着近年来知识图谱技术的发展,知识图谱在许多人工智能相关的任务中的重要性越来越得以体现,例如智能问答、信息抽取等。目前已经存在许多大规模的通用知识图谱,诸如DBPedia、Freebase,但随着知识图谱在各个领域上的突出表现,许多研究者正关注于如何构建领域相关的知识图谱,从而使之能够更有利于下游人工智能相关的人物。
近年来,知识图谱构建的技术获得广泛的关注,并取得了较为先进的研究成果。知识图谱的构建涉及多个方面的流水线步骤:命名实体识别、实体归类、关系抽取等等。当前较为先进的命名实体识别技术中,Jacob Devlin等人首先利用Bert模型学习单词的词嵌入再往上拼接一个条件随机场(CRF)层从而进行命名实体识别。在关系抽取方面,TransE、TransR以及TransH是较为有代表性的技术。目前命名实体识别以及关系抽取技术的发展已经较为成熟。而在实体归类任务中,JiXin等人利用神经网络模型对文本进行处理再把实体归类任务转化为多分类任务。
但是目前实体归类方法存在较多不足之处,具体地:
(1)当前的方法都依赖于大量的标注训练数据,对这些训练数据来说,标签内容以及标签体系都是预先定义的,而同一批数据在不同的子任务上可能有不同的标签内容以及标签体系,从而带来了极大的标注成本。
(2)一个实体可能属于多个标签,并且由于每个实体的个体差异,实体属于的标签以及所属程度可能是不确定的,例如,某个编剧的写作题材可能更侧重在喜剧类但也会少部分涉及到动作类,因此在实体归类的过程中也需要将这种差异体现出来。
(3)基于第(2)点,进一步带来了数据标注的难度,因为实体在标签归类过程中的侧重程度并不能够轻易地定量确定,也不存在固定的准则来确定该侧重程度。
发明内容
本发明为克服上述现有技术所述的公共文本的实体标签标注难度大的缺陷,提供一种基于公共文本的实体标签自动化标注方法。
所述方法包括:
S1:根据下游任务领域的特性预定义知识图谱中与下游任务相关的实体标签集合;
其中,知识图谱是由一系列的节点以及边构成的,其中的节点就是实体,而边就是实体之间的关系。
S3:根据S2获得的文本证据集合,利用自然语言处理模型中的编码器对文本证据进行编码;
S4:实体类型预测:基于S3得到的文本证据编码结果,预测实体属于不同标签的程度;
S5:下游模型训练:将经实体类型预测后的知识图谱应用到下游任务中,根据下游任务的损失函数对自然语言处理模型进行训练,再通过梯度回传将误差反向传播到自然语言处理模型中,对模型参数进行更新;
S6:利用更新后的自然语言处理模型对实体标签进行标注。
优选地,S2具体为:基于步骤1的预定义的标签集合以及实体本身的名称作为搜索关键词,获得搜索引擎对于特定实体-标签搜索组合返回的网页快照,从而获得该实体属于该标签的文本证据集合。
优选地,S3中利用编码器对不同的文本证据集合应用自然语言处理模型对文本证据进行编码。
优选地,S3中所述编码器包括文本编码器、单标签文本证据集合编码器以及多标签文本证据集合编码器。
优选地,S3具体为:
文本编码器通过卷积神经网络文本处理模型对搜索引擎返回的每条文本证据进行编码,得到句子级别的标签嵌入表示;
单标签文本证据集合编码器利用单个实体与单个标签的文本证据集合,其中每条文本证据已经通过文本编码器模块编码成了句子级别的嵌入表示,再应用注意力机制对单标签文本证据集合中的所有文本证据进行编码,得到单标签级别的标签嵌入表示;
由于实体可能属于多个标签,因此多标签文本证据集合编码器基于实体在每个标签下的单标签级别标签嵌入表示,再应用一层注意力机制对标签集合中的单标签级别标签嵌入表示进行编码,得到最终的多标签级别的标签嵌入表示。
优选地,文本编码器过程具体为:
假设实体表示为e,标签集合表示为C={c1,c2,……cN},利用实体e与标签ci获得的文本集合为T(e,ci)={t1,t2,……tM},其中tj为搜索引擎返回的第j条文本网页快照,即一段文字;
对于T(e,ci)中的每一条文本,应用卷积神经网络(CNN)对文本进行编码,得到每条文本的文本嵌入表示
Figure BDA0002803780460000031
Figure BDA0002803780460000032
优选地,单标签文本证据集合编码器的编码过程具体为:
将T(e,ci)中的每个文本通过同一个卷积神经网络,就能得到每个文本的文本嵌入表示,基于T(e,ci)对应的文本嵌入集合,应用注意力机制进行单标签文本证据集合编码,获得实体e在ci上单标签嵌入表示
Figure BDA0002803780460000033
Figure BDA0002803780460000034
Figure BDA0002803780460000035
Figure BDA0002803780460000036
其中W1,b1,pa为可训练参数,W1表示实体单标签嵌入表示的权重矩阵、b1表示实体单标签嵌入表示的偏置项、pa表示注意力机制中的查询向量。
优选地,多标签文本证据集合编码器的编码过程具体为:对于实体e以及标签集合C={c1,c2,……cN},将每个标签对应的文本证据集合通过单标签文本证据集合编码器,得到每个标签对应的单标签嵌入表示,在单标签层面上再次应用另一套注意力机制,得到该实体的多标签文本嵌入表示le
Figure BDA0002803780460000037
Figure BDA0002803780460000041
Figure BDA0002803780460000042
其中W2,b2,qa为可训练参数,W2表示实体多标签文本嵌入表示的权重矩阵、b2表示实体多标签文本嵌入表示的偏置项、qa表示注意力机制中的查询向量。
优选地,S4具体为:
由于多标签文本证据集合编码器基于标签集合下的单标签级别的标签嵌入表示应用注意力机制进行编码,而在注意力机制中会产生每个标签的注意力权重β作为中间输出,因此该注意力权重β就能够体现该实体属于标签集合下每个标签的程度。
与现有技术相比,本发明技术方案的有益效果是:
本发明能够解决知识图谱构建过程中实体归类方法涉及的多标签问题,在解决多标签归类问题的同时,不仅能够预测实体所属的多个标签,还能够精确地预测实体属于每个标签的程度,这一点符合大多数现实应用场景,体现出实体在特定任务中对不同标签的侧重点不一样的特点,从而能够构建更精确的知识图谱并进一步提高下游人工智能相关任务的性能。
本发明能够利用公共互联网中与实体-标签相关的网页文本信息作为文本证据并利用自然语言处理模型来预测实体属于每个标签的程度,从而避免了大量数据标注的成本,并且解决了实体所属标签程度难以定量估计与标注的困难,具有良好的应用性,提高了实体归类方法的可用性。
附图说明
图1为实施例1所述基于公共文本的实体标签自动化标注方法流程图。
图2为本证据获得步骤的流程示意图。
图3为本证据编码步骤的流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1:
本实施例提供一种基于公共文本的实体标签自动化标注方法。如图1所示,所述方法包括:
S1:根据下游任务领域的特性预定义知识图谱中与下游任务相关的实体标签集合;
其中,知识图谱是由一系列的节点以及边构成的,其中的节点就是实体,而边就是实体之间的关系。
S2:获得实体与标签的文本证据集合:如图2所示,基于S1的预定义标签集合以及实体本身的名称作为搜索关键词,获得搜索引擎对于特定实体-标签搜索组合返回的前10条网页快照,从而获得该实体属于该标签的文本证据;
搜索的过程中可以选取必应或者百度作为特定搜索引擎,并且为了减少人工搜索的成本,这个步骤可以利用数据爬虫进行完成。最终在该过程中只需设定好搜索引擎的访问地址,以及枚举实体名称与标签的集合,即可通过数据爬虫自动获取特定实体与特定标签组合的文本证据;
S3:文本证据编码:该步骤分为文本编码器、单标签文本证据集合编码器以及多标签文本证据集合编码器三个模块。利用S2得到的文本证据,对于每个实体,不同的标签对应不同的文本证据集合。
具体的,如图3所示,文本编码器通过特定的文本处理模型对搜索引擎返回的每条文本证据进行编码,得到句子级别的标签嵌入表示;单标签证据集合编码器利用单个实体与单个标签的文本证据集合(其中每条文本证据已经通过文本编码器模块编码成了句子级别的嵌入表示),再应用注意力机制对该集合中的所有文本证据进行编码,得到单标签级别的标签嵌入表示;由于实体可能属于多个标签,因此多标签文本证据集合编码器基于实体在每个标签下的单标签级别标签嵌入表示,再应用一层注意力机制对标签集合中的单标签级别标签嵌入表示进行编码,得到最终的多标签级别的标签嵌入表示。
在S3中,文本证据编码分为文本编码器、单标签文本证据集合编码器以及多标签文本证据集合编码器三个模块。
假设实体表示为e,标签集合表示为C={c1,c2,……cN},利用实体e与标签ci获得的文本集合为T(e,ci)={t1,t2,……tM},其中tj为搜索引擎返回的第j条文本网页快照,即一段文字。
文本编码器:对于T(e,ci)中的每一条文本,应用卷积神经网络(CNN)对文本进行编码,得到每条文本的文本嵌入表示
Figure BDA0002803780460000061
Figure BDA0002803780460000062
单标签文本证据集合编码器:将T(e,ci)中的每个文本通过同一个卷积神经网络,就能得到每个文本的文本嵌入表示,基于T(e,ci)对应的文本嵌入集合,应用注意力机制进行单标签文本证据集合编码,获得实体e在ci上单标签嵌入表示
Figure BDA0002803780460000063
Figure BDA0002803780460000064
Figure BDA0002803780460000065
Figure BDA0002803780460000066
其中W1,b1,pa为可训练参数,W1表示实体单标签嵌入表示的权重矩阵、b1表示实体单标签嵌入表示的偏置项、pa表示注意力机制中的查询向量。
多标签文本证据集合编码器:对于实体e以及标签集合C={c1,c2,……cN},将每个标签对应的文本证据集合通过单标签文本证据集合编码器,得到每个标签对应的单标签嵌入表示,在单标签层面上再次应用另一套注意力机制,得到该实体的多标签文本嵌入表示le
Figure BDA0002803780460000067
Figure BDA0002803780460000068
Figure BDA0002803780460000069
其中W2,b2,qa为可训练参数,W2表示实体多标签文本嵌入表示的权重矩阵、b2表示实体多标签文本嵌入表示的偏置项、qa表示注意力机制中的查询向量。
S4:实体类型预测:在S3中,最后一个模块是多标签文本证据集合编码器,对于特定的实体,该模块基于标签集合下的单标签级别的标签嵌入表示应用注意力机制进行编码,而在注意力机制中会产生每个标签的注意力权重β作为中间输出,因此该注意力权重β就能够体现该实体属于标签集合下每个标签的程度。
S5:下游模型训练:由于实体归类的过程中是缺乏训练数据的,并且多标签体系下对实体类型以及所属程度进行标注是极其困难的,因此多标签实体归类任务需要与下游的人工智能相关的任务进行端到端学习,这样做一方面降低了实体归类过程中数据标注的难度,更重要的是能够产生与下游任务相关的实体类型。基于下游任务的损失函数,对该损失函数进行优化,产生的梯度能够进一步反向传输到实体归类任务中,继而对实体归类过程中涉及到的文本处理模型以及注意力机制的权重进行学习与更新,达到端到端学习的效果。
S6:利用更新后的自然语言处理模型对实体标签进行标注。附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于公共文本的实体标签自动化标注方法,其特征在于,所述方法包括:
S1:根据下游任务领域的特性预定义知识图谱中与下游任务相关的实体标签集合;
其中,知识图谱是由一系列的节点以及边构成的,其中的节点就是实体,而边就是实体之间的关系;
S2:根据实体标签集合,获得实体与标签的文本证据集合;
S3:根据S2获得的文本证据集合,利用自然语言处理模型中的编码器对文本证据进行编码;
S4:实体类型预测:基于S3得到的文本证据编码结果,预测实体属于不同标签的程度;
S5:下游模型训练:将经实体类型预测后的知识图谱应用到下游任务中,根据下游任务的损失函数对自然语言处理模型进行训练,再通过梯度回传将误差反向传播到自然语言处理模型中,对模型参数进行更新;
S6:利用更新后的自然语言处理模型对实体标签进行标注。
2.根据权利要求1所述基于公共文本的实体标签自动化标注方法,其特征在于,S2具体为:基于S1的预定义的标签集合以及实体本身的名称作为搜索关键词,获得搜索引擎对于特定实体-标签搜索组合返回的网页快照,从而获得该实体属于该标签的文本证据集合。
3.根据权利要求1或2所述基于公共文本的实体标签自动化标注方法,其特征在于,S3中利用编码器对不同的文本证据集合应用卷积神经网络文本处理模型对文本证据进行编码。
4.根据权利要求3所述基于公共文本的实体标签自动化标注方法,其特征在于,S3中所述编码器包括文本编码器、单标签文本证据集合编码器以及多标签文本证据集合编码器。
5.根据权利要求4所述基于公共文本的实体标签自动化标注方法,其特征在于,S3具体为:
(1)利用文本编码器对文本证据集合中的每个文本进行编码:利用文本编对搜索引擎返回的每条文本证据进行编码,得到句子级别的标签嵌入表示;
(2)利用单标签文本证据集合编码器对同一标签下得到的文本证据集合进行编码:单标签文本证据集合编码器利用单个实体与单个标签的文本证据集合,再应用注意力机制对单标签文本证据集合中的所有文本证据进行编码,得到单标签级别的标签嵌入表示;
(3)利用多标签文本证据集合编码器对标签集合中的文本证据集合进行编码:由于实体可能属于多个标签,因此多标签文本证据集合编码器基于实体在每个标签下的单标签级别标签嵌入表示,再应用一层注意力机制对标签集合中的单标签级别标签嵌入表示进行编码,得到最终的多标签级别的标签嵌入表示。
6.根据权利要求5所述基于公共文本的实体标签自动化标注方法,其特征在于,文本编码器通过卷积神经网络文本处理模型对搜索引擎返回的每条文本证据进行编码。
7.根据权利要求5或6所述基于公共文本的实体标签自动化标注方法,其特征在于,文本编码器过程具体为:
假设实体表示为e,标签集合表示为C={c1,c2,......cN},利用实体e与标签ci获得的文本集合为T(e,ci)={t1,t2,......tM},其中tj为搜索引擎返回的第j条文本网页快照,即一段文字;
对于T(e,ci)中的每一条文本,应用卷积神经网络对文本进行编码,得到每条文本的文本嵌入表示
Figure FDA0002803780450000021
Figure FDA0002803780450000022
8.根据权利要求7所述基于公共文本的实体标签自动化标注方法,其特征在于,单标签文本证据集合编码器的编码过程具体为:
将T(e,ci)中的每个文本通过同一个卷积神经网络,就能得到每个文本的文本嵌入表示,基于T(e,ci)对应的文本嵌入集合,应用注意力机制进行单标签文本证据集合编码,获得实体e在ci上单标签嵌入表示
Figure FDA0002803780450000023
Figure FDA0002803780450000024
Figure FDA0002803780450000025
Figure FDA0002803780450000026
其中W1,b1,pa为可训练参数,W1表示实体单标签嵌入表示的权重矩阵、b1表示实体单标签嵌入表示的偏置项、pa表示注意力机制中的查询向量。
9.根据权利要求8所述基于公共文本的实体标签自动化标注方法,其特征在于,多标签文本证据集合编码器的编码过程具体为:对于实体e以及标签集合C={c1,c2,......cN},将每个标签对应的文本证据集合通过单标签文本证据集合编码器,得到每个标签对应的单标签嵌入表示,在单标签层面上再次应用另一套注意力机制,得到该实体的多标签文本嵌入表示le
Figure FDA0002803780450000031
Figure FDA0002803780450000032
Figure FDA0002803780450000033
其中W2,b2,qa为可训练参数,W2表示实体多标签文本嵌入表示的权重矩阵、b2表示实体多标签文本嵌入表示的偏置项、qa表示注意力机制中的查询向量。
10.根据权利要求9所述基于公共文本的实体标签自动化标注方法,其特征在于,S4具体为:
由于多标签文本证据集合编码器基于标签集合下的单标签级别的标签嵌入表示应用注意力机制进行编码,而在注意力机制中会产生每个标签的注意力权重β作为中间输出,因此该注意力权重β就能够体现该实体属于标签集合下每个标签的程度。
CN202011360173.6A 2020-11-27 2020-11-27 一种基于公共文本的实体标签自动化标注方法 Active CN112612884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011360173.6A CN112612884B (zh) 2020-11-27 2020-11-27 一种基于公共文本的实体标签自动化标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011360173.6A CN112612884B (zh) 2020-11-27 2020-11-27 一种基于公共文本的实体标签自动化标注方法

Publications (2)

Publication Number Publication Date
CN112612884A true CN112612884A (zh) 2021-04-06
CN112612884B CN112612884B (zh) 2024-03-12

Family

ID=75228091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011360173.6A Active CN112612884B (zh) 2020-11-27 2020-11-27 一种基于公共文本的实体标签自动化标注方法

Country Status (1)

Country Link
CN (1) CN112612884B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553439A (zh) * 2021-06-18 2021-10-26 杭州摸象大数据科技有限公司 知识图谱挖掘的方法和系统
CN113886438A (zh) * 2021-12-08 2022-01-04 济宁景泽信息科技有限公司 一种基于人工智能的成果转移转化数据筛选方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
CN108073677A (zh) * 2017-11-02 2018-05-25 中国科学院信息工程研究所 一种基于人工智能的多级文本多标签分类方法及系统
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
CN111177394A (zh) * 2020-01-03 2020-05-19 浙江大学 基于句法注意力神经网络的知识图谱关系数据分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN108073677A (zh) * 2017-11-02 2018-05-25 中国科学院信息工程研究所 一种基于人工智能的多级文本多标签分类方法及系统
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
CN111177394A (zh) * 2020-01-03 2020-05-19 浙江大学 基于句法注意力神经网络的知识图谱关系数据分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张巍琦: ""基于知识图谱的短文本分类研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2020, pages 138 - 1449 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553439A (zh) * 2021-06-18 2021-10-26 杭州摸象大数据科技有限公司 知识图谱挖掘的方法和系统
CN113886438A (zh) * 2021-12-08 2022-01-04 济宁景泽信息科技有限公司 一种基于人工智能的成果转移转化数据筛选方法
CN113886438B (zh) * 2021-12-08 2022-03-15 济宁景泽信息科技有限公司 一种基于人工智能的成果转移转化数据筛选方法

Also Published As

Publication number Publication date
CN112612884B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN113177124B (zh) 一种垂直领域知识图谱构建方法及系统
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN111177366B (zh) 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统
CN111538835A (zh) 一种基于知识图谱的社交媒体情感分类方法与装置
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN112612884B (zh) 一种基于公共文本的实体标签自动化标注方法
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和系统
CN115952791A (zh) 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质
CN113836866A (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN113705222B (zh) 槽识别模型训练方法及装置和槽填充方法及装置
CN115292568A (zh) 一种基于联合模型的廉政和民生新闻事件抽取方法
CN116029394B (zh) 自适应文本情感识别模型训练方法、电子设备及存储介质
CN112148879B (zh) 一种自动给代码打数据结构标签的计算机可读存储介质
CN113886602B (zh) 一种基于多粒度认知的领域知识库实体识别方法
CN114757183B (zh) 一种基于对比对齐网络的跨领域情感分类方法
CN116304064A (zh) 一种基于抽取式的文本分类方法
CN116561272A (zh) 开放域视觉语言问答方法、装置、电子设备及存储介质
CN111737951A (zh) 一种文本语言关联关系标注方法和装置
CN116362246A (zh) 一种面向多源威胁情报的实体识别及关系抽取方法
CN106407271B (zh) 一种智能客服系统及其智能客服知识库的更新方法
CN114297408A (zh) 一种基于级联二进制标注框架的关系三元组抽取方法
CN114996407B (zh) 基于包重构的远程监督关系抽取方法及系统
CN113297845B (zh) 一种基于多层次双向循环神经网络的简历块分类方法
CN116796723B (zh) 文本集匹配方法、装置、电子设备及存储介质
CN117193848A (zh) 基于知识增强预训练模型的代码摘要自动生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant