CN113656556A - 一种文本特征抽取方法及知识图谱构建方法 - Google Patents

一种文本特征抽取方法及知识图谱构建方法 Download PDF

Info

Publication number
CN113656556A
CN113656556A CN202110958984.4A CN202110958984A CN113656556A CN 113656556 A CN113656556 A CN 113656556A CN 202110958984 A CN202110958984 A CN 202110958984A CN 113656556 A CN113656556 A CN 113656556A
Authority
CN
China
Prior art keywords
entity
features
feature
relationship
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110958984.4A
Other languages
English (en)
Other versions
CN113656556B (zh
Inventor
曾祥云
朱姬渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tianchen Health Technology Co ltd
Original Assignee
Shanghai Dashanlin Medical Health Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Dashanlin Medical Health Technology Co ltd filed Critical Shanghai Dashanlin Medical Health Technology Co ltd
Priority to CN202110958984.4A priority Critical patent/CN113656556B/zh
Publication of CN113656556A publication Critical patent/CN113656556A/zh
Application granted granted Critical
Publication of CN113656556B publication Critical patent/CN113656556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种文本特征抽取方法及知识图谱构建方法,其文本特征抽取方法以标注好的实体和关系为正样本作为基础构建负样本:实体负样本,关系负样本和指代消歧负样本;对正样本和负样本进行映射表征,得到实体表征,实体对表征和指代消歧实体对表征构成的向量集;对向量集进行分析,获取实体特征、指代消歧特征以及关系特征;对实体特征、指代消歧特征以及关系特征进行分类;设置损失函数,对分类结果进行评价,本发明以实体为中心,并辅以指代消歧,解决了因为指代词非实体造成的实体丢失情况,提升了模型整体的准确性,并融合关系特征,进一步提升关系识别的准确率。

Description

一种文本特征抽取方法及知识图谱构建方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文本特征抽取方法及知识图谱构建方法。
背景技术
知识图谱是一种语义网络,以图数据结构的形式来将信息以及关系表示出来,从而用来进一步挖掘信息中隐藏的信息和信息之间的关系。
知识图谱中的图,由节点和边组成,其中的节点用以表示概念和实体,边表示事物的关系和属性。如何对输入或者现有的信息进行知识抽取(包括实体抽取、关系抽取以及属性抽取),从而获得知识表示,是下一步构建知识图谱的基础和前提。
现有技术中,知识抽取主要有两种方法,第一种是两步走算法,也就是需要用两个模型,第一个模型是命名实体识别模型,用它来抽取句子中的实体。然后再用一个模型对抽取的实体进行关系分类。
第二种是一步走算法,也就是用一个联合模型,采用多任务学习框架,把实体识别和关系分类两个任务融合在一个框架。
一步走算法的模型利用特征之间共享,在准确率和整体速度方面,更具有优势。但是,现有一步走算法的关系抽取算法主要围绕实体关系对来设计特征抽取模型,很少把焦点放在以实体为核心的特征抽取设计上,因此造成了关系抽取最终的准确率并不高,降低了后续的关系分类任务的准确率。
此外,现有的方法处理难以处理好文本中实体的指代问题,造成特征的丢失。
发明内容
本发明为解决现有技术中存在的技术问题,提出一种文本特征抽取方法及知识图谱构建方法。
为了实现以上目的,本发明提出了一种文本特征抽取方法,包括如下步骤:
以标注好的实体和关系为正样本作为基础构建负样本:实体负样本,关系负样本和指代消歧负样本;
对正样本和负样本进行映射表征,得到实体表征,实体对表征和指代消歧实体对表征构成的向量集;
对向量集进行分析,获取实体特征、指代消歧特征以及关系特征;
对实体特征、指代消歧特征以及关系特征进行分类;
设置损失函数,对分类结果进行评价。
进一步地,所述构建实体负样本为基于人工标注的实体,构建得到的子实体,所述的子实体被原实体包含,子实体字数少于原实体。
进一步地,所述构建实体负样本为基于人工标注的实体,构建得到的扩展实体,所述的扩展实体包含原实体,但字数大于原实体。
进一步地,所述构建关系负样本为随机使用未在人工标注有关系的实体对来构建。
进一步地,所述构建关系负样本为在人工标注的实体对中,随机改变关系的类型,使得实体关系的整体和原来不一样。
进一步地,所述构建指代消歧负样本为在同一个段落中,选取在不同句子中,没有关系的实体对作为负样本。
进一步地,对正样本和负样本进行映射表征,得到实体表征,实体对表征和指代消歧实体对表征构成的向量集,具体为:
实体表征通过采用bert标注和随机初始化表征相融合获得;
实体对表征通过把实体对中包含的字,去RE中索引出来对应的字特征,再把字特征放入一个多层的神经网络,把特征映射到统一空间,随机初始化语义向量获得;
指代消歧实体对表征采用实体对的编辑距离语义向量和实体对包含的字向量相融合获得。
进一步地,对向量集进行分析,获取文本的特征包括:
实体特征:基于bert模型对句子进行特征抽取,得到每个字的特征,再对非实体关键字的特征进行屏蔽,得到包含实体字的特征E1,再把实体的长度用向量表示得到长度特征E2,把特征E1和特征E2进行拼接得到特征E3;
指代消歧特征:计算指代的实体对之间的编辑距离,对编辑距离进行特征嵌入,得到特征向量R1,将特征R1和实体的BERT特征E1进行拼接,得到特征R2;
关系特征:
将实体对用向量表示到特征P1,对实体对中的第二个实体首字的位置和第一个实体首字的位置之差进行嵌入,得到特征P2;
对第二个实体首字的位置和第一个实体最后一个字的位置进行之差嵌入,得到特征P3;用bert抽取出来的整个句子,得到特征S1;
并将特征P1、特征P2、特征P3、特征S1和特征E1进行拼接得到特征S2。
进一步地,对实体特征、指代消歧特征以及关系特征进行分类包括:
在特征E3后接第一神经网络和分类器C1对实体的位置进行分类,同时在第一神经网络后再接一个分类器C2对实体的类型进行分类;
在特征R2后接第二神经网络和分类器C3,对指代消歧的实体对进行分类;
在特征S2后接第三神经网络和分类器C4,对实体关系进行分类。
本发明还提供一种知识图谱的构建方法,包括:
获取待创建知识图谱所属知识领域的文本;
对文本的进行知识抽取;
将多个知识库进行融合,形成知识图谱;
所述知识抽取中,对文本的特征抽取采用权利要求1-9中所述的任一方法。
本发明公开的方法和系统中所述模块,在实际应用中,即可以在一台目标服务器上部署多个模块,也可以每一模块独立部署在不同的目标服务器上,特别的,根据需要,为了提供更强大的计算处理能力,也可以根据需要将模块部署到集群目标服务器上。
由此可见,本发明设计以实体为核心的多维度特征融合机制,有效的提升实体识别的准确率,同时采用了指代消歧的辅助任务,解决了因为指代词非实体造成的实体丢失情况,并对关系特征进行融合,进而从整体上提升了模型整体的准确性。
为了对本发明有更清楚全面的了解,下面结合附图,对本发明的具体实施方式进行详细描述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的一种文本特征抽取方法的流程示意图。
图2为本申请实施例的实体特征和指代消歧特征抽取具体实施结构示意图。
图3为本申请实施例的实体关系特征抽取具体实施结构示意图。
具体实施方式
本申请的一种文本特征抽取方法,以实体为核心的多维度特征聚合的关系抽取方法,本发明提出一种以实体为中心,并辅以指代消歧,解决了因为指代词非实体造成的实体丢失情况,提升了模型整体的准确性,此外,本申请基于BERT模型的特点,可以提取全局的关系特征,再设计了一个局部特征抽取器,用于提取局部关系对的特征P2和特征P3,并进行融合,进一步提升关系识别的准确率。
本发明设计以实体为核心的多维度特征融合机制,有效的提升实体识别的准确率,同时采用了指代消歧的辅助任务,解决了因为指代词非实体造成的实体丢失情况,也提升了模型关系抽取的准确性。
作为一种实施方式,请参阅图1,图1示出了一种文本特征抽取方法的流程示意图。本申请实施例的文本特征抽取方法包括如下步骤:
以标注好的实体和关系为正样本,在此基础上构建负样本,负样本包括实体负样本,关系负样本和指代消歧负样本;
对正样本和负样本进行映射表征,得到实体表征,实体对表征和指代消歧实体对表征构成的向量集;
对向量集进行分析,获取实体特征、指代消歧特征以及关系特征;
对实体特征、指代消歧特征以及关系特征进行分类;
设置损失函数,对分类结果进行评价。
作为一种优选的实施方式,构建负样本的实施方式负样本构建过程分为实体负样本,关系负样本和指代消歧负样本,其中:
实体负采样过程具体又分为两种负样本,一种是基于人工标注的实体来构建的子实体。所述的子实体被原实体包含,子实体字数少于原实体。举例:也就是说实体负样本是正样本子集,负样本只包含了正样本的部分字,如“中华人民共和国”是个实体,他的负样本是“中华人民共和”,“中华人民共”,“中华人民”,“中华人”。
一种基于人工标注的实体,构建得到的扩展实体,所述的扩展实体包含原实体,但字数大于原实体。举例:“张三丰是张无忌的太师父”。这个句子中,“张三丰”这个人名实体,“张三丰是”是构建出来的的扩展实体,作为负样本。
关系负采样也分为两种情况,一种是随机采用实体对,而此实体对不在人工标注的有关系的实体对里面。另外一种是实体对在人工标注的范围里面,通过负采样随机改变关系的类型,使得实体关系的整体和原来不一样,
指代消歧负采样,在同一个段落中,但不在同一个句子中,没有关系的实体对作为负样本。
对正样本和负样本进行映射表征,分为实体表征,实体对表征和指代消歧实体对表征的三类表征。作为一种优选的实施方式,对实体采用bert标注和随机初始化表征相融合的表征方式,得到融合表征RE。
实体对表征,是把实体对中包含的字,在融合表征RE中索引出来对应的字特征,再将字特征放入一个多层的神经网络,把特征映射到统一空间。
指代消歧实体对表征采用实体对的编辑距离语义向量和实体对包含的字向量相融合得到。
请参阅图2,对于实体特征的抽取的一种优选实施方式,其步骤如下:
首先采用bert模型对句子进行特征抽取,得到每个字的特征,当然,作为变化的其他实施例,也可以使用其他模型或者类似bert模型来实现。
对非实体关键字的特征进行屏蔽,剩下包含实体字的特征E1,具体实现方法可以采用bert模型中的mask机制来实现。
再把实体的长度用向量表示,得到长度特征E2。
把特征E1和特征E2进行拼接得到特征E3作为实体特征,实体特征的特征向量表示具体为:实体长度嵌入,加上实体字的嵌入拼接在一起得到实体的特征向量。
此外,在获得特征E3之后,在E3后接第一神经网络和一个分类器C1(即实体位置分类器),用以对实体的位置进行分类,同时再接一个分类器C2(即实体类型分类器)对实体的类型进行分类。当然,作为变化的实施方式,本实施例的第一神经网络,可以改为二层或者多层的神经网络,神经网络可以根据实际项目的需要,使用各种类型和特点的神经网络来实现,比如前馈神经网络层或者反馈神经网络等等,均不脱离本申请的发明思路。
请参阅图2,指代消歧特征的抽取,其步骤如下:
首先计算指代的实体对之间的编辑距离;
对编辑距离进行特征嵌入,得到特征R1;
把特征R1和特征E1进行拼接,得到特征R2。
此外,在获得特征R2之后,在特征R2后接第二神经网络和一个分类器C3(即指代消歧分类器),用以对指代消歧特征进行分类。当然,作为变化的实施方式,本实施例的第二神经网络,可以改为二层或者多层的神经网络,神经网络可以根据实际项目的需要,使用各种类型和特点的神经网络来实现,比如前馈神经网络层或者反馈神经网络等等,均不脱离本申请的发明思路。
请参阅图3,对关系特征的抽取的一种优选实施方式,其步骤如下:
将实体对进行嵌入得到特征P1;
在一个实体对中,对第二个实体首字的位置和第一个实体首字的位置之差进行嵌入,得到特征P2;本实施例中,所述的“嵌入”是指用向量表示一种特征。
对第二个实体首字的位置和第一个实体最后一个字的位置进行之差嵌入,得到特征P3。
用bert模型抽取出来的整个句子,得到特征S1;
对特征P1、特征P2、特征P3、特征S1和特征E1进行拼接得到特征S2。
此外,在获得特征S2之后,在S2后接第三神经网络和一个分类器C4(即关系分类器),用以对关系特征进行分类。当然,作为变化的实施方式,本实施例的第三神经网络,可以改为二层或者多层的神经网络,神经网络可以根据实际项目的需要,使用各种类型和特点的神经网络来实现,比如前馈神经网络层或者反馈神经网络等等,均不脱离本申请的发明思路。
作为一种优选的实施方式,上述的分类器C1至分类器C4,均使用softmax分类器来实,作为变化的实施方式,也可以全部使用另外一种分类器,也可以采用多种分类器来混合使用,均不脱离本申请的发明思路。
在最后的评估阶段,设置损失函数,对分类结果进行评价,作为一种优选的实施方式,将实体位置分类器、实体分类器,指代消歧分类器和关系分类器的损失全部加起来,进行多任务联合学习。实体位置分类器、实体分类器,指代消歧分类器和关系分类器这四个任务每个任务都有一个损失函数,整个模型的损失就是把四个任务的损失加起来,即为多任务学习。
基于上述实施例的文本特征抽取方法,本申请还公开一种知识图谱的构建方法,其步骤包括:
获取待创建知识图谱所属知识领域的文本;
对文本的进行知识抽取;
将多个知识库进行融合,形成知识图谱;
其中,所述知识抽取中,对文本的特征抽取采用上述实施例所述的方法,知识图谱构建方法的其他步骤,具体可以参考现有技术均可实现,不再详述。
本申请还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述实施例所述文本特征抽取方法或者知识图谱构建方法。
本申请还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如如上述实施例所述文本特征抽取方法或者知识图谱构建方法。
需要说明的是,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成,所述计算机程序可以存储于计算机可读存储介质中,所述存储介质可以包括但不限于:只读存储器(ROM,Read OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的条件下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种文本特征抽取方法,其特征是,包括如下步骤:
以标注好的实体和关系为正样本作为基础构建负样本:实体负样本,关系负样本和指代消歧负样本;
对正样本和负样本进行映射表征,得到实体表征,实体对表征和指代消歧实体对表征构成的向量集;
对向量集进行分析,获取实体特征、指代消歧特征以及关系特征;
对实体特征、指代消歧特征以及关系特征进行分类;
设置损失函数,对分类结果进行评价。
2.如权利要求1所述的文本特征抽取方法,其特征是,所述构建实体负样本为基于人工标注的实体,构建得到的子实体,所述的子实体被原实体包含,子实体字数少于原实体。
3.如权利要求1所述的文本特征抽取方法,其特征是,所述构建实体负样本为基于人工标注的实体,构建得到的扩展实体,所述的扩展实体包含原实体,但字数大于原实体。
4.如权利要求1所述的文本特征抽取方法,其特征是,所述构建关系负样本为随机使用未在人工标注有关系的实体对来构建。
5.如权利要求1所述的文本特征抽取方法,其特征是,所述构建关系负样本为在人工标注的实体对中,随机改变关系的类型,使得实体关系的整体和原来不一样。
6.如权利要求1所述的文本特征抽取方法,其特征是,所述构建指代消歧负样本为在同一个段落中,选取在不同句子中,没有关系的实体对作为负样本。
7.如权利要求1所述的文本特征抽取方法,其特征是,对正样本和负样本进行映射表征,得到实体表征,实体对表征和指代消歧实体对表征构成的向量集,具体为:
实体表征通过采用bert标注和随机初始化表征相融合获得;
实体对表征通过把实体对中包含的字,去RE中索引出来对应的字特征,再把字特征放入一个多层的神经网络,把特征映射到统一空间,随机初始化语义向量获得;
指代消歧实体对表征采用实体对的编辑距离语义向量和实体对包含的字向量相融合获得。
8.如权利要求7所述的文本特征抽取方法,其特征是,对向量集进行分析,获取文本的特征包括:
实体特征:基于bert模型对句子进行特征抽取,得到每个字的特征,再对非实体关键字的特征进行屏蔽,得到包含实体字的特征E1,再把实体的长度用向量表示得到长度特征E2,把特征E1和特征E2进行拼接得到特征E3;
指代消歧特征:计算指代的实体对之间的编辑距离,对编辑距离进行特征嵌入,得到特征向量R1,将特征R1和实体的BERT特征E1进行拼接,得到特征R2;
关系特征:
将实体对用向量表示到特征P1,对实体对中的第二个实体首字的位置和第一个实体首字的位置之差进行嵌入,得到特征P2;
对第二个实体首字的位置和第一个实体最后一个字的位置进行之差嵌入,得到特征P3;用bert抽取出来的整个句子,得到特征S1;
并将特征P1、特征P2、特征P3、特征S1和特征E1进行拼接得到特征S2。
9.如权利要求8所述的文本特征抽取方法,其特征是,对实体特征、指代消歧特征以及关系特征进行分类包括:
在特征E3后接第一神经网络和分类器C1对实体的位置进行分类,同时在第一神经网络后再接一个分类器C2对实体的类型进行分类;
在特征R2后接第二神经网络和分类器C3,对指代消歧的实体对进行分类;
在特征S2后接第三神经网络和分类器C4,对实体关系进行分类。
10.一种知识图谱的构建方法,包括:
获取待创建知识图谱所属知识领域的文本;
对文本的进行知识抽取;
将多个知识库进行融合,形成知识图谱;
其特征在于,所述知识抽取中,对文本的特征抽取采用权利要求1-9中所述的任一方法。
CN202110958984.4A 2021-08-20 2021-08-20 一种文本特征抽取方法及知识图谱构建方法 Active CN113656556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110958984.4A CN113656556B (zh) 2021-08-20 2021-08-20 一种文本特征抽取方法及知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110958984.4A CN113656556B (zh) 2021-08-20 2021-08-20 一种文本特征抽取方法及知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN113656556A true CN113656556A (zh) 2021-11-16
CN113656556B CN113656556B (zh) 2023-08-15

Family

ID=78481490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110958984.4A Active CN113656556B (zh) 2021-08-20 2021-08-20 一种文本特征抽取方法及知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN113656556B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688920A (zh) * 2022-11-22 2023-02-03 百度国际科技(深圳)有限公司 知识抽取方法、模型的训练方法、装置、设备和介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150405A (zh) * 2013-03-29 2013-06-12 苏州大学 一种分类模型建模方法、中文跨文本指代消解方法和系统
EP2720164A2 (en) * 2012-10-12 2014-04-16 Nuance Communications, Inc. Methods and apparatus for applying user corrections to medical fact extraction
JP2016027493A (ja) * 2015-09-29 2016-02-18 株式会社東芝 文書分類支援装置、方法及びプログラム
CN106156340A (zh) * 2016-07-12 2016-11-23 浪潮(北京)电子信息产业有限公司 一种命名实体链接方法
US20170091320A1 (en) * 2015-09-01 2017-03-30 Panjiva, Inc. Natural language processing for entity resolution
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN108874773A (zh) * 2018-05-31 2018-11-23 平安医疗科技有限公司 关键词新增方法、装置、计算机设备和存储介质
CN110569366A (zh) * 2019-09-09 2019-12-13 腾讯科技(深圳)有限公司 文本的实体关系抽取方法、装置及存储介质
CN112084329A (zh) * 2020-07-31 2020-12-15 西安理工大学 一种针对实体识别和关系抽取任务的语义分析方法
AU2020103004A4 (en) * 2020-10-25 2020-12-24 Tang, Chia MR Method to build a document semantic and entity relationship model
CN113076758A (zh) * 2021-03-19 2021-07-06 中山大学 一种面向任务型对话的多域请求式意图识别方法
CN113111136A (zh) * 2021-04-29 2021-07-13 东南大学 一种基于ucl知识空间的实体消歧方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2720164A2 (en) * 2012-10-12 2014-04-16 Nuance Communications, Inc. Methods and apparatus for applying user corrections to medical fact extraction
CN103150405A (zh) * 2013-03-29 2013-06-12 苏州大学 一种分类模型建模方法、中文跨文本指代消解方法和系统
US20170091320A1 (en) * 2015-09-01 2017-03-30 Panjiva, Inc. Natural language processing for entity resolution
JP2016027493A (ja) * 2015-09-29 2016-02-18 株式会社東芝 文書分類支援装置、方法及びプログラム
CN106156340A (zh) * 2016-07-12 2016-11-23 浪潮(北京)电子信息产业有限公司 一种命名实体链接方法
CN108874773A (zh) * 2018-05-31 2018-11-23 平安医疗科技有限公司 关键词新增方法、装置、计算机设备和存储介质
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN110569366A (zh) * 2019-09-09 2019-12-13 腾讯科技(深圳)有限公司 文本的实体关系抽取方法、装置及存储介质
CN112084329A (zh) * 2020-07-31 2020-12-15 西安理工大学 一种针对实体识别和关系抽取任务的语义分析方法
AU2020103004A4 (en) * 2020-10-25 2020-12-24 Tang, Chia MR Method to build a document semantic and entity relationship model
CN113076758A (zh) * 2021-03-19 2021-07-06 中山大学 一种面向任务型对话的多域请求式意图识别方法
CN113111136A (zh) * 2021-04-29 2021-07-13 东南大学 一种基于ucl知识空间的实体消歧方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
帕尔哈提・吐尼牙孜: "基于医学领域的知识图谱", 《电脑知识与技术》, vol. 08, no. 202003 *
张雄等: "基于融合特征相似度的实体消歧方法研究", 《计算机应用研究》, no. 2017 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688920A (zh) * 2022-11-22 2023-02-03 百度国际科技(深圳)有限公司 知识抽取方法、模型的训练方法、装置、设备和介质
CN115688920B (zh) * 2022-11-22 2023-08-25 百度国际科技(深圳)有限公司 知识抽取方法、模型的训练方法、装置、设备和介质

Also Published As

Publication number Publication date
CN113656556B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
US10007658B2 (en) Multi-stage recognition of named entities in natural language text based on morphological and semantic features
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
CN110377759B (zh) 事件关系图谱构建方法及装置
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
RU2662688C1 (ru) Извлечение информации из смысловых блоков документов с использованием микромоделей на базе онтологии
RU2686000C1 (ru) Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки
US20220171936A1 (en) Analysis of natural language text in document
RU2679988C1 (ru) Извлечение информационных объектов с помощью комбинации классификаторов
CN110633577B (zh) 文本脱敏方法以及装置
CN108628828A (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN108268539A (zh) 基于文本分析的视频匹配系统
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN111159412A (zh) 分类方法、装置、电子设备及可读存储介质
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113010683B (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN113378573A (zh) 面向内容大数据的小样本关系抽取方法和装置
Xia et al. A regularized optimization framework for tag completion and image retrieval
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断系统及方法
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
CN115017335A (zh) 知识图谱构建方法和系统
CN114840685A (zh) 一种应急预案知识图谱构建方法
CN113656556B (zh) 一种文本特征抽取方法及知识图谱构建方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Building 10, No. 860, Xinyang Road, Lingang New District, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Applicant after: Shanghai Yikangyuan Medical Health Technology Co.,Ltd.

Address before: Building 10, No. 860, Xinyang Road, Lingang New District, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Applicant before: Shanghai dashanlin Medical Health Technology Co.,Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20221215

Address after: Room 2703, No. 277, Xingang East Road, Haizhu District, Guangzhou, Guangdong 510220

Applicant after: Guangzhou Tianchen Health Technology Co.,Ltd.

Address before: Building 10, No. 860, Xinyang Road, Lingang New District, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Applicant before: Shanghai Yikangyuan Medical Health Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant