CN111709243A - 一种基于深度学习的知识抽取方法与装置 - Google Patents

一种基于深度学习的知识抽取方法与装置 Download PDF

Info

Publication number
CN111709243A
CN111709243A CN202010563907.4A CN202010563907A CN111709243A CN 111709243 A CN111709243 A CN 111709243A CN 202010563907 A CN202010563907 A CN 202010563907A CN 111709243 A CN111709243 A CN 111709243A
Authority
CN
China
Prior art keywords
entity
probability
tail
knowledge
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010563907.4A
Other languages
English (en)
Other versions
CN111709243B (zh
Inventor
杨鹏
杨浩然
李文翰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Youhui Xin'an Technology Co ltd
Original Assignee
Nanjing Youhui Xin'an Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Youhui Xin'an Technology Co ltd filed Critical Nanjing Youhui Xin'an Technology Co ltd
Priority to CN202010563907.4A priority Critical patent/CN111709243B/zh
Publication of CN111709243A publication Critical patent/CN111709243A/zh
Application granted granted Critical
Publication of CN111709243B publication Critical patent/CN111709243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的知识抽取方法与装置。首先,本发明使用BERT+CNN模型抽取百科文本中存在的多种关系,该模型改进了CNN基本结构并增加Attention机制,进而提高抽取精度。接着,枚举抽取的多种关系,根据关系类型识别文本对应的头实体和尾实体,并使用基于概率的实体对筛选方法筛选实体对。最后,基于文本相似度的实体消歧算法实现筛选实体对中实体的消岐,该算法解决实体消歧可参照信息量少的问题。本发明在减少知识抽取计算量的同时,可以准确、全面地从百科文本中抽取三元组知识。

Description

一种基于深度学习的知识抽取方法与装置
技术领域
本发明涉及一种基于深度学习的知识抽取方法与装置,该方法使用深度学习技术对百科文本进行知识抽取,属于自然语言处理技术领域。
背景技术
随着电子技术、计算机技术、互联网络技术等方面科学技术的不断发展与进步,互联网已经成为人们获取信息和资源最主要途径。百度百科、互动百科、维基百科网站等一些网络百科项目,是人们欢迎、使用广泛的参考工具书。例如,许多网民将维基百科视为一个重要信息来源。然而,百科文本内容纷繁杂乱,包含大量描述性语句。用户需要阅读大段的描述性语句才能获取自己想要的信息。知识抽取技术可以屏蔽原始数据的繁琐细节,从原始数据中提炼出简洁的知识。使用知识抽取技术从百科文本中抽取知识,有助于用户快速理解文本内容。
当前知识抽取主流方法分为实体识别、关系抽取和实体消歧三个步骤。实体识别,又称命名实体识别(Named Entity Recognition),目标是抽取出文本中存在的多个实体,主流的方法包括基于规则的方法和基于机器学习的方法。实体识别后,穷举所有实体对,使用关系抽取技术抽取实体可能存在的关系。实体消歧可以在一定的上下文语境中,确定给定命名实体指称真正指向的实体概念。当前的知识抽取技术应用到百科文本中还存在以下问题:首先,百科文本通常一句话包含有多个实体。如果采用先实体识别再关系抽取的顺序,穷举多个实体对会大大增加知识抽取的计算量;其次,百科文本会出现包含多种关系和多个三元组的情况,从而导致准确率过低;最后,单个文本中抽取的实体相关描述信息量很少,难以利用少量的信息实现实体消歧。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提出了一种基于深度学习的知识抽取方法与装置,在减少知识抽取计算量的同时,可以准确、全面地从百科文本中抽取三元组知识。
技术方案:为实现上述发明目的,本发明所述的一种基于深度学习的知识抽取方法,首先使用BERT+CNN模型抽取百科文本中存在的多种关系;然后枚举存在的关系,根据关系识别文本中对应的头尾实体节点,并基于概率筛选实体对;最后根据相似度计算对识别出的实体进行实体消歧。该方法主要包括四个步骤,具体如下:
(1)使用BERT+CNN模型抽取百科文本中存在的实体间的关系,所述BERT+CNN模型通过BERT模型生成句子嵌入向量,并通过CNN模型抽取语义特征,CNN模型中增加Attention机制以加强特征抽取能力;
(2)对步骤(1)中抽取的每个关系,将其余对应的百科文本同时输入BERT模型,识别每个关系对应的头尾实体节点,针对每个文本序列,输出头实体的起始概率和结束概率,以及,尾实体的起始概率和结束概率;
(3)根据步骤(2)输出的概率,去除重复实体,并根据就近原则筛选实体对;
(4)计算筛选的实体与百科中的实体之间的相似度,并根据相似度找到百科中对应的实体,完成实体消歧过程。
作为优选,所述步骤(1)中在CNN模型卷积核结构基础上加入残差,设第l层卷积层输入序列为
Figure BDA0002547101340000021
其中n为序列长度,
Figure BDA0002547101340000022
为长度d的向量,卷积宽度为k,卷积核参数为W∈R2d×kd,bw∈R2d,卷积核计算方式如下:
Figure BDA0002547101340000023
其中
Figure BDA0002547101340000024
张量大小为R2d,函数υ将该张量分为两部分,其中一个张量通过一个Sigmoid激活函数,再与另一个张量点积。
作为优选,所述步骤(1)中注意力机制在卷积神经网络中逐层计算,并且注意力范围随网络层数增加而扩大。
作为优选,所述步骤(3)中包括:
(3.1)枚举句子中的子串,每个子串分别计算作为头节点的概率headij和尾节点的概率tailij,若子串作为头节点的概率高于设定阈值则加入头节点待选集合,若子串作为尾节点的概率高于设定阈值则加入尾节点待选集合;其中
Figure BDA0002547101340000025
为文本序列中第i个位置成为头节点开始位置的概率,
Figure BDA0002547101340000031
为第j个位置成为头节点结束位置的概率,
Figure BDA0002547101340000032
为第i个位置成为尾节点开始位置的概率,
Figure BDA0002547101340000033
为第j个位置成为尾节点结束位置的概率;
(3.2)若集合中存在某个子串与另一个子串存在相交的部分,则根据概率大小去除概率小的子串;
(3.3)比较头实体节点待选集合和尾实体节点待选集合大小,在实体数量较多的集合中,每个实体就近匹配另一个集合中的实体,进而形成实体对。
作为优选,所述步骤(4)中包括:
(4.1)对于抽取的由头实体名、关系名和尾实体名组成的三元组知识中的实体名e,若与百科文本中对应句子归属的实体名eo相同,则e和eo属于同一实体,结束本次实体消歧过程;
(4.2)根据实体名e查询百科中的实体及实体对应的文本描述,通过实体名筛选近似实体,筛选条件为待筛选实体名ecandi和实体名e重复字数超过两个实体名长度的一半,筛选出的实体存入待选实体集合;
(4.3)对待选实体集合中的待选实体的实体描述进行筛选,生成实体描述集合,并计算和待消歧实体的相似度;其中待选实体和待消歧实体相似度包括实体名相似度和实体描述相似度,选择相似度最高的实体作为待消歧实体对应的实体。
作为优选,步骤(4.3)中实体描述筛选方法为:对待选实体ecandi的实体描述按句子划分,逐个将句子集合中的句子和三元组知识所在句子t比较,若句子去掉停用词后与句子t存在重复词汇,则该句加入实体描述集合,参与到相似度计算中。
基于相同的发明构思,本发明提供的一种基于深度学习的知识抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于深度学习的知识抽取方法。
基于相同的发明构思,本发明提供的一种存储装置,存储有可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于深度学习的知识抽取方法。
有益效果:与现有技术相比,本发明具体如下优点:
1、本发明采用先关系抽取,后实体识别的方式,大大减少了知识抽取的计算量。
2、本发明改进了卷积神经网络结构,加入了残差和Attention机制,并提出实体对筛选方法,解决了同一文本中出现包含多种关系和多个三元组的情况,提高知识抽取精度。
3、本发明提出一种基于文本相似度的实体消歧算法,该算法解决了实体消歧可参照信息量少的问题,通过比较抽取实体的文本和实体描述文本的相似度实现实体消歧。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的知识抽取模型结构图。
图3为本发明实施例涉及的改进卷积神经网络结构图。
图4为本发明实施例涉及的实体识别网络结构图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明实施例以维基百科为例,公开的一种基于深度学习的知识抽取方法,具体实施步骤如下:
步骤1,使用BERT+CNN模型抽取维基百科文本中存在的多种关系,改进CNN基本结构,并增加Attention机制以加强关键特征抽取能力。模型整体结构如图2所示,包括句子嵌入层、卷积层、全连接层和输出层四个部分。句子嵌入层使用BERT模型生成句子嵌入向量,卷积层用于抽取关键语义特征,全连接层用于整合卷积层的输出信息,以适合输出层的输出,输出层输出文本中存在关系的概率。
传统的知识抽取方法采用先实体识别再关系抽取的顺序,实体识别会产生大量的冗余实体,增加知识抽取计算量。本发明首先抽取维基百科文本中存在的关系,将关系抽取视为多标签分类问题。如文本“曹丕生于沛国谯县,曹操之子。”存在两个三元组知识,<曹丕,出生地,沛国谯县>和<曹丕,父亲,曹操>,步骤1负责抽取“出生地”和“父亲”两种关系,具体实施过程分为3个子步骤:
子步骤1.1,将维基百科文本输入BERT模型,BERT模型[CLS]符号对应的输出向量可以用于单文本分类任务,取[CLS]对应的输出向量作为维基百科文本的向量表示。
子步骤1.2,将BERT模型输出的768维向量分为长度为12的序列,以适应卷积神经网络的输入格式,每个序列长度为64维,并输入卷积层。本发明改进卷积核基本结构,加入残差,并在每层CNN网络增加Attention机制,用来抽取一定范围内的关键特征。
CNN改进模型结构如图3所示,设第l层卷积层输入序列为
Figure BDA0002547101340000051
其中,n为序列长度,
Figure BDA0002547101340000052
为长度d的向量,卷积宽度为k,卷积核参数为W∈R2d×kd,bw∈R2d,卷积核计算方式如公式(1)所示:
Figure BDA0002547101340000053
其中
Figure BDA0002547101340000054
张量大小为R2d,函数υ将该张量分为A、B两部分,将张量B通过一个Sigmoid激活函数,再与张量A点积,函数υ的计算方式如公式(2)所示:
Figure BDA0002547101340000055
每层卷积网络层加入了Attention机制,以增强特征交互能力,设第l层卷积输出序列为
Figure BDA0002547101340000056
文本信息抽取范围为st,st为模型预设的超参数,对于向量
Figure BDA0002547101340000057
通过Attention机制抽取
Figure BDA0002547101340000058
范围的关键特征,计算方式如下:
Figure BDA0002547101340000059
Figure BDA00025471013400000510
其中,λk为第k个序列对于第i个序列的注意力权重,k∈[i-st,i+st],在计算
Figure BDA00025471013400000511
的注意力权重时,会生成{λi-st,…,λi+st}的注意力权重序列,Watt和batt为Attention机制的共享参数。该注意力机制在卷积神经网络中逐层计算,并且注意力范围随网络层数增加而扩大,以保证模型先抽取短距离文本特征后抽取长距离文本特征。在该模型中采用8层卷积神经网络,前三层网络中注意力范围st设为3,中间三层网络注意力范围st设为5,最后两层网络注意力范围st设为7。
子步骤1.3,将卷积层输出进行拼接,通过两个全连接层进行微调,最终使用Sigmoid层输出,预测文本存在的多种关系。BERT+CNN模型损失函数如下:
Figure BDA0002547101340000061
其中,M为关系类型数量,λ为超参数,ω为模型参数,yc为真实关系类别,pc为对于关系类型c的预测值。
步骤2,枚举步骤1中抽取的多种关系,根据每个关系识别对应的头尾实体节点,针对每个文本序列,输出头实体、尾实体的起始概率和结束概率。模型整体结构图如图3所示,模型分为三个部分,分别是嵌入层、卷积层和输出层。文本输入嵌入层,使用BERT模型生成文本对应序列,并输入卷积层,抽取实体相关特征,卷积层结构与步骤1的卷积结构相同。在输出层设计上,对卷积层输出的每个序列使用四指针输出,输出该序列位置成为头实体、尾实体的起始概率和结束概率。具体实施过程分为3个子步骤:
子步骤2.1,枚举步骤1抽取的若干关系,将关系和维基百科文本同时输入BERT模型,取维基百科文本对应的输出序列。假设关系为relation,维基百科文本序列为{word1,word2,…,wordn},则输入BERT模型的格式如下:
INPUT=[CLS]relation[SEP]word1,word2,…,wordn (6)
其中,n为文本序列长度,关系和维基百科文本之间使用[SEP]标签间隔,BERT模型输出取word1到wordn对应的输出序列。
子步骤2.2,将输出序列输入CNN层,实现序列特征的充分交互。步骤2.2中的卷积神经网络结构沿用步骤1.2中的卷积结构,与步骤1.2不同的是,BERT模型的输出序列直接作为卷积神经网络的输入,不需要进一步拆分。
子步骤2.3,对于CNN层输出的每个序列使用四指针输出,输出为四个概率,分别为头实体、尾实体的起始概率和结束概率。每个序列长度为n的序列,对于每个序列使用四个Sigmoid输出,输出的四个概率分别为头实体、尾实体的起始概率和结束概率,模型的损失函数如下:
Figure BDA0002547101340000062
其中,
Figure BDA0002547101340000063
为真实值,
Figure BDA0002547101340000064
为文本序列中第i个位置成为头节点开始位置的概率,
Figure BDA0002547101340000065
为第i个位置成为头节点结束位置的概率,
Figure BDA0002547101340000066
为第i个位置成为尾节点开始位置的概率,
Figure BDA0002547101340000071
为第i个位置成为尾节点结束位置的概率,λ为L2正则项的超参数,ωner为模型参数。
步骤3,提出一种实体对筛选方法,根据步骤2输出计算概率,去除重复实体,并根据就近原则筛选实体对,该过程的实施过程主要分为3个子步骤:
子步骤3.1,枚举句子中的子串,每个子串计算作为头节点和尾节点的起始概率、结束概率之积作为打分,设步骤2中模型生成的概率序列为
Figure BDA0002547101340000072
其中基于以上序列,则文本中第i个位置到第j个位置构成的子串成为头节点和尾节点的概率计算如下:
Figure BDA0002547101340000073
Figure BDA0002547101340000074
对子串计算的概率进行排序,设定阈值α,高于该阈值则加入头节点待选集合和尾节点待选集合。
子步骤3.2,去除重复实体,若集合中存在某个子串与另一个子串存在相交的部分,则根据概率大小去除概率小的子串。
子步骤3.3,考虑文本中可能出现的同一个关系存在多个实体对的情况,若头节点待选集合和尾节点改选集合待选实体数量都大于2,则根据就近原则匹配实体对,就近原则实体的中心位置为标准。比较头实体节点待选集合和尾实体节点待选集合大小,在实体数量较多的集合中,每个实体就近匹配另一个集合中的实体,进而形成实体对。
例如文本“《大明风华》是由张挺执导,汤唯、朱亚文、邓家佳等领衔主演的古装剧”,步骤2中根据关系“主演”抽取的结果,经过子步骤3.1和子步骤3.2筛选出的头实体节点待选集合和尾实体待选集合分别为“大明风华”,“汤唯、朱亚文、邓世佳”,则根据集合大小,尾实体待选集合中的实体依次和头实体待选集合的实体匹配。
步骤4,计算筛选的实体与维基百科中的实体之间的相似度,并根据相似度找到维基百科中对应的实体节点,完成实体消歧过程,设百科文本中待抽取三元组的句子t归属于实体e0对应的词条,经过步骤1-步骤3抽取的三元组知识为<eh,r,et>,eh为头实体名,r为关系名,et为尾实体名,以头实体eh的实体消歧过程为例,该过程的实施过程主要分为3个子步骤:
子步骤4.1,比较eh和eo实体名,若是实体名相同,则eh和eo属于同一实体,结束本次实体消歧过程。
子步骤4.2,使用mediawiki api根据eh实体名查询维基百科中的实体及实体对应的文本描述,通过实体名筛选近似实体,筛选条件为待筛选实体名ecandi和实体名eh重复字数超过两个实体名长度的一半,筛选出的实体存入待选实体集合。
子步骤4.3,对待选实体集合中的待选实体的实体描述进行筛选,生成实体描述集合,并和待消歧实体的相似度。
实体描述筛选方法如下:对待选实体ecandi的实体描述按句子划分,逐个将句子集合中的句子和句子t比较,若句子去掉停用词后与句子t存在重复词汇,则该句加入待选实体描述集合,参与到相似度计算当中。
两个文本的相似度计算方法如下:设存在两个文本t1和t2,统计t1、t2包含的所有文字,并建立文字索引表,并生成t1和t2对应的句向量vector1和vector2,句向量中第i位为j,代表索引表中第i位对应的文字在文本中出现了j次,文本t1和t2的相似度如公式(10)所示。
Figure BDA0002547101340000081
待选实体和待消歧实体相似度包括实体名相似度和实体描述相似度。选择相似度最高的实体作为待消歧实体对应的实体。相似度计算方法如下:
Figure BDA0002547101340000082
其中,ecandi为待选实体名,β为可调节参数,t′i属于待选实体ecandi的待选实体描述集合,待选实体描述集合中句子数量为k。经过实体消歧后,本知识抽取方法完成维基百科知识抽取。
基于相同的发明构思,本发明实施例提供的一种基于深度学习的知识抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的基于深度学习的知识抽取方法。
基于相同的发明构思,本发明实施例提供的一种存储装置,存储有可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的基于深度学习的知识抽取方法。

Claims (8)

1.一种基于深度学习的知识抽取方法,其特征在于,包括如下步骤:
(1)使用BERT+CNN模型抽取百科文本中存在的实体间的关系,所述BERT+CNN模型通过BERT模型生成句子嵌入向量,并通过CNN模型抽取语义特征,CNN模型中增加Attention机制以加强特征抽取能力;
(2)对步骤(1)中抽取的每个关系,将其余对应的百科文本同时输入BERT模型,识别每个关系对应的头尾实体节点,针对每个文本序列,输出头实体的起始概率和结束概率,以及,尾实体的起始概率和结束概率;
(3)根据步骤(2)输出的概率,去除重复实体,并根据就近原则筛选实体对;
(4)计算筛选的实体与百科中的实体之间的相似度,并根据相似度找到百科中对应的实体,完成实体消歧过程。
2.根据权利要求1所述的一种基于深度学习的知识抽取方法,其特征在于,所述步骤(1)中在CNN模型卷积核结构基础上加入残差,设第l层卷积层输入序列为
Figure FDA0002547101330000011
其中n为序列长度,
Figure FDA0002547101330000012
为长度d的向量,卷积宽度为k,卷积核参数为W∈R2d×kd,bw∈R2d,卷积核计算方式如下:
Figure FDA0002547101330000013
其中
Figure FDA0002547101330000014
张量大小为R2d,函数υ将该张量分为两部分,其中一个张量通过一个Sigmoid激活函数,再与另一个张量点积。
3.根据权利要求1所述的一种基于深度学习的知识抽取方法,其特征在于,所述步骤(1)中注意力机制在卷积神经网络中逐层计算,并且注意力范围随网络层数增加而扩大。
4.根据权利要求1所述的一种基于深度学习的知识抽取方法,其特征在于,所述步骤(3)中包括:
(3.1)枚举句子中的子串,每个子串分别计算作为头节点的概率headij和尾节点的概率tailij,若子串作为头节点的概率高于设定阈值则加入头节点待选集合,若子串作为尾节点的概率高于设定阈值则加入尾节点待选集合;其中
Figure FDA0002547101330000015
Figure FDA0002547101330000016
为文本序列中第i个位置成为头节点开始位置的概率,
Figure FDA0002547101330000021
为第j个位置成为头节点结束位置的概率,
Figure FDA0002547101330000022
为第i个位置成为尾节点开始位置的概率,
Figure FDA0002547101330000023
为第j个位置成为尾节点结束位置的概率;
(3.2)若集合中存在某个子串与另一个子串存在相交的部分,则根据概率大小去除概率小的子串;
(3.3)比较头实体节点待选集合和尾实体节点待选集合大小,在实体数量较多的集合中,每个实体就近匹配另一个集合中的实体,进而形成实体对。
5.根据权利要求1所述的一种基于深度学习的知识抽取方法,其特征在于,所述步骤(4)中包括:
(4.1)对于抽取的由头实体名、关系名和尾实体名组成的三元组知识中的实体名e,若与百科文本中对应句子归属的实体名eo相同,则e和eo属于同一实体,结束本次实体消歧过程;
(4.2)根据实体名e查询百科中的实体及实体对应的文本描述,通过实体名筛选近似实体,筛选条件为待筛选实体名ecandi和实体名e重复字数超过两个实体名长度的一半,筛选出的实体存入待选实体集合;
(4.3)对待选实体集合中的待选实体的实体描述进行筛选,生成实体描述集合,并计算和待消歧实体的相似度;其中待选实体和待消歧实体相似度包括实体名相似度和实体描述相似度,选择相似度最高的实体作为待消歧实体对应的实体。
6.根据权利要求5所述的一种基于深度学习的知识抽取方法,其特征在于,步骤(4.3)中实体描述筛选方法为:对待选实体ecandi的实体描述按句子划分,逐个将句子集合中的句子和三元组知识所在句子t比较,若句子去掉停用词后与句子t存在重复词汇,则该句加入实体描述集合,参与到相似度计算中。
7.一种基于深度学习的知识抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于深度学习的知识抽取方法。
8.一种存储装置,存储有可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于深度学习的知识抽取方法。
CN202010563907.4A 2020-06-19 2020-06-19 一种基于深度学习的知识抽取方法与装置 Active CN111709243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010563907.4A CN111709243B (zh) 2020-06-19 2020-06-19 一种基于深度学习的知识抽取方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010563907.4A CN111709243B (zh) 2020-06-19 2020-06-19 一种基于深度学习的知识抽取方法与装置

Publications (2)

Publication Number Publication Date
CN111709243A true CN111709243A (zh) 2020-09-25
CN111709243B CN111709243B (zh) 2023-07-07

Family

ID=72541166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010563907.4A Active CN111709243B (zh) 2020-06-19 2020-06-19 一种基于深度学习的知识抽取方法与装置

Country Status (1)

Country Link
CN (1) CN111709243B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257443A (zh) * 2020-09-30 2021-01-22 华泰证券股份有限公司 一种结合知识库的基于mrc的公司实体消歧方法
CN112528045A (zh) * 2020-12-23 2021-03-19 中译语通科技股份有限公司 基于开放百科图谱的领域图谱关系的判定方法及系统
CN112599211A (zh) * 2020-12-25 2021-04-02 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置
CN113011170A (zh) * 2021-02-25 2021-06-22 万翼科技有限公司 合同处理方法、电子设备及相关产品
CN113051929A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于细粒度语义信息增强的实体关系抽取的方法
CN113220900A (zh) * 2021-05-10 2021-08-06 深圳价值在线信息科技股份有限公司 实体消歧模型的建模方法和实体消歧预测方法
CN113569554A (zh) * 2021-09-24 2021-10-29 北京明略软件系统有限公司 一种数据库中实体对匹配方法、装置、电子设备及存储介质
CN113657119A (zh) * 2021-08-19 2021-11-16 天津大学 基于预训练语言模型的古今汉语自然语言处理方法
CN114330323A (zh) * 2022-03-08 2022-04-12 成都数联云算科技有限公司 实体关系联合抽取方法、装置、计算机终端及存储介质
CN114757179A (zh) * 2022-04-13 2022-07-15 成都信息工程大学 一种实体关系联合抽取方法及装置
CN114841151A (zh) * 2022-07-04 2022-08-02 武汉纺织大学 基于分解-重组策略的医学文本实体关系联合抽取方法
CN115659986A (zh) * 2022-12-13 2023-01-31 南京邮电大学 一种面向糖尿病文本的实体关系抽取方法
CN115827884A (zh) * 2022-07-27 2023-03-21 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备、介质及程序产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN108228877A (zh) * 2018-01-22 2018-06-29 北京师范大学 基于学习排序算法的知识库补全方法及装置
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110866399A (zh) * 2019-10-24 2020-03-06 同济大学 一种基于增强字符向量的中文短文本实体识别与消歧方法
CN110909549A (zh) * 2019-10-11 2020-03-24 北京师范大学 对古汉语进行断句的方法、装置以及存储介质
CN111079431A (zh) * 2019-10-31 2020-04-28 北京航天云路有限公司 一种基于迁移学习的实体关系联合抽取方法
CN111143576A (zh) * 2019-12-18 2020-05-12 中科院计算技术研究所大数据研究院 一种面向事件的动态知识图谱构建方法和装置
CN111160443A (zh) * 2019-12-25 2020-05-15 浙江大学 一种基于深度多任务学习的活动和用户识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN108228877A (zh) * 2018-01-22 2018-06-29 北京师范大学 基于学习排序算法的知识库补全方法及装置
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110909549A (zh) * 2019-10-11 2020-03-24 北京师范大学 对古汉语进行断句的方法、装置以及存储介质
CN110866399A (zh) * 2019-10-24 2020-03-06 同济大学 一种基于增强字符向量的中文短文本实体识别与消歧方法
CN111079431A (zh) * 2019-10-31 2020-04-28 北京航天云路有限公司 一种基于迁移学习的实体关系联合抽取方法
CN111143576A (zh) * 2019-12-18 2020-05-12 中科院计算技术研究所大数据研究院 一种面向事件的动态知识图谱构建方法和装置
CN111160443A (zh) * 2019-12-25 2020-05-15 浙江大学 一种基于深度多任务学习的活动和用户识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邵发;黄银阁;周兰江;郭剑毅;余正涛;张金鹏;: "基于实体消歧的中文实体关系抽取" *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257443B (zh) * 2020-09-30 2024-04-02 华泰证券股份有限公司 一种结合知识库的基于mrc的公司实体消歧方法
CN112257443A (zh) * 2020-09-30 2021-01-22 华泰证券股份有限公司 一种结合知识库的基于mrc的公司实体消歧方法
CN112528045A (zh) * 2020-12-23 2021-03-19 中译语通科技股份有限公司 基于开放百科图谱的领域图谱关系的判定方法及系统
CN112528045B (zh) * 2020-12-23 2024-04-02 中译语通科技股份有限公司 基于开放百科图谱的领域图谱关系的判定方法及系统
CN112599211A (zh) * 2020-12-25 2021-04-02 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置
CN112599211B (zh) * 2020-12-25 2023-03-21 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置
CN113011170B (zh) * 2021-02-25 2022-10-14 万翼科技有限公司 合同处理方法、电子设备及相关产品
CN113011170A (zh) * 2021-02-25 2021-06-22 万翼科技有限公司 合同处理方法、电子设备及相关产品
CN113051929A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于细粒度语义信息增强的实体关系抽取的方法
CN113220900A (zh) * 2021-05-10 2021-08-06 深圳价值在线信息科技股份有限公司 实体消歧模型的建模方法和实体消歧预测方法
CN113220900B (zh) * 2021-05-10 2023-08-25 深圳价值在线信息科技股份有限公司 实体消歧模型的建模方法和实体消歧预测方法
CN113657119B (zh) * 2021-08-19 2024-04-30 天津大学 基于预训练语言模型的古今汉语自然语言处理方法
CN113657119A (zh) * 2021-08-19 2021-11-16 天津大学 基于预训练语言模型的古今汉语自然语言处理方法
CN113569554A (zh) * 2021-09-24 2021-10-29 北京明略软件系统有限公司 一种数据库中实体对匹配方法、装置、电子设备及存储介质
CN114330323A (zh) * 2022-03-08 2022-04-12 成都数联云算科技有限公司 实体关系联合抽取方法、装置、计算机终端及存储介质
CN114757179A (zh) * 2022-04-13 2022-07-15 成都信息工程大学 一种实体关系联合抽取方法及装置
CN114841151A (zh) * 2022-07-04 2022-08-02 武汉纺织大学 基于分解-重组策略的医学文本实体关系联合抽取方法
CN115827884A (zh) * 2022-07-27 2023-03-21 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备、介质及程序产品
CN115659986A (zh) * 2022-12-13 2023-01-31 南京邮电大学 一种面向糖尿病文本的实体关系抽取方法

Also Published As

Publication number Publication date
CN111709243B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN111709243A (zh) 一种基于深度学习的知识抽取方法与装置
CN111783462B (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
WO2023065544A1 (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN112711948B (zh) 一种中文句子的命名实体识别方法及装置
CN112632225B (zh) 基于案事件知识图谱的语义搜索方法、装置和电子设备
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
CN112632226B (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN111191002A (zh) 一种基于分层嵌入的神经代码搜索方法及装置
CN113268586A (zh) 文本摘要生成方法、装置、设备及存储介质
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN112151183A (zh) 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
WO2023134083A1 (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN115374786A (zh) 实体和关系联合抽取方法及装置、存储介质和终端
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN112800244B (zh) 一种中医药及民族医药知识图谱的构建方法
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
Bhatt et al. Pho (SC)-CTC—a hybrid approach towards zero-shot word image recognition
WO2023137903A1 (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant