CN111460821B - 一种实体识别与链接方法及装置 - Google Patents

一种实体识别与链接方法及装置 Download PDF

Info

Publication number
CN111460821B
CN111460821B CN202010177043.2A CN202010177043A CN111460821B CN 111460821 B CN111460821 B CN 111460821B CN 202010177043 A CN202010177043 A CN 202010177043A CN 111460821 B CN111460821 B CN 111460821B
Authority
CN
China
Prior art keywords
entity
word sequence
probability
sequence
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010177043.2A
Other languages
English (en)
Other versions
CN111460821A (zh
Inventor
曾祥荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010177043.2A priority Critical patent/CN111460821B/zh
Publication of CN111460821A publication Critical patent/CN111460821A/zh
Application granted granted Critical
Publication of CN111460821B publication Critical patent/CN111460821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种实体识别与链接方法及装置,包括:获取当前输入文本的第一字序列;将第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量;根据输出向量序列判断当前输入文本属于预设实体的概率;将概率最大的预设实体确定为目标实体;将当前输入文本和目标实体进行链接。通过识别当前输入文本所述预设实体的概率来确定目标实体进而和目标实体实现链接,使得在识别了目标实体的同时又链接了目标实体,避免了误链接情况的发生,解决了现有技术中如果实体识别部分识别出错,必然导致实体链接失败,进而导致出现严重的后果,提高了准确性和安全性。

Description

一种实体识别与链接方法及装置
技术领域
本发明涉及实体链接技术领域,尤其涉及一种实体识别与链接方法及装置。
背景技术
大数据时代的到来,为人工智能的飞速发展带来前所未有的数据红利。在大数据的“喂养”下,人工智能技术获得了前所未有的长足进步。其进展突出体现在以知识图谱为代表的知识工程以及深度学习为代表的机器学习等相关领域。随着深度学习对于大数据的红利消耗殆尽,深度学习模型效果的天花板日益迫近。另一方面大量知识图谱不断涌现,这些蕴含人类大量先验知识的宝库却尚未被深度学习有效利用。融合知识图谱与深度学习,已然成为进一步提升深度学习模型效果的重要思路之一。而在知识图谱技术中,最为基础且重要的是实体的识别与实体链接技术。
现有技术的实体识别和链接的方法通常分成实体识别与实体链接两个独立的步骤。即先使用实体识别模块识别出文本中的潜在实体,再通过实体链接模块将潜在的实体链接到目标实体上。这种方法存在以下缺点:已有的实体识别与链接系统以流水线的方式前进行实体识别,再进行实体链接,因此会受到误差传递的影响。即如果实体识别部分识别出错,必然导致实体链接失败,进而导致出现严重的后果。
发明内容
针对上述所显示出来的问题,本方法基于识别当前输入文本为预设实体的概率,将概率最大得预设实体确定是否为目标实体,然后将当前输入文本和目标实体实现链接。
一种实体识别与链接方法,包括以下步骤:
获取当前输入文本的第一字序列;
将所述第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量;
根据所述输出向量序列判断所述当前输入文本属于所述预设实体的概率;
将所述概率最大的预设实体确定为目标实体;
将所述当前输入文本和所述目标实体进行链接。
优选的,所述获取当前输入文本的第一字序列,包括:
将所述当前输入文本以汉字和标点符号为单位,拆分为第三字序列w=[w1,w2,…,wn],其中,n为所述当前输入文本中字符的个数;
在所述第三字序列前增加第一特殊字符“[CLS]”,在所述第三字序列后增加第二特殊字符“[SEP]”;
将增加了特殊字符的所述第三字序列确定为所述第一字序列;
在将所述第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量之前,所述方法还包括:
预先建立一个实体表E=[e1,e2,…,em],其中,所述m为所述实体表中的实体个数。
优选的,所述将所述第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量,包括:
在实体表中抽取实体ej作为所述预设实体;其中,j∈[1,m]
将所述实体ej拆分为第二字序列其中k表示所述实体ej包含的字符的个数;
在所述第一字序列后拼接所述第二字序列确定最终的第四字序列T=[t1,t2,…,tn+k+2],其中,所述t1对应第一特殊字符“[CLS]”,t2,…,tn+1分别对应w1,w2,…,wn,tn+2对应第二特殊字符“[SEP]”,tn+2+1,…,tn+2+k分别对应
获取所述第四字序列的输入向量序列;
将所述输入向量序列输入到所述BERT模型中得到所述输出序列向量。
优选的,所述根据所述输出向量序列判断所述当前输入文本属于所述预设实体的概率,包括:
根据所述输出向量序列设置第一标签和第二标签;
确定所述第一字序列中每个字符的当前标签属于所述第一序列标签的第一概率或者属于所述第二标签的第二概率;
根据所述第一概率确定识别的第一当前实体,根据所述第二概率确定识别的第二当前实体;
利用下列公式计算所述第一当前实体和第二当前实体是否属于实体ej
qj=sigmoid(u1×W2+b2)
其中,所述W2、b2为预设参数,所述qj为所述第一当前实体或第二当前实体链接到所述实体ej的概率。
优选的,在将所述概率最大的预设实体确定为目标实体之前,所述方法还包括:
获取所述第一字序列链接到实体表中m个实体的概率q=[q1,…,qj…,qm];
所述将所述概率最大的预设实体确定为目标实体,包括:
获取所述概率q中的最大值;
确定所述最大值对应的第一实体,其中,所述第一实体为所述m个实体中的任一实体;
将所述第一实体确定为目标实体。
一种实体识别与链接装置,该装置包括:
第一获取模块,用于获取当前输入文本的第一字序列;
结合模块,用于将所述第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量;
判断模块,用于根据所述输出向量序列判断所述当前输入文本属于所述预设实体的概率;
确定模块,用于将所述概率最大的预设实体确定为目标实体;
链接模块,用于将所述当前输入文本和所述目标实体进行链接。
优选的,所述获取模块,包括:
第一拆分子模块,用于将所述当前输入文本以汉字和标点符号为单位,拆分为第三字序列w=[w1,w2,…,wn],其中,n为所述当前输入文本中字符的个数;
增加子模块,用于在所述第三字序列前增加第一特殊字符“[CLS]”,在所述第三字序列后增加第二特殊字符“[SEP]”;
第一确定子模块,用于将增加了特殊字符的所述第三字序列确定为所述第一字序列;
所述装置还包括:
建立模块,用于预先建立一个实体表E=[e1,e2,…,em],其中,所述m为所述实体表中的实体个数。
优选的,所述结合模块,包括:
抽取子模块,用于在实体表中抽取实体ej作为所述预设实体;其中,j∈[1,m]
第二拆分子模块,用于将所述实体ej拆分为第二字序列其中k表示所述实体ej包含的字符的个数;
第二确定子模块,用于在所述第一字序列后拼接所述第二字序列确定最终的第四字序列T=[t1,t2,…,tn+k+2],其中,所述t1对应第一特殊字符“[CLS]”,t2,…,tn+1分别对应w1,w2,…,wn,tn+2对应第二特殊字符“[SEP]”,tn+2+1,…,tn+2+k分别对应
第一获取子模块,用于获取所述第四字序列的输入向量序列;
输入子模块,用于将所述输入向量序列输入到所述BERT模型中得到所述输出序列向量。
优选的,所述判断模块,包括:
设置子模块,用于根据所述输出向量序列设置第一标签和第二标签;
第三确定子模块,用于确定所述第一字序列中每个字符的当前标签属于所述第一序列标签的第一概率或者属于所述第二标签的第二概率;
第四确定子模块,用于根据所述第一概率确定识别的第一当前实体,根据所述第二概率确定识别的第二当前实体;
计算子模块,用于利用下列公式计算所述第一当前实体和第二当前实体是否属于实体ej
qj=sigmoid(u1×W2+b2)
其中,所述W2、b2为预设参数,所述qj为所述第一当前实体或第二当前实体链接到所述实体ej的概率。
优选的,所述装置还包括:
第二获取模块,用于获取所述第一字序列链接到实体表中m个实体的概率q=[q1,…,qj…,qm];
所述确定模块,包括:
第二获取子模块,用于获取所述概率q中的最大值;
第五确定子模块,用于确定所述最大值对应的第一实体,其中,所述第一实体为所述m个实体中的任一实体;
第六确定子模块,用于将所述第一实体确定为所述目标实体。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明所提供的一种实体识别与链接方法的工作流程图;
图2为本发明所提供的一种实体识别与链接方法的另一工作流程图;
图3为本发明所提供的一种实体识别与链接装置的结构图;
图4为本发明所提供的一种实体识别与链接装置的另一结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
大数据时代的到来,为人工智能的飞速发展带来前所未有的数据红利。在大数据的“喂养”下,人工智能技术获得了前所未有的长足进步。其进展突出体现在以知识图谱为代表的知识工程以及深度学习为代表的机器学习等相关领域。随着深度学习对于大数据的红利消耗殆尽,深度学习模型效果的天花板日益迫近。另一方面大量知识图谱不断涌现,这些蕴含人类大量先验知识的宝库却尚未被深度学习有效利用。融合知识图谱与深度学习,已然成为进一步提升深度学习模型效果的重要思路之一。而在知识图谱技术中,最为基础且重要的是实体的识别与实体链接技术。
现有技术的实体识别和链接的方法通常分成实体识别与实体链接两个独立的步骤。即先使用实体识别模块识别出文本中的潜在实体,再通过实体链接模块将潜在的实体链接到目标实体上。这种方法存在以下缺点:已有的实体识别与链接系统以流水线的方式前进行实体识别,再进行实体链接,因此会受到误差传递的影响。即如果实体识别部分识别出错,必然导致实体链接失败,进而导致出现严重的后果。为了解决上述问题,本实施例公开了一种基于识别当前输入文本为预设实体的概率,将概率最大得预设实体确定是否为目标实体,然后将当前输入文本和目标实体实现链接的方法。
一种实体识别与链接方法,如图1所示,包括以下步骤:
步骤S101、获取当前输入文本的第一字序列;
步骤S102、将第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量;
步骤S103、根据输出向量序列判断当前输入文本属于预设实体的概率;
步骤S104、将概率最大的预设实体确定为目标实体;
步骤S105、将当前输入文本和目标实体进行链接。
上述技术方案的工作原理为:获取当前输入文本的第一字序列,将第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量,根据输出向量序列判断当前输入文本属于预设实体的概率,将概率最大的预设实体确定为目标实体,最后将当前输入文本和目标实体进行链接。
上述技术方案的有益效果为:通过识别当前输入文本所述预设实体的概率来确定目标实体进而和目标实体实现链接,使得在识别了目标实体的同时又链接了目标实体,避免了误链接情况的发生,解决了现有技术中如果实体识别部分识别出错,必然导致实体链接失败,进而导致出现严重的后果,提高了准确性和安全性。
在一个实施例中,获取当前输入文本的第一字序列,包括:
将当前输入文本以汉字和标点符号为单位,拆分为第三字序列w=[w1,w2,…,wn],其中,n为当前输入文本中字符的个数;
在第三字序列前增加第一特殊字符“[CLS]”,在第三字序列后增加第二特殊字符“[SEP]”;
将增加了特殊字符的第三字序列确定为第一字序列;
在将第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量之前,上述方法还包括:
预先建立一个实体表E=[e1,e2,…,em],其中,所述m为实体表中的实体个数。
上述技术方案的有益效果为:通过预先建立实体表来判断当前输入文本的所属实体,相比于现有技术的实时识别,效率更快,准确率更高。
在一个实施例中,将第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量,包括:
在实体表中抽取实体ej作为预设实体;其中,j∈[1,m]
将实体ej拆分为第二字序列其中k表示实体ej包含的字符的个数;
在第一字序列后拼接第二字序列确定最终的第四字序列T=[t1,t2,…,tn+k+2],其中,t1对应第一特殊字符“[CLS]”,t2,…,tn+1分别对应w1,w2,…,wn,tn+2对应第二特殊字符“[SEP]”,tn+2+1,…,tn+2+k分别对应
获取第四字序列的输入向量序列;
将输入向量序列输入到BERT模型中得到所述输出序列向量;
在本实施例中,上述获取第四字序列的输入向量序列,将输入向量序列输入到BERT模型中得到所述输出序列向量的步骤为:将第四字序列T中的每个字符转换为其对应的字向量,得到输入向量序列U=[u1,u2,…,un+k+2],其中,ui是ti对应的向量,将输入向量序列U输入到BERT模型中得到输出向量序列V=[v1,v2,…,vn+k+2]。
上述技术方案的有益效果为:通过结合第一字序列和第二字序列使判断是否为预设实体的结果更准确。
在一个实施例中,根据输出向量序列判断当前输入文本属于预设实体的概率,包括:
根据输出向量序列设置第一标签和第二标签;
确定第一字序列中每个字符的当前标签属于第一序列标签的第一概率或者属于第二标签的第二概率;
根据第一概率确定识别的第一当前实体,根据第二概率确定识别的第二当前实体;
利用下列公式计算第一当前实体和第二当前实体是否属于实体ej
qj=sigmoid(u1×W2+b2)
其中,W2、b2为预设参数,qj为第一当前实体或第二当前实体链接到实体ej的概率;
在本实施例中,上述第一标签和第二标签我们把他们假设定义为标签Y和标签N,以标签Y为例,如果第一字序列中每个字的子字序列的标签都为标签Y,则将子字序列对应的实体确认为识别的实体,如果第一字序列中的子字序列有多个满足上述条件,则选择子字序列中长度最长的子字序列对应的实体作为识别实体。
上述技术方案的有益效果为:可以准确的确定当前输入文本所识别出来的实体,然后计算识别出的实体是否属于实体ej,相比于现有技术直接判断实体,本发明可以确定识别的实体,然后再计算是否属于预设实体,一定程度上缩小了实体识别的范围,同时,提高了实时识别的效率和准确性。
在一个实施例中,在将概率最大的预设实体确定为目标实体之前,上述方法还包括:
获取第一字序列链接到实体表中m个实体的概率q=[q1,…,qj…,qm];
如图2所示,所述将概率最大的预设实体确定为目标实体,包括:
步骤S201、获取概率q中的最大值;
步骤S202、确定最大值对应的第一实体,其中,第一实体为m个实体中的任一实体;
步骤S203、将第一实体确定为目标实体。
上述技术方案的有益效果为:通过概率更加准确的确定实体表中的哪个实体是目标实体,避免了误识别误链接情况的发生。
本实施例还公开了一种实体识别与链接装置,如图3所示,该装置包括:
第一获取模块301,用于获取当前输入文本的第一字序列;
结合模块302,用于将第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量;
判断模块303,用于根据输出向量序列判断当前输入文本属于预设实体的概率;
确定模块304,用于将概率最大的预设实体确定为目标实体;
链接模块305,用于将当前输入文本和目标实体进行链接。
在一个实施例中,获取模块,包括:
第一拆分子模块,用于将当前输入文本以汉字和标点符号为单位,拆分为第三字序列w=[w1,w2,…,wn],其中,n为当前输入文本中字符的个数;
增加子模块,用于在第三字序列前增加第一特殊字符“[CLS]”,在第三字序列后增加第二特殊字符“[SEP]”;
第一确定子模块,用于将增加了特殊字符的第三字序列确定为第一字序列;
上述装置还包括:
建立模块,用于预先建立一个实体表E=[e1,e2,…,em],其中,m为所述实体表中的实体个数。
在一个实施例中,结合模块,包括:
抽取子模块,用于在实体表中抽取实体ej作为预设实体;其中,j∈[1,m]
第二拆分子模块,用于将实体ej拆分为第二字序列其中k表示实体ej包含的字符的个数;
第二确定子模块,用于在第一字序列后拼接第二字序列确定最终的第四字序列T=[t1,t2,…,tn+k+2],其中,t1对应第一特殊字符“[CLS]”,t2,…,tn+1分别对应w1,w2,…,wn,tn+2对应第二特殊字符“[SEP]”,tn+2+1,…,tn+2+k分别对应
第一获取子模块,用于获取第四字序列的输入向量序列;
输入子模块,用于将输入向量序列输入到BERT模型中得到输出序列向量。
在一个实施例中,判断模块,包括:
设置子模块,用于根据输出向量序列设置第一标签和第二标签;
第三确定子模块,用于确定第一字序列中每个字符的当前标签属于第一序列标签的第一概率或者属于第二标签的第二概率;
第四确定子模块,用于根据第一概率确定识别的第一当前实体,根据第二概率确定识别的第二当前实体;
计算子模块,用于利用下列公式计算第一当前实体和第二当前实体是否属于实体ej
qj=sigmoid(u1×W2+b2)
其中,W2、b2为预设参数,qj为第一当前实体或第二当前实体链接到实体ej的概率。
在一个实施例中,上述装置还包括:
第二获取模块,用于获取第一字序列链接到实体表中m个实体的概率q=[q1,…,qj…,qm];
如图4所示,确定模块,包括:
第二获取子模块3041,用于获取概率q中的最大值;
第五确定子模块3042,用于确定最大值对应的第一实体,其中,第一实体为m个实体中的任一实体;
第六确定子模块3043,用于将第一实体确定为目标实体。
本领域技术人员应当理解的是,本发明中的第一、第二指的是不同应用阶段而已。
本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (8)

1.一种实体识别与链接方法,其特征在于,包括以下步骤:
获取当前输入文本的第一字序列;
将所述第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量;
根据所述输出序列向量判断所述当前输入文本属于所述预设实体的概率;
将所述概率最大的预设实体确定为目标实体;
将所述当前输入文本和所述目标实体进行链接;
所述将所述第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量,包括:
在实体表中抽取实体ej作为所述预设实体;其中,j∈[1,m]
将所述实体ej拆分为第二字序列其中k表示所述实体ej包含的字符的个数;
在所述第一字序列后拼接所述第二字序列确定最终的第四字序列T=[t1,t2,…,tn+k+2],其中,所述t1对应第一特殊字符“[CLS]”,t2,…,tn+1分别对应w1,w2,…,wn,tn+2对应第二特殊字符“[SEP]”,tn+2+1,…,tn+2+k分别对应
获取所述第四字序列的输入向量序列;
将所述输入向量序列输入到所述BERT模型中得到所述输出序列向量。
2.根据权利要求1所述实体识别与链接方法,其特征在于,所述获取当前输入文本的第一字序列,包括:
将所述当前输入文本以汉字和标点符号为单位,拆分为第三字序列w=[w1,w2,…,wn],其中,n为所述当前输入文本中字符的个数;
在所述第三字序列前增加第一特殊字符“[CLS]”,在所述第三字序列后增加第二特殊字符“[SEP]”;
将增加了特殊字符的所述第三字序列确定为所述第一字序列;
在将所述第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量之前,所述方法还包括:
预先建立一个实体表E=[e1,e2,…,em],其中,所述m为所述实体表中的实体个数。
3.根据权利要求1所述实体识别与链接方法,其特征在于,所述根据所述输出序列向量判断所述当前输入文本属于所述预设实体的概率,包括:
根据所述输出序列向量设置第一标签和第二标签;
确定所述第一字序列中每个字符的当前标签属于所述第一标签的第一概率或者属于所述第二标签的第二概率;
根据所述第一概率确定识别的第一当前实体,根据所述第二概率确定识别的第二当前实体;
利用下列公式计算所述第一当前实体和第二当前实体是否属于实体ej
qj=sigmoid(u1×W2+b2)
其中,所述W2、b2为预设参数,所述qj为所述第一当前实体或第二当前实体链接到所述实体ej的概率。
4.根据权利要求1所述实体识别与链接方法,其特征在于,在将所述概率最大的预设实体确定为目标实体之前,所述方法还包括:
获取所述第一字序列链接到实体表中m个实体的概率q=[q1,…,qj…,qm];
所述将所述概率最大的预设实体确定为目标实体,包括:
获取所述概率q中的最大值;
确定所述最大值对应的第一实体,其中,所述第一实体为所述m个实体中的任一实体;
将所述第一实体确定为目标实体。
5.一种实体识别与链接装置,其特征在于,该装置包括:
第一获取模块,用于获取当前输入文本的第一字序列;
结合模块,用于将所述第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量;
判断模块,用于根据所述输出序列向量判断所述当前输入文本属于所述预设实体的概率;
确定模块,用于将所述概率最大的预设实体确定为目标实体;
链接模块,用于将所述当前输入文本和所述目标实体进行链接;
所述结合模块,包括:
抽取子模块,用于在实体表中抽取实体ej作为所述预设实体;其中,j∈[1,m]
第二拆分子模块,用于将所述实体ej拆分为第二字序列其中k表示所述实体ej包含的字符的个数;
第二确定子模块,用于在所述第一字序列后拼接所述第二字序列确定最终的第四字序列T=[t1,t2,…,tn+k+2],其中,所述t1对应第一特殊字符“[CLS]”,t2,…,tn+1分别对应w1,w2,…,wn,tn+2对应第二特殊字符“[SEP]”,tn+2+1,…,tn+2+k分别对应
第一获取子模块,用于获取所述第四字序列的输入向量序列;
输入子模块,用于将所述输入向量序列输入到所述BERT模型中得到所述输出序列向量。
6.根据权利要求5所述实体识别与链接装置,其特征在于,所述获取模块,包括:
第一拆分子模块,用于将所述当前输入文本以汉字和标点符号为单位,拆分为第三字序列w=[w1,w2,…,wn],其中,n为所述当前输入文本中字符的个数;
增加子模块,用于在所述第三字序列前增加第一特殊字符“[CLS]”,在所述第三字序列后增加第二特殊字符“[SEP]”;
第一确定子模块,用于将增加了特殊字符的所述第三字序列确定为所述第一字序列;
所述装置还包括:
建立模块,用于预先建立一个实体表E=[e1,e2,…,em],其中,所述m为所述实体表中的实体个数。
7.根据权利要求5所述实体识别与链接装置,其特征在于,所述判断模块,包括:
设置子模块,用于根据所述输出序列向量设置第一标签和第二标签;
第三确定子模块,用于确定所述第一字序列中每个字符的当前标签属于所述第一标签的第一概率或者属于所述第二标签的第二概率;
第四确定子模块,用于根据所述第一概率确定识别的第一当前实体,根据所述第二概率确定识别的第二当前实体;
计算子模块,用于利用下列公式计算所述第一当前实体和第二当前实体是否属于实体ej
qj=sigmoid(u1×W2+b2)
其中,所述W2、b2为预设参数,所述qj为所述第一当前实体或第二当前实体链接到所述实体ej的概率。
8.根据权利要求5所述实体识别与链接装置,其特征在于,所述装置还包括:
第二获取模块,用于获取所述第一字序列链接到实体表中m个实体的概率q=[q1,…,qj…,qm];
所述确定模块,包括:
第二获取子模块,用于获取所述概率q中的最大值;
第五确定子模块,用于确定所述最大值对应的第一实体,其中,所述第一实体为所述m个实体中的任一实体;
第六确定子模块,用于将所述第一实体确定为所述目标实体。
CN202010177043.2A 2020-03-13 2020-03-13 一种实体识别与链接方法及装置 Active CN111460821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010177043.2A CN111460821B (zh) 2020-03-13 2020-03-13 一种实体识别与链接方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010177043.2A CN111460821B (zh) 2020-03-13 2020-03-13 一种实体识别与链接方法及装置

Publications (2)

Publication Number Publication Date
CN111460821A CN111460821A (zh) 2020-07-28
CN111460821B true CN111460821B (zh) 2023-08-29

Family

ID=71684281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010177043.2A Active CN111460821B (zh) 2020-03-13 2020-03-13 一种实体识别与链接方法及装置

Country Status (1)

Country Link
CN (1) CN111460821B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950298B (zh) * 2020-08-31 2023-06-23 思必驰科技股份有限公司 Bert模型的优化方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491375A (zh) * 2018-03-02 2018-09-04 复旦大学 基于CN-DBpedia的实体识别与链接系统和方法
CN108959242A (zh) * 2018-05-08 2018-12-07 中国科学院信息工程研究所 一种基于中文字符词性特征的目标实体识别方法及装置
CN109871535A (zh) * 2019-01-16 2019-06-11 四川大学 一种基于深度神经网络的法语命名实体识别方法
CN110110335A (zh) * 2019-05-09 2019-08-09 南京大学 一种基于层叠模型的命名实体识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9189472B2 (en) * 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491375A (zh) * 2018-03-02 2018-09-04 复旦大学 基于CN-DBpedia的实体识别与链接系统和方法
CN108959242A (zh) * 2018-05-08 2018-12-07 中国科学院信息工程研究所 一种基于中文字符词性特征的目标实体识别方法及装置
CN109871535A (zh) * 2019-01-16 2019-06-11 四川大学 一种基于深度神经网络的法语命名实体识别方法
CN110110335A (zh) * 2019-05-09 2019-08-09 南京大学 一种基于层叠模型的命名实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张璞 ; 陈韬 ; 陈超 ; 王永 ; .基于深度学习的中文微博评价对象抽取方法.计算机工程与设计.2018,(08),全文. *

Also Published As

Publication number Publication date
CN111460821A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
US20230206127A1 (en) Knowledge graph fusion method based on iterative completion
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN110688853B (zh) 序列标注方法、装置、计算机设备和存储介质
CN113360699B (zh) 模型训练方法和装置、图像问答方法和装置
CN111461301A (zh) 序列化数据处理方法和装置、文本处理方法和装置
CN110795938A (zh) 文本序列分词方法、装置及存储介质
CN110110334B (zh) 一种基于自然语言处理的远程会诊记录文本纠错方法
CN114065738B (zh) 基于多任务学习的中文拼写纠错方法
CN110781663A (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN112711950A (zh) 地址信息抽取方法、装置、设备及存储介质
CN114610892A (zh) 知识点标注方法、装置、电子设备和计算机存储介质
CN111368544A (zh) 命名实体识别方法及装置
CN109166569B (zh) 音素误标注的检测方法和装置
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN111460821B (zh) 一种实体识别与链接方法及装置
CN113722441B (zh) 一种相似文本的生成方法、装置、设备及存储介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
EP3796191A1 (en) Chapter-level text translation method and device
CN115688703B (zh) 一种特定领域文本纠错方法、存储介质和装置
CN110210035B (zh) 序列标注方法、装置及序列标注模型的训练方法
CN115346095A (zh) 视觉问答方法、装置、设备及存储介质
CN115510860A (zh) 一种文本情感分析方法、装置、电子设备及存储介质
CN114580391A (zh) 中文错误检测模型训练方法、装置、设备及存储介质
CN116484842A (zh) 语句纠错的方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant