CN115129883B - 实体链接方法和装置、存储介质及电子设备 - Google Patents
实体链接方法和装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN115129883B CN115129883B CN202210589148.8A CN202210589148A CN115129883B CN 115129883 B CN115129883 B CN 115129883B CN 202210589148 A CN202210589148 A CN 202210589148A CN 115129883 B CN115129883 B CN 115129883B
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- character
- target
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 239000013598 vector Substances 0.000 claims abstract description 309
- 238000012512 characterization method Methods 0.000 claims abstract description 165
- 238000012549 training Methods 0.000 claims description 75
- 230000011218 segmentation Effects 0.000 claims description 69
- 230000009467 reduction Effects 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims 1
- 230000006870 function Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 19
- 230000008451 emotion Effects 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000013215 result calculation Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种实体链接方法和装置、存储介质及电子设备。其中,该方法包括:获取目标文本,目标文本携带有待链接的目标实体;获取与目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量;根据第一表征向量与各个第二表征向量进行各自匹配后的结果,从实体数据库的各个对象实体中获取与目标实体相匹配的至少一个候选实体;对目标文本与各个候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;获取与候选输入文本相匹配的链接置信度;根据链接置信度从至少一个候选实体中确定出与目标实体相匹配的链接实体。本发明解决了现有实体链接方法准确率低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种实体链接方法和装置、存储介质及电子设备。
背景技术
实体链接是自然语言处理(NPL,Natural Language Processing)里的一项基础技术,其作用是将文本里识别出的命名实体链接到知识库里的正确实体上。
例如,针对一段文本“张三从小就受父亲影响,1988年开始练习网球,1989年的时候,被网球教练夏一相中开始练网球”中的人名“张三”,知识库中存在多个与人名“张三”匹配的词条,如“张三(女子网球名将)”、“张三(青岛籍女演员)”、“张三(流行歌手)”、“张三(画家)”等。上述文本中的人名“张三”应当对应于“女子网球名将”,也就是说,需要通过实体链接技术将人名“张三”与正确的实体“张三(女子网球名将)”进行关联。
现有的实体链接方法通常是对实体进行简单的分析处理,无法确定出实体的准确语义,而基于简单的分析处理方法无法匹配得到准确的实体对象,因此存在实体链接的准确率较低的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种实体链接方法和装置、存储介质及电子设备,以至少解决现有实体链接方法准确率低的技术问题。
根据本发明实施例的一个方面,提供了一种实体链接方法,包括:获取目标文本,上述目标文本携带有待链接的目标实体;获取与上述目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量,其中,上述第一表征向量用于表征上述目标文本的文本语义,上述第二表征向量用于表征上述对象实体的实体语义,上述对象实体关联有实体描述信息;根据上述第一表征向量与各个上述第二表征向量进行各自匹配后的结果,从上述实体数据库的各个对象实体中获取与上述目标实体相匹配的至少一个候选实体;对上述目标文本与各个上述候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;获取与上述候选输入文本相匹配的链接置信度;根据上述链接置信度从上述至少一个候选实体中确定出与上述目标实体相匹配的链接实体。
根据本发明实施例的另一方面,还提供了一种实体链接装置,包括:第一获取单元,用于获取目标文本,上述目标文本携带有待链接的目标实体;第二获取单元,用于获取与上述目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量,其中,上述第一表征向量用于表征上述目标文本的文本语义,上述第二表征向量用于表征上述对象实体的实体语义,上述对象实体关联有实体描述信息;第三获取单元,用于根据上述第一表征向量与各个上述第二表征向量进行各自匹配后的结果,从上述实体数据库的各个对象实体中获取与上述目标实体相匹配的至少一个候选实体;拼接单元,用于对上述目标文本与各个上述候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;第四获取单元,用于获取与上述候选输入文本相匹配的链接置信度;确定单元,用于根据上述链接置信度从上述至少一个候选实体中确定出与上述目标实体相匹配的链接实体。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述实体链接方法。
根据本申请实施例的又一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上实体链接方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的实体链接方法。
在本发明实施例中,采用获取目标文本,目标文本携带有待链接的目标实体;获取与目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量,其中,第一表征向量用于表征目标文本的文本语义,第二表征向量用于表征对象实体的实体语义,对象实体关联有实体描述信息;根据第一表征向量与各个第二表征向量进行各自匹配后的结果,从实体数据库的各个对象实体中获取与目标实体相匹配的至少一个候选实体;对目标文本与各个候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;获取与候选输入文本相匹配的链接置信度;根据链接置信度从至少一个候选实体中确定出与目标实体相匹配的链接实体的方法,通过对目标文本的表征文本语义的向量以及实体语义的向量的结合分析处理,从而得到实体和文本上下文之间的深度语义匹配特征,并基于深度特征获取匹配的链接实体,从而提升了获取链接实体的准确率,解决了现有的实体链接方法的准确率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的实体链接方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的实体链接方法的流程图;
图3是根据本发明实施例的一种可选的实体链接方法的示意图;
图4是根据本发明实施例的另一种可选的实体链接方法的示意图;
图5是根据本发明实施例的又一种可选的实体链接方法的示意图;
图6是根据本发明实施例的又一种可选的实体链接方法的示意图;
图7是根据本发明实施例的另一种可选的实体链接方法的流程图;
图8是根据本发明实施例的一种可选的实体链接装置的结构示意图;
图9是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种实体链接方法,作为一种可选的实施方式,上述实体链接方法可以但不限于应用于如图1所示的由服务器102和终端设备104所构成的实体链接系统中。如图1所示,服务器102通过网络110与终端设备104进行连接,上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述终端设备可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视、车载设备等。上述终端设备上可以安装有客户端,例如词条检索客户端等。上述终端设备上还设置有显示器、处理器和存储器,显示器可以用于显示词条检索应用程序的程序界面,以及显示待链接的目标实体的目标文本,处理器可以用于对待链接的目标实体的目标文本进行识别前的预处理,例如,将获取到的目标文本数据进行格式转化;存储器用于待链接的目标实体的目标文本进行存储。可以理解的是,在上述终端设备104中获取到携带有待链接的目标实体的目标文本后,终端设备104可以通过网络110向服务器102发送上述目标文本,服务器102接收到目标文本的情况下,根据终端设备104上传的目标文本生成与目标实体匹配的链接实体,终端设备104可以通过网络110接收服务器102返回的链接实体。服务器102可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述服务器包括数据库和处理引擎。其中,上述数据库中可包括用于为目标实体匹配链接实体的数据库和神经网络模型;上述处理引擎用于根据获取的目标实体以及目标文本确定出与目标实体匹配的链接实体。
根据本发明实施例的一个方面,上述实体链接系统还可以执行以下步骤:终端设备104执行步骤S102,获取携带有待链接的目标实体的目标文本;接着执行步骤S104,终端设备104通过网络110向服务器102发送目标文本;服务器102执行步骤S106至S116,获取目标文本,目标文本携带有待链接的目标实体;获取与目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量,其中,第一表征向量用于表征目标文本的文本语义,第二表征向量用于表征对象实体的实体语义,对象实体关联有实体描述信息;根据第一表征向量与各个第二表征向量进行各自匹配后的结果,从实体数据库的各个对象实体中获取与目标实体相匹配的至少一个候选实体;对目标文本与各个候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;获取与候选输入文本相匹配的链接置信度;根据链接置信度从至少一个候选实体中确定出与目标实体相匹配的链接实体;接着执行步骤S118,服务器102通过网络110向终端设备104发送链接实体。可以理解的是,在终端设备104为具有足够计算处理能力的设备的情况下,上述步骤S106至S116也可以在终端设备104中进行。
本发明实施例中,采用获取目标文本,目标文本携带有待链接的目标实体;获取与目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量,其中,第一表征向量用于表征目标文本的文本语义,第二表征向量用于表征对象实体的实体语义,对象实体关联有实体描述信息;根据第一表征向量与各个第二表征向量进行各自匹配后的结果,从实体数据库的各个对象实体中获取与目标实体相匹配的至少一个候选实体;对目标文本与各个候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;获取与候选输入文本相匹配的链接置信度;根据链接置信度从至少一个候选实体中确定出与目标实体相匹配的链接实体的方法,通过对目标文本的表征文本语义的向量以及实体语义的向量的结合分析处理,从而得到实体和文本上下文之间的深度语义匹配特征,并基于深度特征获取匹配的链接实体,从而提升了获取链接实体的准确率,解决了现有的实体链接方法的准确率较低的技术问题。
上述仅是一种示例,本实施例中对此不作任何限定。
作为一种可选的实施方式,如图2所示,上述实体链接方法包括以下步骤:
S202,获取目标文本,目标文本携带有待链接的目标实体;
需要说明的是,上述待链接的目标实体可以为一种待识别的关键词,上述目标文本可以是一种携带有上述关键词的文本短句或者完整语句。假设上述目标实体为关键词“刘三”,携带有上述目标实体“刘三”的语句“刘三出演了《XX电影》中的男一号”。针对与上述完整语句“刘三出演了《XX电影》中的男一号”中的目标实体“刘三”,可以提供一种与知识库的进行链接方法,即可以将实体“刘三”准确定位至知识库中的影视明星“刘三”,并通过该链接关系进一步获知知识库中“刘三”的相关信息,如“刘三”的年龄、星座、代表作品等。同时,上述语句“刘三出演了《XX电影》中的男一号”中的文本“XX电影”也可以是另一个实体,并通过该实体获取知识库中有关链接实体《XX电影》的相关信息,如电影《XX电影》的导演、演员、票房等信息。
S204,获取与目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量;
其中,第一表征向量用于表征目标文本的文本语义,第二表征向量用于表征对象实体的实体语义,对象实体关联有实体描述信息。
可以理解的是,对应于同一目标实体在知识库中可以存在多个对应的对象实体,比如,针对实体“刘三”,知识库中可以对应的链接包括“演员——刘三”、“A大学教授——刘三”、“教师——刘三”、“歌曲——刘三”等。显然,在目标文本“刘三出演了《XX电影》中的男一号”中,目标实体“刘三”应当与实体对象“演员——刘三”进行链接。
为了准确确定出上述目标文本中的待链接的目标实体“刘三”的链接实体,在本实施例中,在获取到上述目标文本“刘三出演了《XX电影》中的男一号”的情况下,可以进一步获取目标文本“刘三出演了《XX电影》中的男一号”的文本语义的第一表征向量,并进一步获取上述各个实体对象“演员——刘三”、“清华大学教授——刘三”、“教师——刘三”、“歌曲——刘三”各自对应的用于表征实体语义的第二表征向量。可以理解的是,上述各个实体对象均对应了各自的描述信息,如“教师——刘三”中的“教师”指示了对象实体“刘三”关联的工作内容信息;“歌曲——刘三”指示了对象实体“刘三”关联的类别信息等。
S206,根据第一表征向量与各个第二表征向量进行各自匹配后的结果,从实体数据库的各个对象实体中获取与目标实体相匹配的至少一个候选实体;
可以理解的是,在获取到目标实体的第一表征向量和各个对象实体的第二表征向量的情况下,将第一表征向量和各个对象实体的第二表征向量分别进行匹配,并基于匹配结果确定出上述实体数据库中至少一个候选实体。
作为一种可选的实施方式,上述进行匹配的方式可以是在预先构建的映射表中进行查询操作,以确定出对应于“刘三”的全部候选实体。
在另一种可选的方式中,上述进行匹配的方式可以是将上述第一表征向量与上述第二表征向量分别进行组合,并分别输入长短期记忆网络(LSTM,Long Short-TermMemory)模型中进行匹配,以根据匹配结果确定出至少一个候选实体。
在又一种可选的实施方式中,上述进行匹配的方式还可以是将上述第一表征向量与上述第二表征向量分别进行组合,并分别输入门循环单元(GRU,Gate Recurrent Unit)模型中进行匹配,以根据匹配结果确定出至少一个候选实体。本实施例中不对上述进行匹配的方式进行限制。
S208,对目标文本与各个候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;
可以理解的是,在获取到多个候选实体的情况下,可以将目标文本与实体描述信息进行拼接,进而得到候选输入文本。继续以上述目标实体“刘三”为例,将上述目标文本与描述信息的拼接方式可以是将“刘三出演了《XX电影》中的男一号”与“演员——刘三”中的描述信息直接拼接,以得到候选输入文本“刘三出演了《XX电影》中的男一号——演员”,还可以将“演员——刘三”对应的其他描述信息与上述目标文本进行拼接,如与“演员——刘三”对应的描述信息“最佳男主角奖”与“刘三出演了《XX电影》中的男一号”进行拼接,以得到候选输入文本“刘三出演了《XX电影》中的男一号——最佳男主角奖”。同理,将多个候选实体的实体描述信息与上述目标文本进行拼接,进而得到多个候选输入文本。
S210,获取与候选输入文本相匹配的链接置信度;
可以理解的是,获取到上述多个候选输入文本的情况下,进一步获取得到与多个候选输入文本匹配的链接置信度,上述链接置信度可以用于指示上述候选输入文本与目标实体的匹配程度。在一种可选的方式中,上述链接置信度越高,指示对应的候选输入文本与目标实体的匹配度越高。
S212,根据链接置信度从至少一个候选实体中确定出与目标实体相匹配的链接实体。
可以理解的是,在上述链接置信度越高,指示对应的候选输入文本与目标实体的匹配度越高的情况下,假设上述候选输入文本“刘三出演了《XX电影》中的男一号——最佳男主角奖”对应的链接置信度最高,进而确定目标文本“刘三出演了《XX电影》中的男一号”中的目标实体“刘三”对应的链接实体为描述信息“最佳男主角奖”对应的实体对象“演员——刘三”。进而,将上述目标文本中的“刘三”与链接实体“演员——刘三”进行关联。
作为一种可选的方式,在实现了上述实体链接之后,可以在检测到对目标文本“刘三出演了《XX电影》中的男一号”中的实体对象“刘三”的点击操作的情况下,跳转至链接实体“演员——刘三”的知识库界面;在另一种可选的方式中,在检测到对目标文本“刘三出演了《XX电影》中的男一号”中的实体对象“刘三”的输入操作的情况下,将当前输入操作的输入对象标注为对链接实体“演员——刘三”感兴趣。
在本发明实施例中,采用获取目标文本;获取与目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量,其中,第一表征向量用于表征目标文本的文本语义,第二表征向量用于表征对象实体的实体语义,对象实体关联有实体描述信息;根据第一表征向量与各个第二表征向量进行各自匹配后的结果,从实体数据库的各个对象实体中获取与目标实体相匹配的至少一个候选实体;对目标文本与各个候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;获取与候选输入文本相匹配的链接置信度;根据链接置信度从至少一个候选实体中确定出与目标实体相匹配的链接实体的方法,通过对目标文本的表征文本语义的向量以及实体语义的向量的结合分析处理,从而得到实体和文本上下文之间的深度语义匹配特征,并基于深度特征获取匹配的链接实体,从而提升了获取链接实体的准确率,解决了现有的实体链接方法的准确率较低的技术问题。
作为一种可选的实施方式,上述获取用于表征目标文本的文本语义的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量包括:
S1,在对目标文本进行分词后得到的文本字符集中添加分割标识字符,以构建出第一输入字符序列;
假设在电视剧《友情旅馆》中的男主角为张四,以目标文本为“友情旅馆张四”为例对上述实施方式进行说明。在目标文本“张四友情旅馆男主角”中,目标实体为“张四”。作为一种可选的方式,对上述目标文本进行分词的方式可以是将上述目标文本中的每一个字符进行分割,进而得到文本字符集“友”、“情”、“旅”、“馆”、“张”、“四”。
在得到上述字符序列的情况下,在上述文本字符集中添加的分割标识符可以是分隔符,起始符,终止符,关键词标志符号等。假设上述分隔符为“A”,起始符为“B”,终止符为“C”,关键词标志符为“D”,在上述文本字符集中添加分割标识符的方式可以是“B”、“友”、“情”、“D”、“旅”、“馆”、“A”、“张”、“四”、“C”,进而通过上述标识符的组合以确定出上述目标文本中的起止点以及文本中的不同部分,比如,通过分隔符“A”将目标实体“张四”与目标文本中的其他部分进行分割,以突出待链接的目标实体的文本部分。
S2,在语义编码器中对第一输入字符序列进行编码,得到第一表征向量集,其中,第一表征向量集中包括与第一输入字符序列中每个字符分别对应的表征向量;
在添加分割标识符以得到上述第一输入字符序列的情况下,通过语义编码器对上述第一输入字符序列进行编码,以得到第一表征向量集。作为一种可选的方式,上述语义编码器可以是一种Transformer模型。如BERT模型(Bidirectional Encoder Representationfrom Transformers)、GPT模型(Generative Pre-Training)、UniLM模型(UnifiedLanguage Model)以及VPUniLM模型。本实施例中不对上述用于产生第一表征向量集的模型类型进行限制。
可以理解的是,对应于上述第一输入字符序列中的每一个字符,可以通过上述语义编码器确定出与每一个字符对应的表征向量,如上述第一输入字符序列中“B”、“友”、“情”、“D”、“旅”、“馆”、“A”、“张”、“四”、“C”中共包括了10个字符,进而可以通过上述语义编码器得到分别对应于上述10个字符的10个表征向量,进而以上述10个表征向量构成第一表征向量集。
作为一种可选的方式,产生上述表征向量的方式可以是将上述第一输入字符序列统一输入上述语义编码器中,以直接得到上述由对应于每一个字符的表征向量构成的第一表征向量集。
在另一种可选的方式中,可以通过将上述第一输入字符序列中的字符通过逐字输入的方式迭代产生上述第一表征向量集。具体地,可以将“B”、“友”、“情”、“D”、“旅”、“馆”、“A”、“张”、“四”、“C”中的第一个字符“B”对应的字符向量输入上述语义编码器中,以得到与“B”对应的第一隐向量;接着将上述第一隐向量和上述“友”对应的字符向量一同输入上述语义编码器,以得到与上述字符“友”对应的第二隐向量;接着将上述第二隐向量和上述字符“情”对应的字符向量输入上述语义编码器,以得到与“情”对应的第三隐向量……以此类推,以得到对应于上述第一输入字符序列的10个表征向量,以确定出第一表征向量集。可以理解的是,上述确定出第一表征向量集的方法仅为一种示例,不对实际确定出上述表征向量集的方法进行限制。
S3,从第一表征向量集中确定出第一表征向量;
需要说明的是,从上数第一表征向量集中确定出第一表征向量的方法可以是从上述第一表征向量集中筛选出目标表征向量,也可以是确定上述第一输入字符序列中特定字符对应的表征向量为第一表征向量,还可以是将上述第一表征向量集进行向量融合,以确定得到第一表征向量。在本实施方式中不对上述确定第一表征向量的方式进行限定。
S4,在对每个对象实体的实体描述信息进行分词后得到的描述字符集中添加分割标识字符,以构建出与对象实体匹配的第二输入字符序列;
具体地,假设一个实体对象为“张四”,其对应的实体描述信息为“张四友情旅馆男主角”,将上述实体对象以及描述信息进行分词得到的描述字符集为:“张”、“四”、“友”、“情”、“旅”、“馆”、“男”、“主”、“角”。进一步地,在上述描述字符集中添加分割标识字符后,可以在上述描述字符中将实体对象以及描述文本进行分隔,以精确识别描述文本的文本语义特征。可以理解的是,在上述描述字符集中增加的分隔标识字符的类型和方式可以与在第一输入字符序列中添加的类型和方式相同或者不同,此处不对在描述字符集中添加分割标识字符的类型和方式进行限制。
S5,在语义编码器中对第二输入字符序列进行编码,得到第二表征向量集,其中,第二表征向量集中包括与第二输入字符序列中每个字符分别对应的表征向量;
S6,从第二表征向量集中确定出第二表征向量。
可以理解的是,上述在语义编码器中对第二输入字符进行编码的方式可以与在语义编码器中对第一输入字符进行编码的方式、确定第二表征向量的方式相同或者不同,此处不对确定第二表征向量的方式以及对第二输入字符进行编码的方式进行限制。
通过本申请的上述实施方式,以在对目标文本进行分词后得到的文本字符集中添加分割标识字符,以构建出第一输入字符序列;在语义编码器中对第一输入字符序列进行编码,得到第一表征向量集,其中,第一表征向量集中包括与第一输入字符序列中每个字符分别对应的表征向量;从第一表征向量集中确定出第一表征向量;在对每个对象实体的实体描述信息进行分词后得到的描述字符集中添加分割标识字符,以构建出与对象实体匹配的第二输入字符序列;在语义编码器中对第二输入字符序列进行编码,得到第二表征向量集,其中,第二表征向量集中包括与第二输入字符序列中每个字符分别对应的表征向量;从第二表征向量集中确定出第二表征向量的方式,通过对目标文本的表征文本语义的向量以及实体语义的向量的结合分析处理,从而得到实体和文本上下文之间的深度语义匹配特征,并基于深度特征获取匹配的链接实体,从而提升了获取链接实体的准确率,解决了现有的实体链接方法的准确率较低的技术问题
作为一种可选的实施方式,上述方法还包括以下步骤:
上述在对目标文本进行分词后得到的文本字符集中添加分割标识字符,以构建出第一输入字符序列包括:从文本字符集中确定出目标实体中首个实体字符所在的第一位置,和目标实体中末尾实体字符所在的第二位置;在第一位置之前与第二位置之后分别添加第一分割字符及第二分割字符,并在目标文本之前添加开始分割字符,目标文本之后添加中止分割字符;
上述在对每个对象实体的实体描述信息进行分词后得到的描述字符集中添加分割标识字符,以构建出与对象实体匹配的第二输入字符序列包括:从描述字符集中确定出对象实体中首个实体字符所在的第三位置,和对象实体中末尾实体字符所在的第四位置;在第三位置之前添加开始分割字符,并在第四位置之后添加字段分割字符;在字段分割字符之后的多个描述字段的首个字段字符各自所在的位置之后添加中止分割字符。
以下结合图3对上述方法进行具体说明,如图3所示,首先针对文本侧(即图3中的Query部分)的目标文本“友情旅馆张四”,通过分词得到文本字符集“友”、“情”、“旅”、“馆”、“张”、“四”。接着在上述文本字符集中添加分割标志符。首先通过两个特殊字符“[L]”(即第一分割字符)和“[R]”(即第二分割字符)把目标实体“张四”标识出来,即得到图3中示出的“[L]”、“张”、“四”、“[R]”。接着在文本字符集的首尾再分别拼接字符“[CLS]”(即开始分割字符)和“[SEP]”(即中止分割字符),如图3所示,最终得到第一输入字符序列“[CLS]”、“友”、“情”、“旅”、“馆”、“[L]”、“张”、“四”、“[R]”、“[SEP]”。
对每个所述对象实体的实体描述信息进行分词后得到的描述字符集中添加分割标识字符,以构建出与所述对象实体匹配的第二输入字符序列的具体方式可以如图3所示。即按“[CLS]实体名[S]实体描述[SEP]实体简介[SEP]”格式来构造第二输入字符序列。
具体如图3中,Entity(即对象实体)侧对应的对象实体为“张四”,其对应的实体描述信息为“友情旅馆男主角”,进而将上述实体描述信息进行分词后得到描述字符集“张”、“四”、“友”、“情”、“旅”、“馆”、“男”、“主”、“角”。接着,在对象实体“张”、“四”之前的位置添加开始分割字符“[CLS]”,并在对象实体“张”、“四”之后的位置添加字段分割字符“[S]”,并在实体描述信息“友”、“情”、“旅”、“馆”、“男”、“主”、“角”之后添加中止分割字符“[SEP]”。进而确定与上述实体描述信息对应的额第二输入字符序列“[CLS]”、“张”、“四”、“[S]”、“友”、“情”、“旅”、“馆”、“男”、“主”、“角”、“[SEP]”。
可以理解的是,在上述实体描述信息中只包括了描述信息“友情旅馆男主角”,因此仅通过一个中止分割字符“[SEP]”进行标注,假设存在与实体“张四”对应的实体简介信息的情况下,可以继续按照“[CLS]实体名[S]实体描述[SEP]实体简介[SEP]”格式来构造完整的第二输入字符序列。
通过本申请的上述实施方式,通过从文本字符集中确定出目标实体中首个实体字符所在的第一位置,和目标实体中末尾实体字符所在的第二位置;在第一位置之前与第二位置之后分别添加第一分割字符及第二分割字符,并在目标文本之前添加开始分割字符,目标文本之后添加中止分割字符;以及从描述字符集中确定出候选实体中首个实体字符所在的第三位置,和候选实体中末尾实体字符所在的第四位置;在第三位置之前添加开始分割字符,并在第四位置之后添加字段分割字符;在字段分割字符之后的多个描述字段的首个字段字符各自所在的位置之后添加中止分割字符,从而针对携带有待链接的目标实体的目标文本和待匹配的对象实体的描述文本分别进行构造,通过特殊字符将关键信息和链接主体进行标注,进而对标注后的字符集合进行向量编码,实现提高对字符序列进行编码的准确性和效率。
作为一种可选的实施方式,上述根据第一表征向量与各个第二表征向量各自对应的匹配结果,从实体数据库中获取与目标实体相匹配的至少一个候选实体包括:
S1,对第一表征向量进行线性变换,得到第一降维表征向量;
S2,对各个第二表征向量分别进行线性变化,得到多个第二降维表征向量;
S3,依次计算第一降维表征向量与各个第二降维表征向量之间的匹配相似度,并将匹配相似度作为匹配结果;
S4,在获取到全部的匹配结果的情况下,对全部的匹配结果进行排序,得到匹配结果序列;
S5,从匹配结果序列中获取与目标实体相匹配的至少一个候选实体。
继续结合图3对上述方法进行说明。如图3所示,采用BERT Encoder分别对上述字符序列进行编码。对应于Query字符序列“[CLS]”、“友”、“情”、“旅”、“馆”、“[L]”、“张”、“四”、“[R]”、“[SEP]”输入上述经过预训练的BERT Encoder模型后,即得到对应于上述每一个字符的embedding表示,即第一表征向量集“C1、Q1、Q2、Q3、Q4、Q5、Q6、Q7、Q8、S”;对应于Entity字符序列“[CLS]”、“张”、“四”、“[S]”、“友”、“情”、“旅”、“馆”、“男”、“主”、“角”、“[SEP]”得到的第二表征向量集“C2、E1、E2、E3、E4、E5、E6、E7、E8、E9、E10、S”。
在本实施例中,使用“[CLS]”对应的embedding向量作为上述文本对应的表征向量。如在第一表征向量集“C1、Q1、Q2、Q3、Q4、Q5、Q6、Q7、Q8、S”中,使用Query字符序列中的“[CLS]”字符对应的embedding向量“C1”作为上述第一表征向量集的第一表征向量;在第二表征向量集“C2、E1、E2、E3、E4、E5、E6、E7、E8、E9、E10、S”中,使用Entity字符序列中的“[CLS]”对应的embedding向量“C2”作为上述第二表征向量集的第二表征向量。
在获取到上述第一表征向量C1和第二表征向量C2以后,分别通过以下公式对上述表征向量C1、C2进行降维处理。
Vfinal_context=tanh(W1Vcontext)
Vfinal_entity=tanh(W2Ventity)
其中,Vcontext即上述第一表征向量C1,Ventity即上述第二表征向量C2;W1、W2为两个预先训练得到的参数矩阵;Vfinal_context为第一表征向量降维处理后得到的第一降维表征向量,Vfinal_entity为第二表征向量降维处理后得到的第二降维表征向量。可以理解的是,在实际计算中,由于存在多个待匹配的对象实体,因此对应于每个对象实体都需要计算一个Vfinal_entity,即得到多个第二降维表征向量。
接着,通过以下公式计算第一表征向量和第二表征向量之间的匹配相似度:
Loss=(label-Score)2
需要说明的是,上述dot函数即为内积函数,用于计算向量Vfinal_entity的内积,上述sigmoid是一个归一函数,可以将获取的输入转化至[0,1]区间的值。上述loss函数为该模型的损失函数,label用于标识当前用于训练的实体对的标签,当前用于训练的实体对为正例的情况下,label值为1,当前用于训练的实体对为负例的情况下,label值为0。
进而,通过上述方法可以得到每一个对象实体与目标实体之间的匹配相似度,并基于匹配相似度的高度进行排序,得到匹配结果序列,最后基于匹配结果序列获取至少一个候选实体。作为一种可选的方式,可以将排序在目标次序之前的对象实体确定为候选实体。比如,可以将排在前10位的对象实体确定为10个候选实体。
通过本实施例的上述实施方式,以对第一表征向量进行线性变换,得到第一降维表征向量;对各个第二表征向量分别进行线性变化,得到多个第二降维表征向量;依次计算第一降维表征向量与各个第二降维表征向量之间的匹配相似度,并将匹配相似度作为匹配结果;在获取到全部的匹配结果的情况下,对全部的匹配结果进行排序,得到匹配结果序列;从匹配结果序列中获取与目标实体相匹配的至少一个候选实体,从而通过对表征向量进行降维处理,以提升后续匹配结果计算的计算效率,并基于指示实体语义的表征向量对对象实体和目标实体进行匹配计算,进而精确确定出与目标实体匹配度在预定值的对象实体为候选实体,实现提高实体链接的准确度的技术效果。
作为一种可选的实施方式,上述在获取携带有待链接的目标实体的目标文本之前,还包括:
S1,获取样本文本及与样本文本中所携带的实体关联的样本实体,其中,样本实体配置有实体标签;
S2,利用样本文本及样本实体,对初始化状态下的语义编码器进行训练,直至达到第一收敛条件,其中,第一收敛条件用于指示语义编码器连续N次输出的训练损失值小于第一阈值,其中,第i次输出的训练损失值用于指示第i次训练所用的样本实体配置的实体标签与第i次训练输出结果之间的差异,i为大于等于1,且小于等于N的自然数,N为自然数。
可以理解的是,通过上述方式可以实现对召回模型的模型参数的训练。即预先获取训练样本,每一个训练样本均对应有样本文本以及样本文本中所携带的实体关联的样本实体,并为样本实体配置有对应的标签,如“正例”、“负例”。可以理解的是,“正例”标签指示当前样本文本以及样本文本中所携带的实体与对应的样本实体相关联,“负例”标签指示当前样本文本以及样本文本中所携带的实体与对应的样本实体不关联。
在获取得到上述样本文本以及对应的实体标签后,即对初始化状态的语义编码器进行训练,以达到第一收敛条件。可以理解的是,上述训练即对上述参数矩阵W1、W2的取值进行训练,在未达到收敛条件的情况下,适应性地调整上述参数矩阵W1、W2的取值,进而使得达到收敛条件。
作为一种可选的方式,可以采用以下损失函数对模型进行监督:
Loss=(label-Score)2
其中,label用于标识当前用于训练的实体对的标签,当前用于训练的实体对为正例的情况下,label值为1,当前用于训练的实体对为负例的情况下,label值为0。
通过本申请的上述实施方式,通过获取样本文本及与样本文本中所携带的实体关联的样本实体,其中,样本实体配置有实体标签;利用样本文本及样本实体,对初始化状态下的语义编码器进行训练,直至达到第一收敛条件,其中,第一收敛条件用于指示语义编码器连续N次输出的训练损失值小于第一阈值,其中,第i次输出的训练损失值用于指示第i次训练所用的样本实体配置的实体标签与第i次训练输出结果之间的差异,i为大于等于1,且小于等于N的自然数,N为自然数,从而通过有监督的方式训练得到用于确定对象实体与目标实体之间匹配度的匹配模型,提高了通过匹配模型确定对象实体与目标实体之间匹配度的准确率。
作为一种可选的实施方式,上述利用样本文本及样本实体,对初始化状态下的语义编码器进行训练包括:
S1,在获取到第i次输出的训练结果的情况下,从训练结果中确定出与样本文本中所携带的实体不匹配的差异实体;
S2,将差异实体添加到样本实体中,得到更新后的样本实体;
S3,利用更新后的样本实体,对语义编码器进行第i+1次训练。
以下结合图4对上述训练方式进行具体说明。如图4所示,首先,使用上一轮训练好的模型model_i去预测训练集的每个query(即目标文本),得到召回的前k个候选实体。接着,然后从召回的前k个候选实体中选出其中的负例,即预测错误的样本实体。这些负例是一些当前模型难以区分的困难负例。进一步地,将这些负例添加到原始样本中进一步进行后续的训练学习操作。进而,通过上述迭代流程,每轮迭代模型就可以利用越来越多的困难负例进行学习,会使得模型的学习结果更加充分。
通过本申请的上述实施方式,以在获取到第i次输出的训练结果的情况下,从训练结果中确定出与样本文本中所携带的实体不匹配的差异实体;将差异实体添加到样本实体中,得到更新后的样本实体;利用更新后的样本实体,对语义编码器进行第i+1次训练的方式,使得模型采用有监督的方式进行学习,并尽可能多的获取困难负例进行学习,使得模型学习更加充分,从而提高匹配模型的匹配准确率。
作为一种可选的实施方式,上述对目标文本与各个候选实体的实体描述信息分别进行拼接,得到多个候选输入文本包括:
S1,遍历各个候选实体的实体描述信息,分别执行以下操作:
S2,获取当前候选实体的实体描述信息;
S3,在目标文本中目标实体中首个实体字符所在位置之前添加第一标识符,并在目标实体中末尾实体字符所在位置之后添加第二标识符;
S4,在当前候选实体的实体描述信息中各个描述字段之间添加间隔标识符,其中,描述字段包括与当前候选实体关联的关键属性字段;
S5,在目标文本与当前候选实体的实体描述信息之间添加拼接字符,并在目标文本之前添加开始分割字符,在当前候选实体的实体描述信息之后添加中止分割字符,以得到与当前候选实体相匹配的当前候选输入文本。
首先对上述关键属性字段进行说明。可以理解的是,对应于不同的对象实体,其对应的关键属性字段可以不同。其中,关键属性字段可以为指对象实体的重要特征的字段。比如,对应于对象实体“刘三”,其关键属性字段可以为“歌手”、“演员”、“四大歌王”、“XX歌曲”等指示对象实体“刘三”关键特征的字段;又如图6中,对象实体“A电影”,其关键属性字段可以为“演员甲”、“演员乙”、“演员丙”等指示电影《A电影》中的主演信息的字段信息。以上仅为关键属性字段的示例性说明,不对上述关键属性字段的具体形式进行限定。
以下结合图5对上述实施方式进行说明。可以理解的是,在确定出多个候选实体后,遍历各个候选实体以分别确定出各个候选实体与目标实体的链接置信度。以下以获取其中的一个候选实体为例进行说明。
获取到的当前候选实体为“张四友情旅馆男主角”的情况下,通过以下方式确定出对应于当前候选实体的候选输入文本。首先,在目标文本对应的字符集“友”、“情”、“旅”、“馆”、“张”、“四”中利用第一标识符“[U1]”和第二标识符“[U2]”将目标实体“张四”标注出来,即得到第一字符序列:“友”、“情”、“旅”、“馆”、“[U1]”、“张”、“四”、“[U2]”;
接着,在候选实体“张四友情旅馆男主角”对应的关键属性字段为“律师”的情况下,在候选实体简介和关键属性字段之间添加间隔标识符“[U3]”,即得到第二字符序列“张”、“四”、“友”、“情”、“旅”、“馆”、“男”、“主”、“角”、“[U3]”、“律”、“师”;
最后,利用开始分割字符“[CLS]”,中止分割字符“[SEP]”将上述第一字符序列和第二字符序列进行拼接,得到当前候选输入文本:“[CLS]”、“友”、“情”、“旅”、“馆”、“[U1]”、“张”、“四”、“[U2]”、“[SEP]”、“张”、“四”、“友”、“情”、“旅”、“馆”、“男”、“主”、“角”、“[U3]”、“律”、“师”、“[SEP]”。
通过本申请的上述实施方式,以遍历各个候选实体的实体描述信息,分别执行以下操作:获取当前候选实体的实体描述信息;在目标文本中目标实体中首个实体字符所在位置之前添加第一标识符,并在目标实体中末尾实体字符所在位置之后添加第二标识符;在当前候选实体的实体描述信息中各个描述字段之间添加间隔标识符,其中,描述字段包括与当前候选实体关联的关键属性字段;在目标文本与当前候选实体的实体描述信息之间添加拼接字符,并在目标文本之前添加开始分割字符,在当前候选实体的实体描述信息之后添加中止分割字符,以得到与当前候选实体相匹配的当前候选输入文本,从而将目标文本和候选实体的信息进行准确拼接,提高了计算二者之间的链接置信度的效率。
作为一种可选的实施方式,上述在获取当前候选实体的实体描述信息之前,还包括:
S1,获取与目标文本关联的第一属性字段集,及当前候选实体关联的第二属性字段集;
S2,对第一属性字段集和第二属性字段集进行匹配,得到属性字段相似度;
S3,根据属性字段相似度,从第二属性字段集中确定出与当前候选实体关联的关键属性字段。
以下结合图6对上述实施方式进行具体说明。由于对应于每一个候选实体的关键属性字段的个数可能达到好几百,将全部关键属性字段输入模型会导致计算量过大。因此通过上述方法先进行关键属性字段的召回。如图6所示:将目标实体的上下文与候选实体所有关键属性的属性值先计算得到每一个关键属性的相似度,进而选择相似度排名前k的关键属性字段用于模型计算。具体而言,首先对目标实体的上下文和候选实体所有关键属性使用分词器进行分词处理,然后利用用开源的词向量将这些词向量化,然后将他们分别进行平均处理,最后用cosine函数计算相似度,具体公式如下:
Score=cos(Vcontext,Vattr_value)
其中,Vcontext计算得到的是目标文本的词向量,Vattr_value计算得到的候选实体的任意一个关键属性的平均词向量。
通过上述实施方式,以获取与目标文本关联的第一属性字段集,及当前候选实体关联的第二属性字段集;对第一属性字段集和第二属性字段集进行匹配,得到属性字段相似度;根据属性字段相似度,从第二属性字段集中确定出与当前候选实体关联的关键属性字段,从而预先确定出对应于当前候选实体的需要输入模型的关键属性字段,从而提高了实体排序模型的计算效率。
作为一种可选的实施方式,上述获取与候选输入文本相匹配的链接置信度包括:
S1,在向量转换编码器对当前候选输入文本进行编码,以得到多个参考表征向量;
S2,从多个参考表征向量中获取至少两个关键表征向量;
S3,利用至少两个关键表征向量计算得到与当前候选输入文本相匹配的当前链接置信度。
继续如图5对上述实施方式进行说明,将上述步骤中得到的候选输入文本输入BERT Encoder模型中,以输出与上述候选输入文本对应的多个参考表征向量。可以理解的是,此处的BERT Encoder模型可以为不同于上述用于确定候选实体的BERT Encoder模型。可以认为上述用于确定候选实体的BERT Encoder模型为一种深度匹配模型,本实施例中的BERT Encoder模型为一种实体排序模型。
可以理解的是,在获取得到与候选输入文本对应的多个参考表征向量的情况下,获取其中的至少两个关键表征向量,以进一步通过链接计算得到与当前候选输入文本匹配的链接置信度。
通过本申请的上述实施方式,以在向量转换编码器对当前候选输入文本进行编码,以得到多个参考表征向量;从多个参考表征向量中获取至少两个关键表征向量;利用至少两个关键表征向量计算得到与当前候选输入文本相匹配的当前链接置信度的方式,通过预先训练得到的BERT Encoder模型确定出当前候选输入文本匹配的链接置信度,提高了实体链接方法得到的链接结果的准确率。
作为一种可选的实施方式,上述利用至少两个关键表征向量计算得到与当前候选输入文本相匹配的当前链接置信度包括:
S1,对至少两个关键表征向量进行拼接,得到拼接后的关键表征向量;
S2,对拼接后的关键表征向量进行加权计算,得到当前链接置信度。
具体地,结合图5对上述方法进行说明。如图5所示,将候选输入文本“[CLS]”、“[U1]”、“Mention”(即目标实体)、“[U2]”、“Context”、“[SEP]”、“Introduction”(候选实体简介)、“[U3]”、“Property-Value”(关键属性)、“[SEP]”输入BERT Encoder模型后,即可得到每个字符对应的embedding向量表示。具体地,可以选取其中“[CLS]”、“[U1]”、“[U2]”对应的embedding向量,拼接在一起,并通过sigmoid函数得到当前候选实体的链接置信度,具体实现的公式如下:
V=concat(VCLS,VU1,VU2)
Prob=Sigmoid(WV+b)
Loss=label*-logProb+(1-label)*-logProb
其中,上述向量V即“[CLS]”、“[U1]”、“[U2]”对应的embedding向量拼接得到的向量,Prob即将上述向量V输入sigmoid函数得到的概率值,其中,W,b均为预先训练得到的参数矩阵。上述Loss即用于训练当前实体排序模型的损失函数。
通过本申请的上述实施方式,通过对至少两个关键表征向量进行拼接,得到拼接后的关键表征向量;对拼接后的关键表征向量进行加权计算,得到当前链接置信度,进而精确确定出每一个候选实体的链接置信度,并基于准确的链接置信度确定出链接实体,提高了实体链接方法的链接准确率。
作为一种可选的实施方式,上述在获取携带有待链接的目标实体的目标文本之前,还包括:
S1,获取样本文本及与样本文本中所携带的实体关联的样本实体,其中,样本实体配置有实体标签;
S2,利用样本文本及样本实体,对初始化状态下的向量转换编码器进行训练,直至达到第二收敛条件,其中,第二收敛条件用于指示向量转换编码器连续M次输出的训练损失值小于第二阈值,其中,第j次输出的训练损失值为根据第j次训练所用的样本实体配置的实体标签对应的标签指示参数与第j次训练输出的链接置信度确定得到,j为大于等于1,且小于等于M的自然数,M为自然数
可以理解的是,在通过上述实体排序模型计算得到每一个候选实体对应的链接置信度之前,可以通过上述方式可以实现对实体排序模型的模型参数W,b的训练。即预先获取训练样本,每一个训练样本均对应有样本文本以及样本文本中所携带的实体关联的样本实体,并为样本实体配置有对应的标签,如“正例”、“负例”。可以理解的是,“正例”标签指示当前样本文本以及样本文本中所携带的实体与对应的样本实体相关联,“负例”标签指示当前样本文本以及样本文本中所携带的实体与对应的样本实体不关联。
在获取得到上述样本文本以及对应的实体标签后,即对初始化状态的语义编码器进行训练,以达到第一收敛条件。可以理解的是,上述训练即对上述参数矩阵W1、W2的取值进行训练,在未达到收敛条件的情况下,适应性地调整上述参数矩阵W1、W2的取值,进而使得达到收敛条件。
作为一种可选的方式,可以采用以下损失函数对实体排序模型的训练过程进行监督:
Loss=label*-logProb+(1-label)*-logProb
其中,label用于标识当前用于训练的实体对的标签,当前用于训练的实体对为正例的情况下,label值为1,当前用于训练的实体对为负例的情况下,label值为0。
通过本申请的上述方法,以获取样本文本及与样本文本中所携带的实体关联的样本实体,其中,样本实体配置有实体标签;利用样本文本及样本实体,对初始化状态下的向量转换编码器进行训练,直至达到第二收敛条件,其中,第二收敛条件用于指示向量转换编码器连续M次输出的训练损失值小于第二阈值的方式,从而通过有监督的方式训练得到用于确定候选实体与目标实体之间链接置信度的实体排序模型,提高了通过实体排序模型确定目标实体对应的链接实体的准确率。
以下结合图7对本申请的一个完整实施例进行说明。
如步骤S702,构建目标文本对应的第一输入字符序列;
具体地,结合图3对上述方法进行具体说明,如图3所示,首先针对文本侧(即图3中的Query部分)的目标文本“友情旅馆张四”,通过分词得到文本字符集“友”、“情”、“旅”、“馆”、“张”、“四”。接着在上述文本字符集中添加分割标志符。首先通过两个特殊字符“[L]”(即第一分割字符)和“[R]”(即第二分割字符)把目标实体“张四”标识出来,即得到图3中示出的“[L]”、“张”、“四”、“[R]”。接着在文本字符集的首尾再分别拼接字符“[CLS]”(即开始分割字符)和“[SEP]”(即中止分割字符),如图3所示,最终得到第一输入字符序列“[CLS]”、“友”、“情”、“旅”、“馆”、“[L]”、“张”、“四”、“[R]”、“[SEP]”。
如步骤S704,获取对象实体,并构建对象实体对应的第二输入字符序列;
具体地,如图3中,假设当前获取的对象实体为“张四”,其对应的实体描述信息为“友情旅馆男主角”,进而将上述实体描述信息进行分词后得到描述字符集“张”、“四”、“友”、“情”、“旅”、“馆”、“男”、“主”、“角”。接着,在对象实体“张”、“四”之前的位置添加开始分割字符“[CLS]”,并在对象实体“张”、“四”之后的位置添加字段分割字符“[S]”,并在实体描述信息“友”、“情”、“旅”、“馆”、“男”、“主”、“角”之后添加中止分割字符“[SEP]”。进而确定与上述实体描述信息对应的额第二输入字符序列“[CLS]”、“张”、“四”、“[S]”、“友”、“情”、“旅”、“馆”、“男”、“主”、“角”、“[SEP]”。
如步骤S706,基于第一输入字符序列和第二字符输入序列得到第一表征向量和第二表征向量;
具体地,如图3所示,采用BERT Encoder分别对上述字符序列进行编码。对应于Query字符序列“[CLS]”、“友”、“情”、“旅”、“馆”、“[L]”、“张”、“四”、“[R]”、“[SEP]”输入上述经过预训练的BERT Encoder模型后,即得到对应于上述每一个字符的embedding表示,即第一表征向量集“C1、Q1、Q2、Q3、Q4、Q5、Q6、Q7、Q8、S”;对应于Entity字符序列“[CLS]”、“张”、“四”、“[S]”、“友”、“情”、“旅”、“馆”、“男”、“主”、“角”、“[SEP]”得到的第二表征向量集“C2、E1、E2、E3、E4、E5、E6、E7、E8、E9、E10、S”。
在本实施例中,使用“[CLS]”对应的embedding向量作为上述文本对应的表征向量。如在第一表征向量集“C1、Q1、Q2、Q3、Q4、Q5、Q6、Q7、Q8、S”中,使用Query字符序列中的“[CLS]”字符对应的embedding向量“C1”作为上述第一表征向量集的第一表征向量;在第二表征向量集“C2、E1、E2、E3、E4、E5、E6、E7、E8、E9、E10、S”中,使用Entity字符序列中的“[CLS]”对应的embedding向量“C2”作为上述第二表征向量集的第二表征向量。
如步骤S708,基于第一表征向量和第二表征向量计算匹配相似度;
具体地,在获取到上述第一表征向量C1和第二表征向量C2以后,分别通过以下公式对上述表征向量C1、C2进行降维处理。
Vfinal_context=tanh(W1Vcontext)
Vfinal_entity=tanh(W2Ventity)
其中,Vcontext即上述第一表征向量C1,Ventity即上述第二表征向量C2;W1、W2为两个预先训练得到的参数矩阵;Vfinal_context为第一表征向量降维处理后得到的第一降维表征向量,Vfinal_entity为第二表征向量降维处理后得到的第二降维表征向量。可以理解的是,在实际计算中,由于存在多个待匹配的对象实体,因此对应于每个对象实体都需要计算一个Vfinal_entity,即得到多个第二降维表征向量。
接着,通过以下公式计算第一表征向量和第二表征向量之间的匹配相似度:
Loss=(label-Score)2
需要说明的是,上述dot函数即为内积函数,用于计算向量Vfinal_entity的内积,上述sigmoid是一个归一函数,可以将获取的输入转化至[0,1]区间的值。上述loss函数为该模型的损失函数,label用于标识当前用于训练的实体对的标签,当前用于训练的实体对为正例的情况下,label值为1,当前用于训练的实体对为负例的情况下,label值为0。
如步骤S710,判断当前对象实体的匹配相似度是否大于预设阈值,在当前对象实体的匹配相似度大于预设阈值情况下,确定当前对象实体为候选实体,并执行步骤S712,在当前对象实体的匹配相似度排名不大于预设阈值的情况下,继续获取下一个对象实体,并返回步骤S704;
S712,构建候选输入字符序列;
具体地,获取到的当前候选实体为“张四友情旅馆男主角”的情况下,通过以下方式确定出对应于当前候选实体的候选输入文本。首先,在目标文本对应的字符集“友”、“情”、“旅”、“馆”、“张”、“四”中利用第一标识符“[U1]”和第二标识符“[U2]”将目标实体“张四”标注出来,即得到第一字符序列:“友”、“情”、“旅”、“馆”、“[U1]”、“张”、“四”、“[U2]”;
接着,在候选实体“张四友情旅馆男主角”对应的关键属性字段为“律师”的情况下,在候选实体简介和关键属性字段之间添加间隔标识符“[U3]”,即得到第二字符序列“张”、“四”、“友”、“情”、“旅”、“馆”、“男”、“主”、“角”、“[U3]”、“律”、“师”;
最后,利用开始分割字符“[CLS]”,中止分割字符“[SEP]”将上述第一字符序列和第二字符序列进行拼接,得到当前候选输入文本:“[CLS]”、“友”、“情”、“旅”、“馆”、“[U1]”、“张”、“四”、“[U2]”、“[SEP]”、“张”、“四”、“友”、“情”、“旅”、“馆”、“男”、“主”、“角”、“[U3]”、“律”、“师”、“[SEP]”。
S714,确定候选输入字符序列对应的关键表征向量;
具体地,结合图5对上述方法进行说明。如图5所示,将候选输入文本“[CLS]”、“[U1]”、“Mention”(即目标实体)、“[U2]”、“Context”、“[SEP]”、“Introduction”(候选实体简介)、“[U3]”、“Property-Value”(关键属性)、“[SEP]”输入BERT Encoder模型后,即可得到每个字符对应的embedding向量表示。具体地,可以选取其中“[CLS]”、“[U1]”、“[U2]”对应的embedding向量确定为关键表征向量。
S716,基于关键表征向量计算链接置信度;
具体地,可以通过sigmoid函数得到当前候选实体的链接置信度,具体实现的公式如下:
V=concat(VCLS,VU1,VU2)
Prob=Sigmoid(WV+b)
Loss=label*-logProb+(1一label)*-logProb
其中,上述向量V即“[CLS]”、“[U1]”、“[U2]”对应的embedding向量拼接得到的向量,Prob即将上述向量V输入sigmoid函数得到的概率值,其中,W,b均为预先训练得到的参数矩阵。上述Loss即用于训练当前实体排序模型的损失函数。
如步骤S718,判断当前候选实体是否为链接置信度最高的候选实体,在当前候选实体为链接置信度最高的候选实体的情况下,执行步骤S720,确定当前候选实体为链接实体,在当前候选实体不为链接置信度最高的候选实体的情况下,返回步骤S712,获取下一个候选实体。
可以理解的是,可以在确定出全部候选实体对应的链接置信度的情况下,再执行上述步骤S718,进而准确确定出链接置信度最高的候选实体为链接实体。
本发明实施例中,采用获取目标文本;获取与目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量,其中,第一表征向量用于表征目标文本的文本语义,第二表征向量用于表征对象实体的实体语义,对象实体关联有实体描述信息;根据第一表征向量与各个第二表征向量进行各自匹配后的结果,从实体数据库的各个对象实体中获取与目标实体相匹配的至少一个候选实体;对目标文本与各个候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;获取与候选输入文本相匹配的链接置信度;根据链接置信度从至少一个候选实体中确定出与目标实体相匹配的链接实体的方法,通过对目标文本的表征文本语义的向量以及实体语义的向量的结合分析处理,从而得到实体和文本上下文之间的深度语义匹配特征,并基于深度特征获取匹配的链接实体,从而提升了获取链接实体的准确率,解决了现有的实体链接方法的准确率较低的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述实体链接方法的实体链接装置。如图8所示,该装置包括:
第一获取单元802,用于获取目标文本,目标文本携带有待链接的目标实体;
第二获取单元804,用于获取与目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量,其中,第一表征向量用于表征目标文本的文本语义,第二表征向量用于表征对象实体的实体语义,对象实体关联有实体描述信息;
第三获取单元806,用于根据第一表征向量与各个第二表征向量进行各自匹配后的结果,从实体数据库的各个对象实体中获取与目标实体相匹配的至少一个候选实体;
拼接单元808,用于对目标文本与各个候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;
第四获取单元810,用于获取与候选输入文本相匹配的链接置信度;
确定单元812,用于根据链接置信度从至少一个候选实体中确定出与目标实体相匹配的链接实体。
可选地,在本实施例中,上述各个单元模块所要实现的实施例,可以参考上述各个方法实施例,这里不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述实体链接方法的电子设备,该电子设备可以是图9所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图9所示,该电子设备包括存储器902和处理器904,该存储器902中存储有计算机程序,该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取目标文本,目标文本携带有待链接的目标实体;
S2,获取与目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量,其中,第一表征向量用于表征目标文本的文本语义,第二表征向量用于表征对象实体的实体语义,对象实体关联有实体描述信息;
S3,根据第一表征向量与各个第二表征向量进行各自匹配后的结果,从实体数据库的各个对象实体中获取与目标实体相匹配的至少一个候选实体;
S4,对目标文本与各个候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;
S5,获取与候选输入文本相匹配的链接置信度;
S6,根据链接置信度从至少一个候选实体中确定出与目标实体相匹配的链接实体。
可选地,本领域普通技术人员可以理解,图9所示的结构仅为示意,电子设备也可以是车载终端、智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图9其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图9中所示更多或者更少的组件(如网络接口等),或者具有与图9所示不同的配置。
其中,存储器902可用于存储软件程序以及模块,如本发明实施例中的实体链接方法和装置对应的程序指令/模块,处理器904通过运行存储在存储器902内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的实体链接方法。存储器902可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器902可进一步包括相对于处理器904远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器902具体可以但不限于用于存储观察视角画面中的各个元素、实体链接信息等信息。作为一种示例,如图9所示,上述存储器902中可以但不限于包括上述实体链接装置中的第一获取单元802、第二获取单元804、第三获取单元806、拼接单元808、第四获取单元810以及确定单元812。此外,还可以包括但不限于上述实体链接装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置906包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置906为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器908,和连接总线910,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序/指令,该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时,执行本申请实施例提供的各种功能。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
根据本申请的一个方面,提供了一种计算机可读存储介质,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实体链接方方法。
可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取目标文本,目标文本携带有待链接的目标实体;
S2,获取与目标文本对应的第一表征向量,并获取实体数据库中各个对象实体各自对应的第二表征向量,其中,第一表征向量用于表征目标文本的文本语义,第二表征向量用于表征对象实体的实体语义,对象实体关联有实体描述信息;
S3,根据第一表征向量与各个第二表征向量进行各自匹配后的结果,从实体数据库的各个对象实体中获取与目标实体相匹配的至少一个候选实体;
S4,对目标文本与各个候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;
S5,获取与候选输入文本相匹配的链接置信度;
S6,根据链接置信度从至少一个候选实体中确定出与目标实体相匹配的链接实体。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种实体链接方法,其特征在于,包括:
获取目标文本,所述目标文本携带有待链接的目标实体;
在对所述目标文本进行分词后得到的文本字符集中添加分割标识字符,以构建出第一输入字符序列;在语义编码器中对所述第一输入字符序列进行编码,得到第一表征向量集,其中,所述第一表征向量集中包括与所述第一输入字符序列中每个字符分别对应的表征向量;从所述第一表征向量集中确定出所述第一表征向量;在对每个对象实体的实体描述信息进行分词后得到的描述字符集中添加分割标识字符,以构建出与所述对象实体匹配的第二输入字符序列;在所述语义编码器中对所述第二输入字符序列进行编码,得到第二表征向量集,其中,所述第二表征向量集中包括与所述第二输入字符序列中每个字符分别对应的表征向量;从所述第二表征向量集中确定出所述第二表征向量,所述第一表征向量用于表征所述目标文本的文本语义,所述第二表征向量用于表征所述对象实体的实体语义,所述对象实体关联有实体描述信息;
根据所述第一表征向量与各个所述第二表征向量进行各自匹配后的结果,从实体数据库的各个对象实体中获取与所述目标实体相匹配的至少一个候选实体;
对所述目标文本与各个所述候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;
获取与所述候选输入文本相匹配的链接置信度;
根据所述链接置信度从所述至少一个候选实体中确定出与所述目标实体相匹配的链接实体。
2.根据权利要求1所述的方法,其特征在于,
所述在对所述目标文本进行分词后得到的文本字符集中添加分割标识字符,以构建出第一输入字符序列包括:
从所述文本字符集中确定出所述目标实体中首个实体字符所在的第一位置,和所述目标实体中末尾实体字符所在的第二位置;
在所述第一位置之前与所述第二位置之后分别添加第一分割字符及第二分割字符,并在所述目标文本之前添加开始分割字符,所述目标文本之后添加中止分割字符;
所述在对每个所述对象实体的实体描述信息进行分词后得到的描述字符集中添加分割标识字符,以构建出与所述对象实体匹配的第二输入字符序列包括:
从所述描述字符集中确定出所述对象实体中首个实体字符所在的第三位置,和所述对象实体中末尾实体字符所在的第四位置;
在所述第三位置之前添加开始分割字符,并在所述第四位置之后添加字段分割字符;在所述字段分割字符之后的多个描述字段的首个字段字符各自所在的位置之后添加中止分割字符。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一表征向量与各个所述第二表征向量各自对应的匹配结果,从所述实体数据库中获取与所述目标实体相匹配的至少一个候选实体包括:
对所述第一表征向量进行线性变换,得到第一降维表征向量;
对各个所述第二表征向量分别进行线性变化,得到多个第二降维表征向量;
依次计算所述第一降维表征向量与各个所述第二降维表征向量之间的匹配相似度,并将所述匹配相似度作为所述匹配结果;
在获取到全部的匹配结果的情况下,对所述全部的匹配结果进行排序,得到匹配结果序列;
从所述匹配结果序列中获取与所述目标实体相匹配的所述至少一个候选实体。
4.根据权利要求1所述的方法,其特征在于,在获取携带有待链接的目标实体的目标文本之前,还包括:
获取样本文本及与所述样本文本中所携带的实体关联的样本实体,其中,所述样本实体配置有实体标签;
利用所述样本文本及所述样本实体,对初始化状态下的所述语义编码器进行训练,直至达到第一收敛条件,其中,所述第一收敛条件用于指示所述语义编码器连续N次输出的训练损失值小于第一阈值,其中,第i次输出的训练损失值用于指示第i次训练所用的样本实体配置的实体标签与第i次训练输出结果之间的差异,i为大于等于1,且小于等于N的自然数,N为自然数。
5.根据权利要求4所述的方法,其特征在于,所述利用所述样本文本及所述样本实体,对初始化状态下的所述语义编码器进行训练包括:
在获取到第i次输出的训练结果的情况下,从所述训练结果中确定出与所述样本文本中所携带的实体不匹配的差异实体;
将所述差异实体添加到所述样本实体中,得到更新后的样本实体;
利用所述更新后的样本实体,对所述语义编码器进行第i+1次训练。
6.根据权利要求1所述的方法,其特征在于,所述对所述目标文本与各个所述候选实体的实体描述信息分别进行拼接,得到多个候选输入文本包括:
遍历各个所述候选实体的实体描述信息,分别执行以下操作:
获取当前候选实体的实体描述信息;
在所述目标文本中所述目标实体中首个实体字符所在位置之前添加第一标识符,并在所述目标实体中末尾实体字符所在位置之后添加第二标识符;
在所述当前候选实体的实体描述信息中各个描述字段之间添加间隔标识符,其中,所述描述字段包括与所述当前候选实体关联的关键属性字段;
在所述目标文本与所述当前候选实体的实体描述信息之间添加拼接字符,并在所述目标文本之前添加开始分割字符,在所述当前候选实体的实体描述信息之后添加中止分割字符,以得到与所述当前候选实体相匹配的当前候选输入文本。
7.根据权利要求6所述的方法,其特征在于,在获取当前候选实体的实体描述信息之前,还包括:
获取与所述目标文本关联的第一属性字段集,及所述当前候选实体关联的第二属性字段集;
对所述第一属性字段集和所述第二属性字段集进行匹配,得到属性字段相似度;
根据所述属性字段相似度,从所述第二属性字段集中确定出与所述当前候选实体关联的所述关键属性字段。
8.根据权利要求6所述的方法,其特征在于,所述获取与所述候选输入文本相匹配的链接置信度包括:
在向量转换编码器对所述当前候选输入文本进行编码,以得到多个参考表征向量;
从所述多个参考表征向量中获取至少两个关键表征向量;
利用所述至少两个关键表征向量计算得到与所述当前候选输入文本相匹配的当前链接置信度。
9.根据权利要求8所述的方法,其特征在于,所述利用所述至少两个关键表征向量计算得到与所述当前候选输入文本相匹配的当前链接置信度包括:
对所述至少两个关键表征向量进行拼接,得到拼接后的关键表征向量;
对所述拼接后的关键表征向量进行加权计算,得到所述当前链接置信度。
10.根据权利要求8所述的方法,其特征在于,在获取携带有待链接的目标实体的目标文本之前,还包括:
获取样本文本及与所述样本文本中所携带的实体关联的样本实体,其中,所述样本实体配置有实体标签;
利用所述样本文本及所述样本实体,对初始化状态下的所述向量转换编码器进行训练,直至达到第二收敛条件,其中,所述第二收敛条件用于指示所述向量转换编码器连续M次输出的训练损失值小于第二阈值,其中,第j次输出的训练损失值为根据第j次训练所用的样本实体配置的实体标签对应的标签指示参数与第j次训练输出的链接置信度确定得到,j为大于等于1,且小于等于M的自然数,M为自然数。
11.一种实体链接装置,其特征在于,包括:
第一获取单元,用于获取目标文本,所述目标文本携带有待链接的目标实体;
第二获取单元,用于在对所述目标文本进行分词后得到的文本字符集中添加分割标识字符,以构建出第一输入字符序列;在语义编码器中对所述第一输入字符序列进行编码,得到第一表征向量集,其中,所述第一表征向量集中包括与所述第一输入字符序列中每个字符分别对应的表征向量;从所述第一表征向量集中确定出所述第一表征向量;在对每个对象实体的实体描述信息进行分词后得到的描述字符集中添加分割标识字符,以构建出与所述对象实体匹配的第二输入字符序列;在所述语义编码器中对所述第二输入字符序列进行编码,得到第二表征向量集,其中,所述第二表征向量集中包括与所述第二输入字符序列中每个字符分别对应的表征向量;从所述第二表征向量集中确定出所述第二表征向量,所述第一表征向量用于表征所述目标文本的文本语义,所述第二表征向量用于表征所述对象实体的实体语义,所述对象实体关联有实体描述信息;
第三获取单元,用于根据所述第一表征向量与各个所述第二表征向量进行各自匹配后的结果,从实体数据库的各个对象实体中获取与所述目标实体相匹配的至少一个候选实体;
拼接单元,用于对所述目标文本与各个所述候选实体的实体描述信息分别进行拼接,得到多个候选输入文本;
第四获取单元,用于获取与所述候选输入文本相匹配的链接置信度;
确定单元,用于根据所述链接置信度从所述至少一个候选实体中确定出与所述目标实体相匹配的链接实体。
12.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至10任一项中所述的方法。
13.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至10任一项所述方法的步骤。
14.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210589148.8A CN115129883B (zh) | 2022-05-27 | 2022-05-27 | 实体链接方法和装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210589148.8A CN115129883B (zh) | 2022-05-27 | 2022-05-27 | 实体链接方法和装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115129883A CN115129883A (zh) | 2022-09-30 |
CN115129883B true CN115129883B (zh) | 2024-02-13 |
Family
ID=83378339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210589148.8A Active CN115129883B (zh) | 2022-05-27 | 2022-05-27 | 实体链接方法和装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115129883B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115795051B (zh) * | 2022-12-02 | 2023-05-23 | 中科雨辰科技有限公司 | 一种基于实体关系获取链接实体的数据处理系统 |
CN116756345A (zh) * | 2023-08-15 | 2023-09-15 | 杭州同花顺数据开发有限公司 | 一种实体链接方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159485A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
CN111428507A (zh) * | 2020-06-09 | 2020-07-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN113806493A (zh) * | 2021-10-09 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种用于互联网文本数据的实体关系联合抽取方法、装置 |
CN114282066A (zh) * | 2021-09-29 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 目录树扩展方法、模型训练方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2534535A (en) * | 2014-10-08 | 2016-08-03 | Lancaster Univ Business Entpr Ltd | Data structuring and searching methods and apparatus |
-
2022
- 2022-05-27 CN CN202210589148.8A patent/CN115129883B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159485A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
CN111428507A (zh) * | 2020-06-09 | 2020-07-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN114282066A (zh) * | 2021-09-29 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 目录树扩展方法、模型训练方法、装置、设备及存储介质 |
CN113806493A (zh) * | 2021-10-09 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种用于互联网文本数据的实体关系联合抽取方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115129883A (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
US11361188B2 (en) | Method and apparatus for optimizing tag of point of interest | |
CN110837602B (zh) | 基于表示学习和多模态卷积神经网络的用户推荐方法 | |
CN108875074B (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
CN115129883B (zh) | 实体链接方法和装置、存储介质及电子设备 | |
CN108268441B (zh) | 句子相似度计算方法和装置及系统 | |
CN112214685A (zh) | 一种基于知识图谱的个性化推荐方法 | |
CN112836120A (zh) | 一种基于多模态知识图谱的电影推荐方法、系统及终端 | |
CN111061946A (zh) | 场景化内容推荐方法、装置、电子设备及存储介质 | |
CN111666427A (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
CN115115913A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN111310074A (zh) | 兴趣点的标签优化方法、装置、电子设备和计算机可读介质 | |
CN111930894A (zh) | 长文本匹配方法及装置、存储介质、电子设备 | |
CN113011172A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN115062134A (zh) | 知识问答模型训练及知识问答方法、装置和计算机设备 | |
CN110399547A (zh) | 用于更新模型参数的方法、装置、设备和存储介质 | |
CN117271818B (zh) | 视觉问答方法、系统、电子设备及存储介质 | |
CN114398909A (zh) | 用于对话训练的问题生成方法、装置、设备和存储介质 | |
CN114239730A (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
CN111143454B (zh) | 一种文本输出方法、装置及可读存储介质 | |
CN116414938A (zh) | 一种知识点标注方法、装置、设备及存储介质 | |
CN114547313A (zh) | 资源类型识别方法以及装置 | |
CN112417260B (zh) | 本地化推荐方法、装置及存储介质 | |
CN114005015A (zh) | 模型训练方法、电子设备和计算机可读存储介质 | |
CN111611981A (zh) | 信息识别方法和装置及信息识别神经网络训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |