CN116756345A - 一种实体链接方法和系统 - Google Patents
一种实体链接方法和系统 Download PDFInfo
- Publication number
- CN116756345A CN116756345A CN202311022191.7A CN202311022191A CN116756345A CN 116756345 A CN116756345 A CN 116756345A CN 202311022191 A CN202311022191 A CN 202311022191A CN 116756345 A CN116756345 A CN 116756345A
- Authority
- CN
- China
- Prior art keywords
- entity
- information
- keywords
- recall
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 80
- 238000012512 characterization method Methods 0.000 claims abstract description 32
- 238000012163 sequencing technique Methods 0.000 claims abstract description 3
- 238000012545 processing Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 2
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 241000283973 Oryctolagus cuniculus Species 0.000 description 6
- 230000003190 augmentative effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 229910052742 iron Inorganic materials 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004984 smart glass Substances 0.000 description 2
- 241000157593 Milvus Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本说明书涉及信息技术领域,特别涉及一种实体链接方法和系统,该方法包括:获取自由文本;基于自由文本提取出关键字;基于关键字得到包含中文信息的关键字表征向量;中文信息包括以下一种或者多种的组合:关键字的拼音信息、关键字的字形信息、前后关键字的关联信息、自由文本的上下文信息;基于关键字表征向量在实体库中确定多个候选实体召回对象;对多个候选实体召回对象进行排序,确定自由文本对应的实体链接项。
Description
技术领域
本说明书涉及信息技术领域,特别涉及一种实体链接方法和系统。
背景技术
实体链接任务是指将待识别文本中对象(例如:人名、地名、机构名等),无歧义地正确地指向知识库中已经存在的条目过程。在实现实体链接后,可以便与后续的操作和服务等。
但自然语言本身具有高度的歧义性,例如每个名称有可能对应多个同名实体;又或是由于输入过程中的不确定性(如错别字、生僻字、同音字等),导致无法确定关联条目,因此,需要一种实体链接方法,能够保证实体链接任务的效果和成功率。
发明内容
本说明书实施例之一提供一种实体链接方法,所述方法包括:获取自由文本;基于所述自由文本提取出关键字;基于所述关键字得到包含中文信息的关键字表征向量;所述中文信息包括以下一种或者多种的组合:所述关键字的拼音信息、所述关键字的字形信息、前后关键字关联信息、所述自由文本的上下文信息;基于所述关键字表征向量在实体库中确定多个候选实体召回对象;对所述多个候选实体召回对象进行排序,确定所述自由文本对应的实体链接项。
本说明书实施例之一提供一种实体链接系统,包括:信息获取模块,用于获取自由文本;关键字提取模块,用于基于所述自由文本提取出关键字;表征向量确定模块,用于基于所述关键字得到包含中文信息的关键字表征向量;所述中文信息包括以下一种或者多种的组合:所述关键字的拼音信息、所述关键字的字形信息、前后关键字的关联信息、所述自由文本的上下文信息;实体召回模块,用于基于所述关键字表征向量在实体库中确定多个候选实体召回对象;排序确定模型,用于对所述多个候选实体召回对象进行排序,确定所述自由文本对应的实体链接项。
本说明书实施例之一提供一种实体链接装置,包括处理器,所述处理器用于执行上述实体链接方法。
本说明书实施例之一提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行上述实体链接方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书的一些实施例所示的实体链接系统应用场景的示意图;
图2是根据本说明书一些实施例所示的实体链接方法的示例性流程图;
图3是根据本说明书一些实施例所示的汉字“贫”的拆分示意图;
图4是根据本说明书一些实施例所示的基于召回模型确定候选实体召回对象的示例性流程图;
图5是根据本说明书一些实施例所示的召回模型的示例性结构图;
图6是根据本说明书一些实施例所示的实体链接系统的示例性模块图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
在一些实施例中,利用余弦相似度等其他维度的特征来进行实体链接任务,但是常见方式并不完全适应中文环境,缺乏了对汉字字形方面的考虑,当实体链接任务中存在形近字、同音字、偏僻字等情况时,实体链接的准确度不够。例如,“身份证”与“身份证明”间的字符相似度高于“身份证”与“二代证”间的字符相似度,但是在实际语义上“身份证”与“二代证”语义更为接近,又例如,在股票场景中,当用户的输入为“中国中兔”,则应该将其链接到“中国中铁”还是“中国中免”关系到后续展示的页面,可见,实体链接的结果大大关系到用户的使用体验以及后续的服务。
有鉴于此,本说明书提供了一种实体链接,充分考虑拼音、字形(如结构、笔画)等因素,能够很好的适应中文环境,将用户的输入准确链接至其真实意图对应的实体。
图1是根据本说明书一些实施例所示的实体链接的应用场景示意图。
图1是根据本说明书的一些实施例所示的实体链接系统应用场景的示意图。实体链接系统100可以包括服务器110、网络120、终端130和存储设备140。服务器110可以包括处理器112。实体链接系统100中各部件间的连接方式可以是多种的。例如,实体链接系统100中的一个部件可以通过网络120与其他部件进行信息通信。例如,服务器110可以通过网络120从终端130获取信息和/或数据。又例如,服务器可以通过网络120向终端130发送信息和/或数据。
在一些实施例中,服务器110可以是独立的服务器或者服务器组。该服务器组可以是集中式的或者分布式的(如:服务器110可以是分布系统)。在一些实施例中该服务器110可以是区域的或者远程的。例如,服务器110可通过网络120访问存储于终端130、和/或存储设备140的信息和/或资料。在一些实施例中,服务器110可直接与终端130、和/或存储设备140连接以访问存储于其中的信息和/或资料。在一些实施例中,服务器110可在云平台上执行。例如,该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。
在一些实施例中,服务器110可包含处理器112。该处理器112可处理与服务请求有关的数据和/或信息以执行一个或多个本说明书中描述的功能。例如处理器112可基于从终端130获取文本并提取出关键字。在一些实施例中,处理器112可包含一个或多个子处理设备(如:单芯处理设备或多核多芯处理设备)。仅仅作为范例,处理器112可包含中央处理器(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或以上任意组合。
网络120可以是单个网络或不同网络的组合。例如,网络120可以是局域网(LAN)、广域网(WAN)、公共网络、专用网络、无线局域网(WLAN)、虚拟网络、城域网(MAN)、公共电话交换网络(PSTN)或其任意组合。例如,服务器110可以经由蓝牙与终端130通信。网络120还可以包括各种网络接入点。例如,诸如基站(如120-1或120-2等)或因特网的有线或无线接入点可以包括在网络120中。服务器110可以直接或经由网络120访问存储在服务器110信息。
可连接到网络120的终端130可以是移动设备130-1、平板电脑130-2、笔记本电脑130-3、内置设备130-4等中的一种或者其任意几种组合。在一些实施例中,移动设备130-1可以包括可穿戴设备、智能移动设备,虚拟现实设备、增强现实设备等中的一种或其任意几种组合。在一些实施例中,服务器110可以通过可穿戴设备控制终端130,可穿戴设备包括智能手环、智能鞋袜、智能眼镜、智能头盔、智能手表、智能服装、智能背包、智能配件等中的一种或者其任意几种组合。在一些实施例中,智能移动设备可以包括智能电话、个人数字助理(PDA)、游戏设备、导航设备,销售点(POS)设备等中的一种或者其任意几种组合。在一些实施例中,虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实贴片、增强现实头盔、增强现实眼镜、增强现实贴片眼罩等中的一种或者任意几种组合。例如,虚拟现实设备和/或增强现实设备可以包括Google Glass,Oculus Rift,HoloLens,Gear VR等。在一些实施例中,内置设备130-4可以包括车载电脑、车载电视等。在一些实施例中,服务器110可以从终端130获取用户的输入或向用户展示信息。
终端130和可以统称为用户、用户终端或终端,服务器110可以是服务平台。用户可以包括终端130的使用者。在一些实施例中,这些用户还可以是一些其他智能终端,包括但不限于智能家居设备、可穿戴设备、智能移动设备或其他智能设备。对于智能家居设备,可以包括但不限于智能照明设备、智能电器控制设备、智能监控设备、智能电视、智能摄像机、智能电话、对讲机等中的一种或几种的组合;对于可穿戴设备,可以包括但不限于智能手环、智能手表、智能鞋袜、智能眼镜、智能头盔、智能头带、智能服装、智能背包、智能配饰等中的一种或几种的组合;对于智能移动设备,可以包括但不限于交通工具内置设备(车载电脑或车载电视等)、游戏设备、GPS设备、POS机等中的一种或几种的组合。也可以包括类似的设备中的一种或多种。
存储设备140可存储资料和/或指令。在一些实施例中,存储设备140可存储从终端130和/或获取的资料。在一些实施例中,存储设备140可存储供服务器110执行或使用的信息和/或指令,以执行本说明书中描述的示例性方法。在一些实施例中,存储设备140可包括大容量存储器、可移动存储器、挥发性读写存储器(例如随机存取存储器RAM)、只读存储器(ROM)等或以上任意组合。在一些实施例中,存储设备140可在云平台上实现。例如,该云平台可包括私有云、公共云、混合云、社区云、社区云、分散式云、内部云等或以上任意组合。
在一些实施例中,实体链接系统100中的一个或多个组件(如,服务器110、终端130等)可具有访问存储设备140的权限。在一些实施例中,当满足一个或多个条件时,实体链接系统100中的一个或多个组件(如,服务器110、终端130等)可读取和/或修改与请求者、提供者和/或公知常识相关的信息。例如访问存储设备140中的实体库,并进行向量检索。
图2是根据本说明书一些实施例所示的实体链接的示例性流程图。如图2所示,流程200包括下述步骤。在一些实施例中,流程200中的一个或多个步骤可以由图1中的处理器112执行。
步骤210,获取自由文本。在一些实施例中,步骤210可由信息获取模块执行。
自由文本是非结构化的文本,其中词为最基本的单位。自由文本中可能包括名词、形容词、动词、感叹词和标点符号中的一个或多个。不同自由文本之间可能具有不同的句式结构。
在一些实施例中,自由文本可以是平台获取到的用户通过输入设备输入的内容,在一些实施例中,自由文本还可以是通过扫描、语音识别等方式获取。
在一些实施例中,自由文本可以包括用户输入的中文文本,用户可以通过如图1中终端130输入中文文本,例如,中文文本可以是用户在某应用程序内输入的“传因控股最近走势如何?”。通过较好的适应中文环境,可以简化用户操作,提高用户体验。
在一些实施例中,本说明书提供的实体链接方法还可以基于用户输入的中文文本进行中文检索,确定与用户输入的中文文本相关的检索目标。
步骤220,基于自由文本提取出关键字。在一些实施例中,步骤220可由关键字提取模块执行。
关键字可以是自由文本中包含特定意义或能够反应文本主要信息的字或词。在一些实施例中,关键字可以包括需要进行实体链接的候选实体。
例如,关键字可以是专有名词或动词等,继续以前述示例进行说明,中文文本“传因控股最近走势如何?”中的关键字可以包括:传因控股、走势。
在一些实施例中,可以通过预设规则提取关键字,例如可以将自由文本中名词和名称部分作为关键字;在一些实施例中,可以通过抽取算法或机器学习模型提取关键字,例如可以基于BERT模型对自由文本进行span(标签)抽取或利用CRF(条件随机场)算法提取关键字,由于提取关键字的方法较多,在本说明书中不进行限制。
步骤230,基于关键字得到包含中文信息的关键字表征向量。在一些实施例中,步骤230可由表征向量确定模块执行。
表征向量可以是通过机器学习模型等方式将关键字表示成的具有高维度的向量,表征向量中含有关键字的信息。在一些实施例中,表征向量的维度可以根据实际需要设置,例如,关键字表征向量的维度可以是100维。在一些实施例中,机器学习模型可以是Transformer模型或其他模型。
中文信息包括以下一种或者多种的组合:关键字的拼音信息、关键字的字形信息、前后关键字的关联信息、自由文本的上下文信息。对于包含中文信息的关键字表征向量可以更好的反映出当前关键字在中文语境中的信息。在一些实施例中,中文信息可以是多维向量的形式。
关键字的拼音信息可以包括关键字中每个汉字对应的拼音字符和其他隐含信息。例如,关键字“传因控股”的拼音字符可以是“chuan yin kong gu”。
关键字的字形信息可以包括关键字中每个汉字对应字形结构、偏旁部首、笔画和笔顺等信息中的一个或多个。例如,字形信息可以包括根据每个汉字笔顺得到的笔画序列。
前后关键字的关联信息可以包括同一自由文本中的其他关键字的信息,在一些实施例中,其他关键字的信息可以包括拼音信息和字形信息等信息中的一个或多个。例如,如前文中的示例,自由文本“传因控股最近走势如何?”中关键字包括“传因控股”和“走势”,则关键字“传因控股”对应的中文信息可以包括另一关键字“走势”相关的信息。
自由文本的上下文信息可以包括用户输入的或平台通过其他方式获取的当前自由文本的前、后文本的信息,在一些实施例中,自由文本的上下文信息可以包括拼音信息和字形信息等信息中的一个或多个。例如,自由文本“传因控股最近走势如何?”的上一段文本中可能含有“A股”等信息,可以将其与当前文本中关键字的其他信息结合。
步骤240,基于关键字表征向量在实体库中确定多个候选实体召回对象。在一些实施例中,步骤240可由实体召回模块执行。
实体库为包括多个实体信息的一类数据库,在一些实施例中,实体库可以来自某一领域,例如,上市公司实体库、用户实体库等,具体的,上市公司实体库中实体可以包括各上市公司的名称以及法人等。
候选实体召回对象可以是实体库中选取的、与关键字相似或相近的一个或多个实体。如前文中股票场景中的示例,用户输入的中文文本提取的关键字“中国中兔”,可以确定的候选实体召回对象可以包括但不仅限于实体“中国中铁”和实体“中国中免”。
在一些实施例中,确定候选实体召回对象可以基于关键字表征向量通过如简单排序法等方式,在实体库中确定多个(如3个或5个)实体作为候选实体召回对象。
步骤250,对多个候选实体召回对象进行排序,确定自由文本对应的实体链接项。在一些实施例中,步骤250可由排序确定模型执行。
在确定的多个候选实体召回对象中,可以根据特定方法进行排序,排序越靠前则可以认为该候选实体召回对象与自由文本越匹配。在一些实施例中,可以通过候选实体召回对象对应的表征向量与关键字表征向量之间的向量距离确定排序,或者,候选实体召回对象与关键字之间的编辑距离确定排序。具体的,在一些实施例中,向量距离可以是欧氏距离、曼哈顿距离或余弦距离等;编辑距离表示一个字符串转化为另一个字符串所需要的最少编辑次数(如删除、添加、替换等),编辑距离越小表示两字符串约相似,反之亦然;编辑距离可以是莱文斯坦距离(Levenshtein distance)、汉明距离等。
自由文本对应的实体链接项为自由文本实际链接任务需要链接的实体,该实体可以是平台选取出最能够反映出自由文本意图的实体。继续采用前述示例,基于用户输入的中文文本提取的关键字“中国中兔”,确定的候选实体召回对象包括实体“中国中铁”和实体“中国中免”,假设候选实体召回对象排序时仅考虑字形因素,关键字“中国中兔”与两候选实体召回对象区别仅在于最后一个汉字,其中,汉字“兔”与实体“中国中免”的“免”字形相近程度远大于“中国中铁”中的“铁”,因此,可以确定实体“中国中免”为该示例中用户输入的中文文本对应的实体链接项。
在一些实施例中,可以基于排序得分确定目标中文对象。排序得分可以基于字形相似度、拼音相似度和向量余弦相似度中的一个或多个确定。在一些实施例中,可以基于多个候选实体召回对象字形相似度、拼音相似度和向量余弦相似度中的一个或多个的和,确定排序得分。在一些实施例中,可以基于多个候选实体召回对象字形相似度、拼音相似度和向量余弦相似度中的一个或多个的加权和确定排序得分,以体现对其中一个或多个相似度的关注程度。示例性的,在一些实施例中,排序得分=0.35*字形相似度+0.35*拼音相似度+0.3*向量余弦相似度。
在一些实施例中,向量余弦相似度可以是候选实体召回对象对应的表征向量与关键字表征向量之间的向量距离确定排序,候选实体召回对象对应的表征向量可以通过与关键字表征向量相似的方式获取,如通过Transformer模型或其他模型或算法获取。在一些实施例中,若步骤230中使用余弦相似度在实体库中确定多个候选实体召回对象,则可以直接获取确定候选实体召回对象时的余弦相似度计算排序得分。
在一些实施例中,确定拼音相似度的方法包括:去除关键字的拼音的音调,得到拼音的拼音字符串;基于两个拼音字符串,通过编辑距离得到拼音相似度。通常,用户在进行文本输入(如通过键盘或虚拟键盘输入)时,通常不包括拼音的音调,且由于方言发音可能会对音调产生影响,因此,去除关键字的拼音的音调,可以提高计算得到的拼音相似度值的客观程度。在一些实施例中,可以分别计算多个候选实体召回对象中的每个候选实体召回对象与关键字的拼音字符串的编辑距离,以确定两者间的拼音相似度。
通过拼音相似度,可以在中文环境中考虑发音对自由文本的影响,使得实体链接更加准确。
在一些实施例中,确定字形相似度的方法包括:将汉字按照上下或左右进行拆分,得到汉字的拆分序列;拆分序列包括汉字拆分后笔画对应的二叉树遍历结果;基于两个汉字的拆分序列,通过编辑距离得到字形相似度。参考图3,示例性的,可以将汉字“贫”按照上下进行拆分,拆分的方式可以包括图3中二叉树310、320和330三种方式,在一些实施例中,可以选取拆分最详尽的二叉树330,即将其首先按照上下拆分,若拆分后的部分可以继续拆分则进一步拆分,直至无法拆分后,获取汉字拆分后的笔画(而非汉字的笔顺)对应的二叉树遍历结果(即二叉树330),作为该汉字的拆分序列,汉字“贫”对应的拆分序列如图中序列300所示。在一些实施例中,可以分别计算多个候选实体召回对象中的每个候选实体召回对象与关键字的拆分序列的编辑距离,以确定两者间的字形相似度。在一些实施例中,汉字的拆分序列还可以是IDS(表意文字描述)序列。
通过字形相似度可以更好的体现中文汉字在结构上的关联,如确定前文中的汉字“兔”和“免”间的关系,使得实体链接更加准确。
本说明书提供的实体链接方法,充分考虑中文环境中汉字拼音、字形(笔画)等因素,并且能够很好的适应不同使用场景,可以将用户的输入信息准确链接至其真实意图对应的实体,提高用户体验。
在一些实施例中,还可以通过召回模型确定候选实体召回对象,召回模型为经过训练得到的机器学习模型。图4中的流程400示出了基于训练后的召回模型确定候选实体召回对象的具体流程。
步骤410,基于训练后的召回模型对关键字进行处理,得到关键字表征向量。
召回模型根据其使用场景,可以使用不同训练数据进行训练得到,例如,在前述示例的股票场景中,用于在上市公司实体库中确定候选实体召回对象时,训练数据可以包括A股、港股、美股和新三板等证券市场中上市公司的股票名称。召回模型的具体结构可以参见后文中图5相关说明。
在一些实施例中,可以将关键字输入训练后的召回模型,得到关键字表征向量。关键字表征向量的相关内容可以参见步骤230相关描述,此处不再赘述。
步骤420,基于训练后的召回模型,对实体库中的多个实体对象进行处理,得到多个实体对象对应的包含实体中文信息的表征向量。
在一些实施例中,训练后的召回模型可以对实体库中的多个实体对象进行处理,得到将实体所包含的信息表示为包含实体中文信息的表征向量,实体中文信息可以与前文中关键字所包含的中文信息相同或不同,即实体对象对应的表征向量也可以反映出对应实体的拼音信息和字形信息等。
在一些实施例中,实体对象对应的表征向量的维度可以与关键字表征向量的维度相同,或者,经过处理后的实体对象对应的表征向量的维度可以与关键字表征向量的维度相同,以便于进行后续处理。在一些实施例中,可以利用训练后的召回模型对实体库进行预处理,得到每个实体对象对应的表征向量,并保存至实体库中。
步骤430,基于关键字表征向量和实体表征向量对实体对象进行向量检索,得到多个候选实体召回对象。
在一些实施例中,可以基于工具进行向量检索,在实体库中确定多个向量距离相近或满足其他条件的实体表征向量,并将工具所确定实体表征向量对应的实体作为候选实体召回对象。在一些实施例中,向量检索的工具可以是Faiss(Facebook AI SimilaritySearch)或Milvus引擎等。
通过召回模型将关键字和实体对象转化成表征向量的形式并进一步进行向量检索,可以显著加快候选实体召回对象召回速度,实现快速的实体链接。
如图5所示,图中示出了一种示例性的召回模型结构,召回模型可以至少包括第一嵌入层510、第二嵌入层520、融合层540和文本召回层550。
具体的,第一嵌入层510用于对拼音信息进行编码;第二嵌入层520用于对字形信息进行编码,融合层540用于对第一嵌入层510和第二嵌入层520的输出进行融合,并输入至文本召回层550,文本召回层550可以进行向量检索,得到多个候选实体召回对象。
在一些实施例中,对于召回模型的输入(如关键字或实体对象),在模型执行阶段会分别输入至第一嵌入层510和第二嵌入层520,以分别获取输入信息的拼音信息和字形信息。以前述示例“传因控股”为例,其拼音字符“chuan yin kong gu”在第一嵌入层510可以得到一个4×1的向量,根据字形信息在第二嵌入层520可以得到4×100维的矩阵,为了进一步提取输入的汉字的抽象特征信息,在一些实施例中,第二嵌入层520可以是BERT模型中的一层或多个,召回模型还可以包括如图5所示的卷积层530,卷积层530对第一嵌入层510输出的4×1的向量进行处理,得到4×100维的矩阵。融合层540将卷积层530输出的4×100维的矩阵和第二嵌入层520输出的4×100维的矩阵融合(如对位相加),将得到的4×100维的融合矩阵输入至文本召回层550,文本召回层550可以包括如前文所中的向量检索的工具,在实体库中进行向量检索,得到多个候选实体召回对象。需要说明的是,在一些实施例中,召回模型中第二嵌入层520可以输出至另一卷积层530,或者不设置任何卷积层530,此外,根据不同实体链接任务,第一嵌入层510和第二嵌入层520的输出维度可以相同或不同,如可以是向量或矩阵。
在一些实施例中,召回模型的一层或多层可以同时训练或基于预训练模型进行微调得到,其训练过程中的调参方式可以是任何常规方式(如梯度下降法等),在本说明书中不做限制。
通过训练后的召回模型,可以充分考虑输入的关键字或实体对象的拼音、字形以及拼音或字形的抽象信息,使得向量检索得到的候选实体召回对象准确度更高。
应当注意的是,上述有关流程200和流程400的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程200和流程400行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
图6是根据本说明书一些实施例所示的实体链接系统的示例性模块图。如图6所示,实体链接系统600可以包括信息获取模块610、关键字提取模块620、表征向量确定模块630、实体召回模块640和排序确定模型650。
信息获取模块610可以用于获取自由文本。
在一些实施例中,关于自由文本的更多描述可以参见步骤210相关内容,此处不再赘述。
关键字提取模块620可以用于基于所述自由文本提取出关键字。
在一些实施例中,关于关键字的更多描述可以参见步骤220相关内容,此处不再赘述。
表征向量确定模块630可以用于基于所述关键字得到包含中文信息的关键字表征向量;所述中文信息包括以下一种或者多种的组合:所述关键字的拼音信息、所述关键字的字形信息、前后关键字的关联信息、所述自由文本的上下文信息。
在一些实施例中,关于中文信息和关键字表征向量的更多描述可以参见步骤230相关内容,此处不再赘述。
实体召回模块640可以用于基于所述关键字表征向量在实体库中确定多个候选实体召回对象。
在一些实施例中,关于实体库和候选实体召回对象的更多描述可以参见步骤240相关内容,此处不再赘述。
排序确定模型650可以用于对所述多个候选实体召回对象进行排序,确定所述自由文本对应的实体链接项。
在一些实施例中,关于自由文本对应的实体链接项的更多描述可以参见步骤250相关内容,此处不再赘述。
需要注意的是,以上对于实体链接系统600及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。在一些实施例中,图1中披露的表征向量确定模块630、实体召回模块640和排序确定模型650可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。例如,各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (10)
1.一种实体链接方法,其特征在于,所述方法包括:
获取自由文本;
基于所述自由文本提取出关键字;
基于所述关键字得到包含中文信息的关键字表征向量;所述中文信息包括以下一种或者多种的组合:所述关键字的拼音信息、所述关键字的字形信息、前后关键字的关联信息、所述自由文本的上下文信息;
基于所述关键字表征向量在实体库中确定多个候选实体召回对象;
对所述多个候选实体召回对象进行排序,确定所述自由文本对应的实体链接项。
2.如权利要求1所述的方法,其特征在于,基于所述关键字得到包含中文信息的关键字表征向量,包括:
基于所述训练后的召回模型对所述关键字进行处理,得到所述关键字表征向量;
所述基于所述关键字表征向量在实体库中确定多个候选实体召回对象,包括:
基于训练后的召回模型,对所述实体库中的多个实体对象进行处理,得到所述多个实体对象对应的包含实体中文信息的表征向量;
基于所述关键字表征向量和所述实体表征向量对实体对象进行向量检索,得到所述多个候选实体召回对象。
3.如权利要求2所述的方法,其特征在于,所述召回模型包括第一嵌入层、第二嵌入层、融合层和文本召回层;
所述第一嵌入层用于对拼音信息进行编码;所述第二嵌入层用于对字形信息进行编码;所述融合层用于对所述第一嵌入层和所述第二嵌入层的输出进行融合,并输入至所述文本召回层。
4.如权利要求1所述的方法,其特征在于,所述对所述多个候选实体召回对象进行排序,确定目标中文对象,包括:
基于排序得分确定目标中文对象;其中,所述排序得分基于字形相似度、拼音相似度和向量余弦相似度中的一个或多个确定。
5.如权利要求4所述的方法,其特征在于,所述拼音相似度包括:
去除所述关键字的拼音的音调,得到所述拼音的拼音字符串;
基于两个所述拼音字符串,通过编辑距离得到所述拼音相似度。
6.如权利要求4所述的方法,其特征在于,所述字形相似度包括:
将汉字按照上下或左右进行拆分,得到所述汉字的拆分序列;所述拆分序列包括所述汉字拆分后笔画对应的二叉树遍历结果;
基于两个所述汉字的拆分序列,通过编辑距离得到所述字形相似度。
7.如权利要求1所述的方法,其特征在于,其中,所述自由文本包括用户输入的中文文本。
8.一种实体链接系统,其特征在于,包括:
信息获取模块,用于获取自由文本;
关键字提取模块,用于基于所述自由文本提取出关键字;
表征向量确定模块,用于基于所述关键字得到包含中文信息的关键字表征向量;所述中文信息包括以下一种或者多种的组合:所述关键字的拼音信息、所述关键字的字形信息、前后关键字的关联信息、所述自由文本的上下文信息;
实体召回模块,用于基于所述关键字表征向量在实体库中确定多个候选实体召回对象;
排序确定模型,用于对所述多个候选实体召回对象进行排序,确定所述自由文本对应的实体链接项。
9.一种实体链接装置,其特征在于,包括处理器,所述处理器用于执行权利要求1~7中任一项所述的实体链接方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1~7中任一项所述的实体链接方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311022191.7A CN116756345A (zh) | 2023-08-15 | 2023-08-15 | 一种实体链接方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311022191.7A CN116756345A (zh) | 2023-08-15 | 2023-08-15 | 一种实体链接方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116756345A true CN116756345A (zh) | 2023-09-15 |
Family
ID=87951766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311022191.7A Pending CN116756345A (zh) | 2023-08-15 | 2023-08-15 | 一种实体链接方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116756345A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457423A (zh) * | 2019-06-24 | 2019-11-15 | 平安科技(深圳)有限公司 | 一种知识图谱实体链接方法、装置、计算机设备及存储介质 |
CN110929125A (zh) * | 2019-11-15 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 搜索召回方法、装置、设备及其存储介质 |
CN111414763A (zh) * | 2020-02-28 | 2020-07-14 | 长沙千博信息技术有限公司 | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 |
CN114764566A (zh) * | 2022-04-11 | 2022-07-19 | 中国航空综合技术研究所 | 用于航空领域的知识元抽取方法 |
CN114970503A (zh) * | 2022-05-30 | 2022-08-30 | 哈尔滨工业大学 | 一种基于预训练的字音字形知识增强的中文拼写纠正方法 |
CN115034208A (zh) * | 2022-04-24 | 2022-09-09 | 上海大学 | 一种基于bert的中文asr输出文本修复方法及系统 |
CN115129883A (zh) * | 2022-05-27 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 实体链接方法和装置、存储介质及电子设备 |
CN115438154A (zh) * | 2022-09-19 | 2022-12-06 | 上海大学 | 基于表征学习的中文自动语音识别文本修复方法及系统 |
CN115438650A (zh) * | 2022-11-08 | 2022-12-06 | 深圳擎盾信息科技有限公司 | 融合多源特征的合同文本纠错方法、系统、设备及介质 |
-
2023
- 2023-08-15 CN CN202311022191.7A patent/CN116756345A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457423A (zh) * | 2019-06-24 | 2019-11-15 | 平安科技(深圳)有限公司 | 一种知识图谱实体链接方法、装置、计算机设备及存储介质 |
CN110929125A (zh) * | 2019-11-15 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 搜索召回方法、装置、设备及其存储介质 |
CN111414763A (zh) * | 2020-02-28 | 2020-07-14 | 长沙千博信息技术有限公司 | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 |
CN114764566A (zh) * | 2022-04-11 | 2022-07-19 | 中国航空综合技术研究所 | 用于航空领域的知识元抽取方法 |
CN115034208A (zh) * | 2022-04-24 | 2022-09-09 | 上海大学 | 一种基于bert的中文asr输出文本修复方法及系统 |
CN115129883A (zh) * | 2022-05-27 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 实体链接方法和装置、存储介质及电子设备 |
CN114970503A (zh) * | 2022-05-30 | 2022-08-30 | 哈尔滨工业大学 | 一种基于预训练的字音字形知识增强的中文拼写纠正方法 |
CN115438154A (zh) * | 2022-09-19 | 2022-12-06 | 上海大学 | 基于表征学习的中文自动语音识别文本修复方法及系统 |
CN115438650A (zh) * | 2022-11-08 | 2022-12-06 | 深圳擎盾信息科技有限公司 | 融合多源特征的合同文本纠错方法、系统、设备及介质 |
Non-Patent Citations (1)
Title |
---|
周浩华: "《计算机汉字系统的设计与实现》", pages: 1 - 3 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
US10896212B2 (en) | System and methods for automating trademark and service mark searches | |
US11275906B2 (en) | Natural language text conversion and method therefor | |
US20110106805A1 (en) | Method and system for searching multilingual documents | |
CN108345686B (zh) | 一种基于搜索引擎技术的数据分析方法及系统 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
US11030251B2 (en) | Method and system for providing query suggestions based on personalized spelling correction | |
KR20200014047A (ko) | 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램 | |
CN115380260A (zh) | 用于网络游戏的用户输入文本的语言检测 | |
CN112329482A (zh) | 机器翻译方法、装置、电子设备和可读存储介质 | |
CN112347223A (zh) | 文档检索方法、设备及计算机可读存储介质 | |
CN115062134B (zh) | 知识问答模型训练及知识问答方法、装置和计算机设备 | |
CN111444695B (zh) | 基于人工智能的文本生成方法、装置、设备及存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN117436480A (zh) | 一种Mindspore框架下的大模型及推荐方法 | |
CN116956954A (zh) | 文本翻译方法、装置、电子设备及存储介质 | |
CN117093686A (zh) | 智能问答匹配方法、装置、终端及存储介质 | |
CN116595970A (zh) | 语句同义改写方法、装置和电子设备 | |
CN111026281A (zh) | 一种客户端的词组推荐方法、客户端及存储介质 | |
CN116756345A (zh) | 一种实体链接方法和系统 | |
CN115292533A (zh) | 视觉定位驱动的跨模态行人检索方法 | |
CN112800752A (zh) | 纠错方法、装置、设备以及存储介质 | |
CN117892140B (zh) | 视觉问答及其模型训练方法、装置、电子设备、存储介质 | |
CN112417086B (zh) | 数据处理方法、装置、服务器及存储介质 | |
JP7216241B1 (ja) | チャンキング実行システム、チャンキング実行方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |