CN114297449A - 内容查找方法、装置、电子设备及计算机可读介质及产品 - Google Patents

内容查找方法、装置、电子设备及计算机可读介质及产品 Download PDF

Info

Publication number
CN114297449A
CN114297449A CN202111639454.XA CN202111639454A CN114297449A CN 114297449 A CN114297449 A CN 114297449A CN 202111639454 A CN202111639454 A CN 202111639454A CN 114297449 A CN114297449 A CN 114297449A
Authority
CN
China
Prior art keywords
entity
recall
target
linked
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111639454.XA
Other languages
English (en)
Inventor
樊乘源
刘海锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guang Dong Ming Chuang Software Technology Corp ltd
Original Assignee
Guang Dong Ming Chuang Software Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guang Dong Ming Chuang Software Technology Corp ltd filed Critical Guang Dong Ming Chuang Software Technology Corp ltd
Priority to CN202111639454.XA priority Critical patent/CN114297449A/zh
Publication of CN114297449A publication Critical patent/CN114297449A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种内容查找方法、装置、电子设备及计算机可读介质及产品,涉及知识图谱技术领域,所述方法包括:获取与待链接实体匹配的多个召回实体;基于所述待链接实体与每个召回实体对应的实体信息的匹配结果,确定每个召回实体的评分值,所述实体信息包括实体名称、实体别名和实体描述的至少一种;查找评分值大于指定阈值的召回实体,作为候选实体;基于所述候选实体获得输出内容。

Description

内容查找方法、装置、电子设备及计算机可读介质及产品
技术领域
本申请涉及知识图谱技术领域,更具体地,涉及一种内容查找方法、装置、电子设备及计算机可读介质及产品。
背景技术
目前,知识图谱在许多领域都有重要应用,实体链接是应用知识图谱进行信息查询的重要环节之一。当需要确定一个指定内容对应的实体时,需要从别名词库中召回所有该指定内容对应的候选实体。然而,该方法会导致漏召回,且实体链接的准确率不高。
发明内容
本申请提出了一种内容查找方法、装置、电子设备及计算机可读介质及产品。
第一方面,本申请实施例提供了一种内容查找方法,所述方法包括:获取与待链接实体匹配的多个召回实体;基于所述待链接实体与每个召回实体对应的实体信息的匹配结果,确定每个召回实体的评分值,所述实体信息包括实体名称、实体别名和实体描述的至少一种;查找评分值大于指定阈值的召回实体,作为候选实体;基于所述候选实体确定所述待链接实体对应的目标实体。
第二方面,本申请实施例还提供了一种内容查找装置,所述装置包括:第一查找单元、第一处理单元、第二查找单元以及第二处理单元。其中,第一查找单元,用于获取与待链接实体匹配的多个召回实体;第一处理单元,用于基于所述待链接实体与每个召回实体对应的实体信息的匹配结果,确定每个召回实体的评分值,所述实体信息包括实体名称、实体别名和实体描述的至少一种;第二查找单元,用于查找评分值大于指定阈值的召回实体,作为候选实体;第二处理单元,基于所述候选实体确定所述待链接实体对应的目标实体。
第三方面,本申请实施例还提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述方法。
第四方面,本申请实施例还提供了一种计算机可读介质,所述可读存储介质存储有处理器可执行的程序代码,所述程序代码被所述处理器执行时使所述处理器执行上述方法。
第五方面,本申请实施例还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法。
本申请提供的内容查找方法、装置、电子设备及计算机可读介质及产品,该方法首先获取与待链接实体匹配的多个召回实体;然后基于所述待链接实体与每个召回实体对应的实体信息的匹配结果,确定每个召回实体的评分值,再查找评分值大于指定阈值的召回实体,作为候选实体;基于所述候选实体确定所述待链接实体对应的目标实体。若将所有匹配到的召回实体都作为候选实体,将会导致基于所述候选实体确定所述待链接实体对应的目标实体的效率降低,通过确定每个召回实体的评分值,仅将评分值大于指定阈值的召回实体,作为候选实体,可以提高基于所述候选实体确定所述待链接实体对应的目标实体的效率,还可以提高候选实体召回的准确率。
本申请实施例的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一实施例提供的内容查找方法应用的场景图;
图2示出了本申请实施例提供的内容查找方法的方法流程图;
图3示出了本申请实施例提供的内容查找方法的示意图;
图4示出了本申请又一实施例提供的内容查找方法的方法流程图;
图5示出了本申请再一实施例提供的内容查找方法的方法流程图;
图6示出了本申请还一实施例提供的内容查找方法的方法流程图;
图7示出了图6中步骤S630的一种实施方式;
图8示出了本申请还一实施例提供的内容查找方法的方法流程图;
图9示出了本申请还一实施例提供的内容查找方法的方法流程图;
图10示出了图9中步骤S950的一种实施方式;
图11示出了本申请还一实施例提供的内容查找方法的示意图;
图12示出了本申请实施例提供的内容查找装置的单元框图;
图13示出了本申请实施例提供的电子设备的示意图;
图14示出了本申请实施例提供的计算机可读存储介质的结构框图;
图15示出了本申请实施例提供的计算机程序产品的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
随着网络数据以指数级别增长,网络已经成为最大的数据仓库之一,且大量的数据在网络上以自然语言的形式呈现。但是自然语言本身具有歧义性,尤其是对于一些出现频率较高的实体,它们可能对应多个名称,而每个名称又可能对应多个同名实体。因此,为了能够将网络数据与知识库连接起来,进而为理解网络数据的语义信息提供便利,需要使用的关键技术便是实体链接(entity linking)技术。
具体的,实体链接就是将一段文本中的某些字符串映射到知识库中对应的实体上。比如对于文本“郑雯出任复旦大学新闻学院副院长”,就可以将字符串“郑雯”、“复旦大学”、“复旦大学新闻学院”分别映射到对应的实体上。实体链接可以解决实体的歧义现象,实体的歧义现象包括多样性和歧义性两类,实体的多样性指的是某个实体实际上可能对应多个不同的别名,例如,“姚明”的别名包括移动长城、小巨人等,实体的歧义性指的是同一个实体在不同的上下文中可能对应着知识库中不一样的实体对象,例如,“李娜”可能对应着知识库中的运动员李娜、歌手李娜以及教师李娜等。
现有技术中,一般对需要进行实体链接的实体,所对应的实体相关内容都进行召回,作为候选实体,再基于该候选实体查找出合适的实体。
然而,发明人在研究中发现,若将所有匹配到的召回实体都作为候选实体,将会导致基于所述候选实体确定所述待链接实体对应的目标实体的效率降低,通过确定每个召回实体的评分值,仅将评分值大于指定阈值的召回实体,作为候选实体,可以提高基于所述候选实体确定所述待链接实体对应的目标实体的效率,还可以提高候选实体召回的准确率。
因此,为了克服上述缺陷,本申请实施例提供了一种内容查找方法、装置、电子设备及计算机可读介质及产品,该方法首先获取与待链接实体匹配的多个召回实体;然后基于所述待链接实体与每个召回实体对应的实体信息的匹配结果,确定每个召回实体的评分值,再查找评分值大于指定阈值的召回实体,作为候选实体;基于所述候选实体确定所述待链接实体对应的目标实体。
请参阅图1,图1示出了本申请实施例提供的内容查找方法的应用场景,即内容查找场景100,该内容查找场景100包括输入设备110以及电子设备120,其中电子设备120包括内容查找系统121,输入设备110用于获取文本信息111,例如,该用户通过该输入设备111输入文本信息,或者,输入设备111主动获取用户在其他客户端或终端上输入的文本信息。其中,输入设备111与电子设备120相连接,用于将文本信息111发送给内容查找系统121。
其中,文本信息111为需要处理的文字信息,即待输入的信息,该文本信息111可以输入内容查找系统121进行内容查找。对于一些实施方式,该文本信息111可以为一句话或者一段话。具体的,该本文信息111可以为一篇文档,该文档中可以包括一句话或一段话,例如,该输入设备110可以为键盘或打字机,通过打字员手动输入一段文字,将该文字生成一篇文档,再将该文档作为文本信息111;该输入设备110还可以为麦克风阵列,通过文字识别技术,对图像文件中的文字信息进行识别,生成一篇文档,再将该文档作为文本信息111;还可以通过语音识别技术,将特定的语音转换为文字信息,生成一篇文档,再将该文档作为文本信息111。
电子设备120用于给文本信息111提供输入输出接口,并使用内容查找系统121对输入的文本信息111进行处理。其中,电子设备120可以为智能手机、平板电脑、服务器等具有处理能力的设备。
内容查找系统121用于对输入的文本信息111内容查找,可以对从文本信息111中确定的待链接实体进行实体查找,找到至少一个实体,使该实体较符合待链接实体的语义信息。对于一些实施方式,被查找出来的信息以可以直接存入数据库中,供用户查询以及进一步分析利用。对于本申请提供的一种实施方式,该内容查找系统121可以为运行在电子设备120上的一套系统,或者是运行于电子设备120的操作系统上的应用程序。
请参阅图2,图2示出了本申请实施例提供的一种内容查找方法,该方法可以应用于前述实施例中的内容查找场景100,该方法的执行主体可以为电子设备。具体的,该方法包括步骤S210至步骤S240。
步骤S210:获取与待链接实体匹配的多个召回实体。
对于一些实施方式,文本信息中的每一个句子一般都包括实体,其中实体可以为人名、地名、机构名等。例如,若文本信息为“小明现在还没有吃饭”,则可以提取出实体为“小明”。对于另一些实施方式,对文本信息中的每句子,抽取出其对应的实体信息可能不止一个,例如,若文本信息为“小明喜欢小王”,则可以提取出实体为“小明”以及“小王”,可以使用数据组的形式将提取出的实体记为[“小明”,“小王”],其中基于文本信息提取出的实体,即为待链接实体。进一步的,因为对于一些文本信息,即使该本文信息是由完全相同的文字组成,但是其语义可能完全不同。例如,若第一个文本信息为“小明喜欢小王”,第二文信息为“小王喜欢小明”,若以文字为最小的组成单元来看,第一文本信息和第二文本信息都是由“小”、“王”、“喜”、“欢”、“小”、“明”这几个文字组成,但是易知第一文本信息与第二文本信息的语义不同。若对第一文本信息与第二文本信息对应的实体信息,可以获取到[“小王”,“小明”]能够同时满足作为第一文本信息对应的实体信息和第二文本信息对应的实体信息。
进一步的,对于一些实施方式,该文本信息可以为一句话,也可以为一段话。例如,文本信息可以由句子A构成,也可以由句子A+句子B构成,还可以为句子A+句子B+句子C…构成,其中“…”标识后续句子数量可以为不确定的数。对于文本信息中的每一句话,都可以抽取出其对应的待链接实体。例如,对于句子A可以抽取出待链接实体a1,对于句子B可以抽取出待链接实体b1,对于句子C可以抽取出待链接实体c1。具体的,若输入文本为“小王喜欢吃苹果。小明喜欢吃西瓜。小明和小王都不喜欢吃香蕉。”则对应的句子A为:“小王喜欢吃苹果”,句子B为:“小明喜欢吃西瓜”,句子C为:“小明和小王都不喜欢吃香蕉”,可以抽取出句子A对应的待链接实体a1为:[“小王”],句子B对应的待链接实体b1为:[“小明”],句子C对应的待链接实体c1为:[“小明”,“小王”]。
进一步的,对于一些实施方式,为了通过输入文本获取待链接实体,可以将文本信息输入预训练模型,获取到每个句子对应的特征向量,再将该特征向量输入循环神经网络(Recurrent Neural Network,RNN)以及激活函数层sigmoid,其中激活函数层sigmoid用于识别输入的向量并对向量进行拟合,进而获取到待链接实体。
对于一些实施方式,该预训练模型可以为BERT语言模型。该BERT语言模型能够使用大规模的预训练语料进行预训练,从而一定程度上可以弥补样本数量较少带来的问题。该预训练模型可以通过对初始模型输入预训练语料包进行训练,例如使用金融资讯、新闻杂志文本等作为预训练料包对该初始模型进行训练从而获取预训练模型,也可以直接从网络服务器中获取已完成训练的预训练模型。进一步的,在训练过程中,还可以通过将训练语料包以及其对应的特征向量输入初始模型,经初始模型预测的训练句子与语料包中的关键句子进行比较,如果两者相同则说明已完成初始模型的训练,如果两者不同则说明需要更改初始模型的模型参数继续训练初始模型。当训练结束后,获取初始模型及其模型参数共同构成预训练模型。
对于一些实施方式,可以通过将所述文本信息输入预训练模型,来获取文本信息中句子对应的实体。进一步的,该预训练模型可以将输入的文本信息按照文字为基本单位进行拆分,得到以文字为基本单位的组合。例如,若该文本信息为“小王喜欢吃苹果”,则将该文本信息输入该预训练模型后,可以得到组合:[“小”,“王”,“喜”,“欢”,“吃”,“苹”,“果”]。
进一步的,因为同样的文字由于顺序不同可以表达完全不同的含义,例如,对于“小王喜欢小明”以及“小明喜欢小王”两个句子,该两个句子所包括的文字完全相同,但是由于文字的顺序不同,其表示的含义不同。因此,对于该组合中的每一个文字,还可以分别获取到用于表示其位置的位置表示向量以及用于表示其内容的内容表示向量。其中,位置表示向量用于表示该文字处于输入文本信息的具体位置,内容表示向量用于表示该文字所表示的具体内容。对于本申请提供的一种实施方式,该预训练模型为BERT模型,该BERT模型使用的是绝对位置编码,即对于每一个文字所处的位置,都有一个单独的向量与其对应。具体的,可以使用向量x1表示输入文本信息中第一个位置,使用向量x2表示输入文本信息中的第二个位置,依此类推。例如,若输入文本信息为“小明喜欢吃苹果”,则可以使用向量x1表示文字“小”的位置,使用向量x2表示“明”的位置,依次类推,使用向量x7表示“果”的位置。
进一步的,请参阅图3将输入文本信息输入进预训练模型后,可以得到基于该输入文本信息的特征向量。使用该特征向量可以确定输入文本当中的待链接实体。具体的,可以将该特征向量输入一种循环神经网络RNN,例如,对于一些实施方式,该循环神经网络RNN可以为长短期神经网络(long short term memory,LSTM),对于本申请提供的一种实施方式,该循环神经网络RNN还可以为双向长短期神经网络(Bi-long short term memory,Bi-LSTM)。其中,双向长短期神经网络Bi-LSTM结构模型分为两个独立的长短期神经网络LSTM,输入序列分别以正序和逆序输入至两个长短期神经网络LSTM进行特征提取,分别获得正序输出向量以及逆序输出向量,将上述两个输出向量进行拼接后形成的向量作为该输入信息的最终特征表达。基于该表达特征,可以确定处输入信息的起始点位置以及结束点位置,位于起始点位置和结束点位置之间的位置向量对应的文字,即为该文本信息对应的实体。
具体的,对于一些实施方式,可以将输入文本信息转化成的文字为基本单位的组合中的每一个位置向量,通过数值来标识出实体的首尾信息。例如,若输入文本信息为“小王的妻子是小明”,则通过该预训练模型后可以获得文字为基本单位的组合:[“小”,“王”,“的”,“妻”,“子”,“是”,“小”,“明”]。进一步的,对于组合中的每一个文字,都有一个坐标向量与该文字对应,即可以是向量x1对应“小”,向量x2对应“王”,向量x3对应“的”,向量x4对应“妻”,向量x5对应“子”,向量x6对应“是”,向量x7对应“小”,向量x8对应“明”。进一步的,可以使用两串数字序列,使得该序列中的每一个数字对应一个位置向量,通过每一个数字表示出该位置向量对应的文字是否能够作为待链接实体。例如,该两串数字序列可以为实体首部序列以及实体尾部序列,实体首部序列中的每一个数字对应输入文本中的一个坐标向量,实体尾部序列中每一个数字对应输入文本中的一个坐标向量。对于一些实施方式,可以使实体尾部序列和实体首部序列中的每一个数字都为默认值,当出现非默认值时,则基于实体首部序列和实体尾部序列中非默认值对应的坐标向量以及该坐标向量之间的坐标向量,获取待链接实体。请继续参阅图3,对于一些实施方式,可以令该默认值为0,令非默认值为1,则对于输入文本信息为“小王的妻子是小明”,若获取到实体首部序列为[“1”,“0”,“0”,“0”,“0”,“0”,“1”,“0”],实体尾部序列为[“0”,“1”,“0”,“0”,“0”,“0”,“0”,“1”],则可以获取到实体首部序列中第一个数字为非默认值1,以及第七个数字为非默认值1,以及尾部序列中第二个数字为非默认值1,第八个数字为非默认值1。进一步的,通过上述非默认值1,可以将实体首部序列中的第一数字与实体尾部序列中的第二个数字组合,将实体首部序列中的第七个数字与实体尾部序列中的第八个数字组合,即可以指向向量x1、向量x2、向量x7以及向量x8。再通过查询上述向量对应的文字,即向量x1对应的是“小”,向量x2对应的是“王”,向量x3对应的是“小”,向量x8对应的是“明”。可以获取到该输入文本信息对应的待链接实体,即为[“小”,“王”,“小”,“明”]。
对于一些实施方式,可以基于待链接实体匹内容配到召回实体,该召回实体可以为零个,此时即无法匹配到召回实体,该召回实体也可以为一个或者多个,该多个为大于或等于两个。
进一步的,可以建立一种索引,将实体信息存放入该索引当中,当需要对待链接实体匹配召回实体时,可以从该索引中召回实体,而不需要在存储数据的关系型数据库中检索,从而可以提高检索效率。具体的,对于本申请提供的一种实施方式,该索引可以为ES(Elastic Search)索引。例如,可以分别建立实体名称、实体别名以及实体描述对应的文档,即实体名称文档、实体别名文档以及实体描述文档。。当数据信息写入ES索引时,会分为不同的片段term,该不同的片段term将会与对应的文档建立映射关系,通过该映射关系,即可将片段term和文档建立联系。例如,该片段term若为实体名称片段term,则可以和实体名称文档建立映射关系,通过该映射关系,可以直接从实体名称文档中找到该片段term。
步骤S220:基于所述待链接实体与每个召回实体对应的实体信息的匹配结果,确定每个召回实体的评分值,所述实体信息包括实体名称、实体别名和实体描述的至少一种。
对于一些实施方式,可以将待链接实体与该待链接实体相对应的每一个召回实体进行评估,对不符合一定要求的召回实体进行过滤,将符合一定要求的召回实体作为候选实体。通过对候选实体进行筛选的方式,一定程度上可以提高基于所述候选实体确定所述待链接实体对应的目标实体的效率,还可以提高候选实体召回的准确率。进一步的,可以通过待链接实体与该待链接实体对应的每个召回实体对应的实体信息进行评估,其中,实体信息可以包括实体名称、实体别名以及实体描述中的至少一种。具体的,可以通过待链接实体与该待链接实体对应的每个召回实体对应的实体信息,确定每个召回实体的评分值,再通过设定一定的要求,对该评分值进行评估。
对于本申请提供的一种实施方式,基于所述目标召回实体对应的权重和搜索评分,确定所述目标召回实体对应的评分值。具体的,目标召回实体的搜索评分,可以通过评分算法获取,例如,通过词频(Term Frequency,TF)算法,统计该目标召回实体在索引中对应文档中出现的次数,次数越多,则该搜索评分就越高。对于另一些实施方式,还可以通过逆向文档频率(Inverse Document Frequency,IDF)算法,统计目标召回实体在索引中不同的文档中出现的次数,出现的次数越多,则该搜索评分就越低。
进一步的,权重可以基于所述待链接实体与所述目标召回实体对应的实体信息的匹配结果而确定,其中,该实体信息可以为实体名称、实体别名以及实体描述中的至少一个。进一步的,该实体信息还可以包括第一信息以及第二信息,其中,该第一信息为实体名称、实体别名和实体描述的其中一个,所述第二信息为实体名称、实体别名和实体描述三者中除第一信息之外的二者的其中之一。若所述匹配结果为待链接实体与目标召回实体对应的所述第一信息匹配,则可以获取第一权重;若所述匹配结果为待链接实体与目标召回实体对应的所述第二信息匹配,则可以获取第二权重。
步骤S230:查找评分值大于指定阈值的召回实体,作为候选实体。
对于一些实施方式,上述一定要求可以为一个指定阈值,基于上述获得的每个召回实体的评分值,进行判断。具体的,可以将每个召回实体的评分值大于该指定阈值的召回实体,作为候选实体。例如,对本申请提供的一种实施方式,可以设定指定阈值为0.2,若召回实体的评分值为0.5,因为0.5大于0.2,因此可以将该召回实体作为候选实体。
步骤S240:基于所述候选实体确定所述待链接实体对应的目标实体。
对于一些实施方式,可以通过待链接实体获取到的候选实体,获取到待链接实体对应的目标实体。因为本实施例中候选实体已经经过上述步骤进行过筛选,因此能有效提升当前步骤中从候选实体获得输出内容的效率。
进一步的,可以通过对指定内容与每个所述候选实体执行语句整合处理,其中,所述指定内容基于所述输入文本得到,再通上述整合处理的语句与该候选实体对应的实体描述之间的语义相关度进行打分,最后选择出得分最高的候选实体作为目标实体。详细的方法介绍可以参考后续实施例描述。
本申请提供的内容查找方法、装置、电子设备及计算机可读介质及产品,该方法首先获取与待链接实体匹配的多个召回实体;然后基于所述待链接实体与每个召回实体对应的实体信息的匹配结果,确定每个召回实体的评分值,再查找评分值大于指定阈值的召回实体,作为候选实体;基于所述候选实体确定所述待链接实体对应的目标实体。若将所有匹配到的召回实体都作为候选实体,将会导致基于所述候选实体确定所述待链接实体对应的目标实体的效率降低,本申请通过确定每个召回实体的评分值,仅将评分值大于指定阈值的召回实体,作为候选实体,可以提高基于所述候选实体确定所述待链接实体对应的目标实体的效率,还可以提高候选实体召回的准确率。
请参阅图4,图4示出了本申请实施例提供的一种内容查找方法,该方法可以应用于前述实施例中的内容查找场景100,该方法的执行主体可以为电子设备。具体的,该方法包括步骤S410至步骤S460。
步骤S410:获取与待链接实体匹配的多个召回实体。
其中,步骤S410在前述实施例中已经详细描述,此处就不再赘述。
步骤S420:从多个召回实体中确定一个目标召回实体。
对于一些实施方式,待链接实体可以对应不止一个召回实体,因此召回实体中可以包括多个实体。例如若待链接实体为“小王”,则召回实体可以包括[“小王”,“王仔”,“小王子”]。此时可以对召回实体进行编号,每次取出一个编号对应的召回实体作为目标召回实体。例如,若召回实体为[“小王”,“王仔”,“小王子”],则可以将“小王”编为1号,“王仔”编为2号,“小王子”编为3号。若此次将编号为1号的召回实体作为目标召回实体,则将“小王”作为目标召回实体。
步骤S430:基于所述目标召回实体对应的权重和搜索评分,确定所述目标召回实体对应的评分值。
对于一些实施方式,所述搜索评分用于表征所述目标召回实体与所述待链接实体之间的相关度,所述权重基于所述待链接实体与所述目标召回实体对应的实体信息的匹配结果而确定。
进一步的,目标召回实体与待链接实体之间的相关度,可以通过该目标召回实体与该待链接实体的文字信息进行判断。例如,若待链接实体为“小王”,该目标召回实体为“小王”,此时该目标召回实体与该待链接实体的文字信息相同,则可以判定为相关度较高,此时搜索评分较高。若待链接实体为“小王”,该目标召回实体为“王仔”,此时该目标召回实体与该待链接实体的文字信息部分相同,则可以判定为相关度一般,此时搜索评分一般。若待链接实体为“小王”,该目标召回实体为“李明”,此时该目标召回实体与该待链接实体的文字信息不相同,则可以判定为相关度较低,此时搜索评分较低。
进一步的,对于一些实施方式,权重可以基于所述待链接实体与所述目标召回实体对应的实体信息的匹配结果而确定。具体的,若所述待链接实体与所述目标召回实体对应的实体信息几乎相同时,则可以确定为较大权重。若所述待链接实体与所述目标召回实体对应的实体信息几乎不同时,则可以确定为较小权重。详细的介绍可以参看后续实施例。
步骤S440:从多个召回实体中,确定新的目标召回实体,并返回执行基于所述目标召回实体对应的权重和搜索评分,确定所述目标召回实体对应的评分值的操作,直至所有召回实体遍历完毕。
由前述步骤可知,对于一些实施方式,召回实体中可以存在多个实体,因此需要每次将召回实体中的一个实体,作为目标召回实体,获取所述目标召回实体对应的评分值,直至所有召回实体遍历完毕。例如,若召回实体包括[“小王”,“旺仔”,“小王子”],则可以首先将“小王”作为目标召回实体进行对应的评分值获取,然后将“旺仔”作为目标召回实体进行对应的评分值获取,最后将“小王子”作为目标召回实体进行对应的评分值获取。
需要说明的是,从召回实体中选出实体作为目标召回实体的顺序以及方式不对本申请实施例构成限制。
步骤S450:查找评分值大于指定阈值的召回实体,作为候选实体。
步骤S460:基于所述候选实体确定所述待链接实体对应的目标实体。
其中,步骤S450以及步骤S460在前述实施例中已经详细描述,此处就不再赘述。
请参阅图5,图5示出了本申请实施例提供的一种内容查找方法,该方法可以应用于前述实施例中的内容查找场景100,该方法的执行主体可以为电子设备。具体的,该方法包括步骤S510至步骤S580。
步骤S510:获取与待链接实体匹配的多个召回实体。
步骤S520:从多个召回实体中确定一个目标召回实体。
其中,步骤S510以及步骤S520在前述实施例中已经详细描述,此处就不再赘述。
步骤S530:确定待链接实体与目标召回实体的实体信息的匹配结果。
对于一些实施方式,不同目标召回实体对应的实体信息不同,该实体信息可以为实体名称、实体别名以及实体描述中的至少一个。进一步的,该实体信息还可以包括第一信息以及第二信息,其中,该第一信息为实体名称、实体别名和实体描述的其中一个,所述第二信息为实体名称、实体别名和实体描述三者中除第一信息之外的二者的其中之一。例如,对于一些实施方式,所述第一信息可以为实体名称,第二信息可以为实体别名。对于另一些实施方式,所述第一信息还可以为实体别名,第二信息还可以为实体描述。对于还一些实施方式,所述第一信息还可以为实体名称,第二信息还可以为实体描述。具体的,若实体名称为“小王”,实体别名为“旺仔”,实体描述为“阿王今天吃了面包”。则对于一些实施方式,该第一信息可以为“小王”,该第二信息可以为“旺仔”。对于另一些实施方式,该第一信息可以为“旺仔”,该第二信息可以为“阿王今天吃了面包”。对于还一些实施方式,该第一信息可以为“小王”,该第二信息可以为“阿王今天吃了面包”。
进一步的,可以基于待链接实体与目标召回实体对应的实体信息进行匹配的结果来确定所述目标召回实体对应的评分值。
步骤S540:若所述匹配结果为待链接实体与目标召回实体对应的所述第一信息匹配,基于第一权重和搜索评分确定所述目标召回实体对应的评分值。
步骤S550:若所述匹配结果为待链接实体与目标召回实体对应的所述第二信息匹配,基于第二权重和搜索评分确定所述目标召回实体对应的评分值。
对于一些实施方式,若待链接实体与目标召回实体对应的所述第一信息匹配,则基于第一权重和搜索评分确定所述目标召回实体对应的评分值。例如,若实体名称为“小王”,实体别名为“旺仔”,实体描述为“阿王今天吃了面包”。则对于一些实施方式,该第一信息可以为“小王”,该第二信息可以为“旺仔”。此时若待处理召回实体为“小王”,则易知待链接实体与目标召回实体对应的第一信息匹配,则应基于第一权重和搜索评分确定该目标召回实体对应的评分值。
对于另一些实施方式,若待链接实体与目标召回实体对应的所述第二信息匹配,则基于第二权重和搜索评分确定所述目标召回实体对应的评分值。例如,若实体名称为“小明”,实体别名为“旺仔”,实体描述为“阿王今天吃了面包”。则对于一些实施方式,该第一信息可以为“小明”,该第二信息可以为“旺仔”。此时若待处理召回实体为“小王”,则易知待链接实体与目标召回实体对应的第二信息匹配,则应基于第二权重和搜索评分确定该目标召回实体对应的评分值。
进一步的,对于一些实施方式,可以将权重信息与搜索评分相乘,获得评分值。权重信息包括第一权重以及第二权重,其中,第一权重大于第二权重。具体的,若待链接实体与目标召回实体对应的所述第一信息匹配,可以将第一权重与搜索评分相乘作为该目标召回实体对应的评分值;若待链接实体与目标召回实体对应的所述第二信息匹配,可以将第二权重与搜索评分相乘作为该目标召回实体对应的评分值。进一步的,可以将第一权重设置为0.9,将第二权重设置为0.8。则当待链接实体与目标召回实体对应的所述第一信息匹配时,可以将0.9*搜索评分相乘作为该目标召回实体对应的评分值;当待链接实体与目标召回实体对应的所述第二信息匹配时,可以将0.8*搜索评分相乘作为该目标召回实体对应的评分值。
步骤S560:从多个召回实体中,确定新的目标召回实体,并返回执行基于所述目标召回实体对应的权重和搜索评分,确定所述目标召回实体对应的评分值的操作,直至所有召回实体遍历完毕。
步骤S570:查找评分值大于指定阈值的召回实体,作为候选实体。
步骤S580:基于所述候选实体确定所述待链接实体对应的目标实体。
其中,步骤S560至步骤S580在前述实施例中已经详细描述,此处就不再赘述。
请参阅图6,图6示出了本申请实施例提供的一种内容查找方法,该方法可以应用于前述实施例中的内容查找场景100,该方法的执行主体可以为电子设备。具体的,该方法包括步骤S610至步骤S690。
步骤S610:获取与待链接实体匹配的多个召回实体。
步骤S620:从多个召回实体中确定一个目标召回实体。
步骤S630:确定待链接实体与目标召回实体的实体信息的匹配结果。
其中,步骤S610至步骤S620在前述实施例中已经详细描述,此处就不再赘述。
对于一些实施方式,步骤S630确定待链接实体与目标召回实体的实体信息的匹配结果的方法可以包括步骤S530,还可以包括图7所示的步骤S631。
步骤S631:若待链接实体与目标召回实体的多个实体别名中的至少一个匹配,则判定匹配结果为待链接实体与目标召回实体对应的所述实体别名匹配。
对于一些实施方式,目标召回实体可以包括多个实体别名。若待链接实体与目标召回实体的多个实体别名中的至少一个匹配,则判定匹配结果为待链接实体与目标召回实体对应的所述实体别名匹配。例如,若待链接实体为“小王”,目标召回实体包含的多个实体别名可以为[“旺仔”,“小明”,“李欢欢”],此时“小王”可以与“旺仔”匹配,则可以判定匹配结果为待链接实体与目标召回实体对应的所述实体别名匹配。
步骤S640:若所述匹配结果为待链接实体与目标召回实体对应的所述实体名称匹配,基于第一权重和搜索评分确定所述目标召回实体对应的评分值。
步骤S650:若所述匹配结果为待链接实体与目标召回实体对应的所述实体别名匹配,基于第二权重和搜索评分确定所述目标召回实体对应的评分值。
步骤S660:若所述匹配结果为待链接实体与目标召回实体对应的所述实体描述匹配,基于第三权重和搜索评分确定所述目标召回实体对应的评分值,其中,所述第一权重、第二权重和第三权重依次减小。
对于一些实施方式,实体信息可以包括实体名称、实体别名和实体描述,可以基于上述匹配结果,确定所述目标召回实体对应的评分值。若所述匹配结果为待链接实体与目标召回实体对应的所述实体名称匹配,基于第一权重和搜索评分确定所述目标召回实体对应的评分值。若所述匹配结果为待链接实体与目标召回实体对应的所述实体别名匹配,基于第二权重和搜索评分确定所述目标召回实体对应的评分值。若所述匹配结果为待链接实体与目标召回实体对应的所述实体描述匹配,基于第三权重和搜索评分确定所述目标召回实体对应的评分值,其中,所述第一权重、第二权重和第三权重依次减小。例如,若实体名称为“小明”,待链接实体为“小明”。则该待链接实体与目标召回实体对应的所述实体名称匹配,可以基于第一权重和搜索评分确定所述目标召回实体对应的评分值。若实体名称为“小李”,实体别名为“旺仔”,则待链接实体与目标召回实体对应的所述实体别名匹配,可以基于第二权重和搜索评分确定所述目标召回实体对应的评分值。若实体名称为“小李”,实体别名为“大黄”,实体描述为“阿王今天吃了面包”,则待链接实体与目标召回实体对应的所述实体描述匹配,可以基于第三权重和搜索评分确定所述目标召回实体对应的评分值。
进一步的,对于一些实施方式,可以将权重与搜索评分相乘,获得评分值,其中权重可以包括第一权重、第二权重以及第三权重。可以分别设定第一权重为0.9,第二权重为0.8,第三权重为0.3。例如,若所述匹配结果为待链接实体与目标召回实体对应的所述实体名称匹配,则可以将0.9*搜索评分作为所述目标召回实体对应的评分值;若所述匹配结果为待链接实体与目标召回实体对应的所述实体别名匹配,则可以将0.8*搜索评分作为所述目标召回实体对应得评分值;所述匹配结果为待链接实体与目标召回实体对应的所述实体描述匹配,则可以将0.3*搜索评分作为所述目标召回实体对应的评分值。
步骤S670:从多个召回实体中,确定新的目标召回实体,并返回执行基于所述目标召回实体对应的权重和搜索评分,确定所述目标召回实体对应的评分值的操作,直至所有召回实体遍历完毕。
步骤S680:查找评分值大于指定阈值的召回实体,作为候选实体。
步骤S690:基于所述候选实体确定所述待链接实体对应的目标实体。
其中,步骤S670至步骤S690在前述实施例中已经详细描述,此处就不再赘述。
请参阅图8,图8示出了本申请实施例提供的一种内容查找方法,该方法可以应用于前述实施例中的内容查找场景100,该方法的执行主体可以为电子设备。具体的,该方法包括步骤S810至步骤S860。
步骤S810:获取与待链接实体匹配的多个召回实体。
步骤S820:从多个召回实体中确定一个目标召回实体。
其中,步骤S810以及步骤S820在前述实施例中已经详细描述,此处就不再赘述。
步骤S830:基于所述目标召回实体对应的权重、搜索评分和实体流行度,确定所述目标召回实体对应的评分值,所述实体流行度用于表征所述目标召回实体在指定时间段内的热度。
对于一些实施方式,可以在评分值中增加一项实体流行度,加上前述实施例中详细描述的权重和搜索评分,共同组成该目标召回实体对应的评分值。其中,该实体流行度用于表征所述目标召回实体在指定时间段内的热度。
进一步的,对于一些实施方式,目标召回实体的实体流行度可以由该目标召回实体被搜索的次数进行表征,对被搜索次数较多的目标召回实体,可以给予较高的实体流行度评分。例如,若目标召回实体包括[“小王”,“阿明”],其中对于“小王”的搜索次数为100次,对于“阿明”的搜索次数为50次,则可以给予较高的实体流行度评分给“小王”对应的目标召回实体,给予较低的实体流行度评分给“阿明”对应的目标召回实体。
对于一些实施方式,还可以设定阈值条件,来给实体流行度进行评分。例如,当目标召回实体被搜索次数大于或等于100次时,可以给予对应的实体流行度0.3分;当目标召回内容被搜索的次数为大于或等于20次且小于100次时,可以给予对应的实体流行度为0.2分;当目标召回内容被搜索的次数为大于0次且小于20次时,可以给予对应的实体流行度为0.1分;当目标召回内容被搜索的次数为0次时,可以给予对应的实体流行度为0分。例如,若目标召回实体为“小王”,当“小王”被搜索了56次,则因为56次处于20次和100次之间,因此可以给与该目标召回内容对应的实体流行度为0.2分。
进一步的,对于一些实施方式,还可以获取指定时间段内的实体流行度。例如,可以指定时间段,检测该时间段内该目标召回内容被搜索的次数,再基于上述设定的阈值条件进行判断。例如,该时间段可以为距今一周时间,则可以检测距今一周时间内该目标召回实体被搜索的次数,然后基于该次数判断实体流行度。
对于一些实施方式,所述目标召回实体对应的评分值可以包括权重、搜索评分以及实体流行度。例如,该评分值可以为权重*搜索评分+实体流行度。
步骤S840:从多个召回实体中,确定新的目标召回实体,并返回执行基于所述目标召回实体对应的权重和搜索评分,确定所述目标召回实体对应的评分值的操作,直至所有召回实体遍历完毕。
步骤S850:查找评分值大于指定阈值的召回实体,作为候选实体。
步骤S860:基于所述候选实体确定所述待链接实体对应的目标实体。
其中,步骤S840至步骤S860在前述实施例中已经详细描述,此处就不再赘述。
本申请提供的内容查找方法、装置、电子设备及计算机可读介质及产品,该方法首先获取与待链接实体匹配的多个召回实体;然后基于待链接实体与每个召回实体对应的实体信息的匹配结果,通过引入权重、搜索评分以及实体流行度,综合确定每个召回实体的评分值,再查找评分值大于指定阈值的召回实体,作为候选实体;基于所述候选实体确定所述待链接实体对应的目标实体。若将所有匹配到的召回实体都作为候选实体,将会导致基于所述候选实体确定所述待链接实体对应的目标实体的效率降低,通过多方面评分综合确定每个召回实体的评分值,仅将评分值大于指定阈值的召回实体,作为候选实体,可以提高基于所述候选实体确定所述待链接实体对应的目标实体的效率,还可以提高候选实体召回的准确率。
请参阅图9,图9示出了本申请实施例提供的一种内容查找方法,该方法可以应用于前述实施例中的内容查找场景100,该方法的执行主体可以为电子设备。具体的,该方法包括步骤S910至步骤S960。
步骤S910:获取与待链接实体匹配的多个召回实体。
步骤S920:基于所述待链接实体与每个召回实体对应的实体信息的匹配结果,确定每个召回实体的评分值,所述实体信息包括实体名称、实体别名和实体描述的至少一种。
步骤S930:查找评分值大于指定阈值的召回实体,作为候选实体。
其中,步骤S910至步骤S930在前述实施例中已经详细描述,此处就不再赘述。
步骤S940:基于指定内容与每个所述候选实体执行语句整合处理,得到每个所述候选实体对应的参考内容,所述指定内容基于所述输入文本得到。
对于一些实施方式,可以通过每个所述候选实体对应的参考内容,确定出目标实体。其中,该候选实体对应的参考内容可以基于指定内容与每个所述候选实体执行语句整合处理得到,该指定内容可以基于输入文本得到。具体的,该指定内容可以基于该输入文本的语义得到,可以为基于该输入文本语义构建的一个问题。例如,若该输入文本为“小王《甲乙丙丁》集数”,则该输入文本可以为“小王主演的《甲乙丙丁》共有多少集?”。对于本申请提供的一种实施方式,该参考内容可以为query样本。
进一步的,可以将该指定内容与每个所述候选实体进行拼接,获得该参考内容。例如,若该指定内容为“xxx主演的《甲乙丙丁》共有多少集?”,其中“xxx”可以为待拼接的候选实体,例如,候选实体为“《甲乙丙丁》”,则可以获得该参考内容为“小王主演的《甲乙丙丁》共有多少集?”对于另一些实施方式,还可以通过特定符号标识出候选实体。例如,可以通过两个“#”号,将候选实体置于两个“#”号之间,以此对候选实体进行标识。则上述参考内容还可以表示为“小王主演的#《甲乙丙丁》#共有多少集?”
步骤S950:基于每个所述候选实体对应的参考内容与该候选实体对应的实体描述之间的语义相关性,从多个所述候选实体内查找目标实体。
对于一些实施方式,可以基于每个所述候选实体对应的参考内容与该候选实体对应的实体描述之间的语义相关性,通过预训练模型,获取到每个所述候选实体对应的参考内容与该候选实体对应的实体描述之间的语义相关度得分,再基于上述得分,获取到目标实体。
进一步的,可以将每个所述候选实体对应的参考内容与该候选实体对应的实体描述进行拼接获得拼接信息。例如,若该参考内容为“#小王#主演的《甲乙丙丁》共有多少集?”,该实体描述为“小王的妻子是欢欢。”。则可以获得拼接信息为“#小王#主演的《甲乙丙丁》共有多少集?小王的妻子是欢欢。”对于另一些实施方式,候选实体对应的实体描述还可以有多个,其中多个可以为大于或等于两个。可以通过“;”将多个实体描述间隔开来,再与该参考内容进行拼接。例如,若该参考内容为“#小王#主演的《甲乙丙丁》共有多少集?”,该实体描述为“小王的妻子是欢欢;小王生于1990年;小王是成都人。”则可以获得该拼接信息为“#小王#主演的《甲乙丙丁》共有多少集?小王的妻子是欢欢;小王生于1990年;小王是成都人。”进一步的,为了详细描述获得语义相关度得分的方法,请参阅图10,图10包括步骤S951以及步骤S952。
步骤S951:获取每个所述候选实体对应的参考内容与该候选实体对应的实体描述之间的语义相关度得分。
对于一些实施方式,可以将上述拼接信息作为输入信息,输入预训练模型中,通过该预训练模型获得语义相关度得分。其中,该预训练模型可以为bert模型或者RoBERTa模型,对于本申请提供的一种实施方式,该预训练模型为RoBERTa模型。其中,RoBERTa模型为基于bert模型的一种改进,获取方式和bert模型类似,可以通过对初始模型输入预训练语料包进行训练,例如使用金融资讯、新闻杂志文本等作为预训练料包对该初始模型进行训练从而获取预训练模型,也可以直接从网络服务器中获取已完成训练的预训练模型。进一步的,在训练过程中,还可以通过将训练语料包以及其对应的特征向量输入初始模型,经初始模型预测的训练句子与语料包中的关键句子进行比较,如果两者相同则说明已完成初始模型的训练,如果两者不同则说明需要更改初始模型的模型参数继续训练初始模型。当训练结束后,获取初始模型及其模型参数共同构成预训练模型。
进一步的,请参阅图11,对于一些实施方式,可以将拼接信息输入该预训练模型中,通过该预训练模型获取到特征向量,再将该特征向量和该候选实体对应的评分值相拼接,一起输入全连接层(Fully Connected Layer,FCL),获得语义相关度得分。其中,语义相关度得分用于表示出该参考内容中的候选实体与该实体对应的实体描述之间的语义相关程度,该相关程度越高,则语义相关度得分越高;该相关度越低,则语义相关度越低。
具体的,每一个输入该预训练模型的拼接信息,都可以通过该预训练模型,获得一个CLS特征向量,该CLS特征向量可以使用“[]”进行标识,并放置于该拼接信息的第一个字符的前面,例如,若该拼接信息为“ABC”,则可以获取到“[CLS]ABC”。其中,CLS特征向量的值用于表征对应的拼接信息的语义,即对于不同语义的多个拼接信息,其CLS特征向量差别较大,而对于语义近似的多个拼接信息,其CLS特征向量差别较小。
进一步的,将该CLS特征向量与评分值相拼接获取拼接向量。对于一些实施方式,可以直接将评分值作为一个新的向量维度,在CLS特征向量已有的向量维度基础上增加一个维度,例如,若CLS特征向量包括32维向量,则将该评分值对应的向量作为第33维向量拼接在CLS特征向量上,获取拼接向量。对于另一些实施方式,还可以将该评分值作为一个向量,添加在每一个CLS特征向量的维度里,例如,若该CLS特征向量包括32维向量,则在每一个维度的向量后都添加一个评分值对应的向量,组成具有评分值的CLS特征向量,即拼接向量。
进一步的,将拼接向量输入全连接层获取语义相关度得分,其中,全连接层用于将特征进行整合。对于一些实施方式,该全连接层可以基于卷积,对输入的拼接后的CLS特征向量和评分值进行降维,以实现特征整合,最终获取语义相关度得分。其中,该全连接层可以为一层,也可以为多层,例如两层。进一步的,易知拼接向量中,CLS特征向量占有较大比重,因此该CLS特征向量对语义相关度得分的影响一般大于评分值对应的向量。进一步的,还可以通过全连接层设置修正参数,以修正拼接向量中CLS特征向量和评分值对应的向量对输出语义相关度得分的影响。例如,对于一些实施方式,若对于该拼接向量,基于全连接层获得的语义相关度得分为1.5,可以通过调整修正参数,使相同的拼接向量获得的语义相关度得分变为1.2。
对于本申请提供的一种实施方式,可以基于该预训练模型,使用训练样本来得到训练样本得分,对该预训练模型进行语义相关度得分的训练。例如,可以从网络信息中获取训练样本,再通过分词等处理获取训练实体,然后查找与该训练实体能够匹配的训练实体描述。通过该训练实体以及该训练实体描述获取到训练序列,将该训练序列与训练实体描述拼接后作为训练语料,使用多条训练语料输入至预训练模型中获取训练样本得分,该训练样本得分用于表征该训练实体和该训练实体描述的语义相关程度。基于预先标注的该训练实体和该训练实体描述匹配信息,可以获取该语义相关度得分的误差。若该误差未满足指定条件,可以继续进行训练,直至使用该预训练模型获取到的样本得分的误差值满足该指定条件,此时即可以通过该预训练模型获取候选实体得分。
步骤S952:将语义相关度得分最高的候选实体作为目标实体。
对于一些实施方式,对于每一个候选实体,都可以通过上述方法获取到一个对应的语义相关度得分,将所有的语义相关度得分中最高的候选实体作为目标实体。例如,“小王”对应的语义相关度得分为95分,“小明”对应的语义相关度得分为60分,“小张”对应的语义相关度得分为30分,因为95分大于60分大于30分,即可将“小王”作为目标实体。
步骤S960:基于所述目标实体确定所述待链接实体对应的目标实体。
对于一些实施方式,可以基于上述目标实体确定所述待链接实体对应的目标实体,将该目标实体作为输出内容,例如该目标实体为“小王”,则可以将“小王”作为输出内容。对于另一些实施方式,该输出内容还可以为该目标实体以及该目标实体对应的实体描述。例如,若该目标实体为“小王”,该目标实体对应的实体描述为“小王的妻子是欢欢;小王生于1990年;小王是成都人。”则该输出内容可以为“小王,小王的妻子是欢欢;小王生于1990年;小王是成都人。”
本申请提供的内容查找方法、装置、电子设备及计算机可读介质及产品,该方法首先获取与待链接实体匹配的多个召回实体;然后基于所述待链接实体与每个召回实体对应的实体信息的匹配结果,确定每个召回实体的评分值,再查找评分值大于指定阈值的召回实体,作为候选实体;通过获取每个所述候选实体对应的参考内容与该候选实体对应的实体描述之间的语义相关度得分,确定输出内容。若将所有匹配到的召回实体都作为候选实体,将会导致基于所述候选实体确定所述待链接实体对应的目标实体的效率降低,通过确定每个召回实体的评分值,仅将评分值大于指定阈值的召回实体,作为候选实体,再获取每一个候选实体进行语义相关度得分,根据得分确定输出内容。可以提高基于所述候选实体确定所述待链接实体对应的目标实体的效率,还可以提高候选实体召回的准确率。
请参阅图12,其示出了本申请实施例提供的一种内容查找装置1200的结构框图,该装置可以包括:第一查找单元1210、第一处理单元1220、第二查找单元1230以及第二处理单元1240。
第一查找单元1210用于获取与待链接实体匹配的多个召回实体。
第一处理单元1220用于基于所述待链接实体与每个召回实体对应的实体信息的匹配结果,确定每个召回实体的评分值,所述实体信息包括实体名称、实体别名和实体描述的至少一种。
进一步的,第一处理单元1220还用于从多个召回实体中确定一个目标召回实体;基于所述目标召回实体对应的权重和搜索评分,确定所述目标召回实体对应的评分值,其中,所述搜索评分用于表征所述目标召回实体与所述待链接实体之间的相关度,所述权重基于所述待链接实体与所述目标召回实体对应的实体信息的匹配结果而确定;从多个召回实体中,确定新的目标召回实体,并返回执行基于所述目标召回实体对应的权重和搜索评分,确定所述目标召回实体对应的评分值的操作,直至所有召回实体遍历完毕。
进一步的,第一处理单元1220还用于确定待链接实体与目标召回实体的实体信息的匹配结果;若所述匹配结果为待链接实体与目标召回实体对应的所述第一信息匹配,基于第一权重和搜索评分确定所述目标召回实体对应的评分值;若所述匹配结果为待链接实体与目标召回实体对应的所述第二信息匹配,基于第二权重和搜索评分确定所述目标召回实体对应的评分值。
进一步的,第一处理单元1220还用于确定待链接实体与目标召回实体的实体信息的匹配结果;若所述匹配结果为待链接实体与目标召回实体对应的所述实体名称匹配,基于第一权重和搜索评分确定所述目标召回实体对应的评分值;若所述匹配结果为待链接实体与目标召回实体对应的所述实体别名匹配,基于第二权重和搜索评分确定所述目标召回实体对应的评分值;若所述匹配结果为待链接实体与目标召回实体对应的所述实体描述匹配,基于第三权重和搜索评分确定所述目标召回实体对应的评分值,其中,所述第一权重、第二权重和第三权重依次减小。
进一步的,第一处理单元1220还用于若待链接实体与目标召回实体的多个实体别名中的至少一个匹配,则判定匹配结果为待链接实体与目标召回实体对应的所述实体别名匹配。
进一步的,第一处理单元1220还用于基于所述目标召回实体对应的权重、搜索评分和实体流行度,确定所述目标召回实体对应的评分值,所述实体流行度用于表征所述目标召回实体在指定时间段内的热度。
第二查找单元1230用于查找评分值大于指定阈值的召回实体,作为候选实体。
第二处理单元1240用于基于所述候选实体确定所述待链接实体对应的目标实体。
进一步的,第二处理单元1240还用于基于指定内容与每个所述候选实体执行语句整合处理,得到每个所述候选实体对应的参考内容,所述指定内容基于所述输入文本得到;基于每个所述候选实体对应的参考内容与该候选实体对应的实体描述之间的语义相关性,从多个所述候选实体内查找目标实体;基于所述目标实体确定所述待链接实体对应的目标实体。
进一步的,第二处理单元1240还用于获取每个所述候选实体对应的参考内容与该候选实体对应的实体描述之间的语义相关度得分;将语义相关度得分最高的候选实体作为目标实体。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,单元相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
请参考图13,其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备1300可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备1300可以包括一个或多个如下部件:处理器1310、存储器1320以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器1320中并被配置为由一个或多个处理器1310执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器1310可以包括一个或者多个处理核。处理器1310利用各种接口和线路连接整个电子设备1300内的各个部分,通过运行或执行存储在存储器1320内的指令、程序、代码集或指令集,以及调用存储在存储器1320内的数据,执行电子设备1300的各种功能和处理数据。可选地,处理器1310可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1310可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1310中,单独通过一块通信芯片进行实现。
存储器1320可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器1320可用于存储指令、程序、代码、代码集或指令集。存储器1320可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备1300在使用中所创建的数据等。
请参考图14,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1400中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质1400可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质1400包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1400具有执行上述方法中的任何方法步骤的程序代码1410的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1410可以例如以适当形式进行压缩。
请参考图15,其示出了本申请实施例提供的一种计算机程序产品的结构框图1500。该计算机程序产品1500中包括计算机程序/指令1510,该计算机程序/指令1510被处理器执行时实现上述方法的步骤。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种内容查找方法,其特征在于,包括:
获取与待链接实体匹配的多个召回实体;
基于所述待链接实体与每个召回实体对应的实体信息的匹配结果,确定每个召回实体的评分值,所述实体信息包括实体名称、实体别名和实体描述的至少一种;
查找评分值大于指定阈值的召回实体,作为候选实体;
基于所述候选实体确定所述待链接实体对应的目标实体。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待链接实体与每个召回实体对应的实体信息的匹配结果,确定每个召回实体的评分值,包括:
从多个召回实体中确定一个目标召回实体;
基于所述目标召回实体对应的权重和搜索评分,确定所述目标召回实体对应的评分值,其中,所述搜索评分用于表征所述目标召回实体与所述待链接实体之间的相关度,所述权重基于所述待链接实体与所述目标召回实体对应的实体信息的匹配结果而确定;
从多个召回实体中,确定新的目标召回实体,并返回执行基于所述目标召回实体对应的权重和搜索评分,确定所述目标召回实体对应的评分值的操作,直至所有召回实体遍历完毕。
3.根据权利要求2所述的方法,其特征在于,所述实体信息包括第一信息和第二信息,所述第一信息为实体名称、实体别名和实体描述的其中一个,所述第二信息为实体名称、实体别名和实体描述三者中除第一信息之外的二者的其中之一,所述基于所述目标召回实体对应的权重和搜索评分,确定所述目标召回实体对应的评分值,包括:
确定待链接实体与目标召回实体的实体信息的匹配结果;
若所述匹配结果为待链接实体与目标召回实体对应的所述第一信息匹配,基于第一权重和搜索评分确定所述目标召回实体对应的评分值;
若所述匹配结果为待链接实体与目标召回实体对应的所述第二信息匹配,基于第二权重和搜索评分确定所述目标召回实体对应的评分值。
4.根据权利要求3所述的方法,其特征在于,所述第一信息为实体名称,第二信息为实体别名,所述第一权重大于所述第二权重。
5.根据权利要求3所述的方法,其特征在于,所述第一信息为实体别名,第二信息为实体描述,所述第一权重大于所述第二权重。
6.根据权利要求3所述的方法,其特征在于,所述第一信息为实体名称,第二信息为实体描述,所述第一权重大于所述第二权重。
7.根据权利要求2所述的方法,其特征在于,所述实体信息包括实体名称、实体别名和实体描述,所述基于所述目标召回实体对应的权重和搜索评分,确定所述目标召回实体对应的评分值,包括:
确定待链接实体与目标召回实体的实体信息的匹配结果;
若所述匹配结果为待链接实体与目标召回实体对应的所述实体名称匹配,基于第一权重和搜索评分确定所述目标召回实体对应的评分值;
若所述匹配结果为待链接实体与目标召回实体对应的所述实体别名匹配,基于第二权重和搜索评分确定所述目标召回实体对应的评分值;
若所述匹配结果为待链接实体与目标召回实体对应的所述实体描述匹配,基于第三权重和搜索评分确定所述目标召回实体对应的评分值,其中,所述第一权重、第二权重和第三权重依次减小。
8.根据权利要求7所述的方法,其特征在于,所述实体别名为多个,所述确定待链接实体与目标召回实体的实体信息的匹配结果,包括:
若待链接实体与目标召回实体的多个实体别名中的至少一个匹配,则判定匹配结果为待链接实体与目标召回实体对应的所述实体别名匹配。
9.根据权利要求2所述的方法,其特征在于,所述基于所述目标召回实体对应的权重和搜索评分,确定所述目标召回实体对应的评分值,包括:
基于所述目标召回实体对应的权重、搜索评分和实体流行度,确定所述目标召回实体对应的评分值,所述实体流行度用于表征所述目标召回实体在指定时间段内的热度。
10.根据权利要求1所述的方法,其特征在于,所述待链接实体为基于输入文本得到,所述基于所述候选实体确定所述待链接实体对应的目标实体,包括:
基于指定内容与每个所述候选实体执行语句整合处理,得到每个所述候选实体对应的参考内容,所述指定内容基于所述输入文本得到;
基于每个所述候选实体对应的参考内容与该候选实体对应的实体描述之间的语义相关性,从多个所述候选实体内查找目标实体;
基于所述目标实体确定所述待链接实体对应的目标实体。
11.根据权利要求10所述的方法,其特征在于,所述基于每个所述候选实体对应的参考内容与该候选实体对应的实体描述之间的语义相关性,从多个所述候选实体内查找目标实体,包括:
获取每个所述候选实体对应的参考内容与该候选实体对应的实体描述之间的语义相关度得分;
将语义相关度得分最高的候选实体作为目标实体。
12.一种内容查找装置,其特征在于,包括:
第一查找单元,用于获取与待链接实体匹配的多个召回实体;
第一处理单元,用于基于所述待链接实体与每个召回实体对应的实体信息的匹配结果,确定每个召回实体的评分值,所述实体信息包括实体名称、实体别名和实体描述的至少一种;
第二查找单元,用于查找评分值大于指定阈值的召回实体,作为候选实体;
第二处理单元,用于基于所述候选实体确定所述待链接实体对应的目标实体。
13.一种电子设备,其特征在于,包括:一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-11任一项所述的方法。
15.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-11任一项所述的方法。
CN202111639454.XA 2021-12-29 2021-12-29 内容查找方法、装置、电子设备及计算机可读介质及产品 Pending CN114297449A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111639454.XA CN114297449A (zh) 2021-12-29 2021-12-29 内容查找方法、装置、电子设备及计算机可读介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111639454.XA CN114297449A (zh) 2021-12-29 2021-12-29 内容查找方法、装置、电子设备及计算机可读介质及产品

Publications (1)

Publication Number Publication Date
CN114297449A true CN114297449A (zh) 2022-04-08

Family

ID=80971837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111639454.XA Pending CN114297449A (zh) 2021-12-29 2021-12-29 内容查找方法、装置、电子设备及计算机可读介质及产品

Country Status (1)

Country Link
CN (1) CN114297449A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992883A (zh) * 2023-09-27 2023-11-03 苏州远眸智能科技有限公司 实体对齐的处理方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992883A (zh) * 2023-09-27 2023-11-03 苏州远眸智能科技有限公司 实体对齐的处理方法和装置
CN116992883B (zh) * 2023-09-27 2023-12-05 苏州远眸智能科技有限公司 实体对齐的处理方法和装置

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
WO2019223552A1 (zh) 文章推荐方法、装置、计算机设备及存储介质
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN110321537B (zh) 一种文案生成方法和装置
US20220254507A1 (en) Knowledge graph-based question answering method, computer device, and medium
CN110472043B (zh) 一种针对评论文本的聚类方法及装置
CN107885717B (zh) 一种关键词提取方法及装置
CN109800427B (zh) 一种分词方法、装置、终端及计算机可读存储介质
CN111125457A (zh) 一种深度跨模态哈希检索方法及装置
CN114706945A (zh) 意图识别方法、装置、电子设备及存储介质
KR20200018469A (ko) 데이터 압축 및 분석을 위한 컴퓨터화된 방법
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN114297449A (zh) 内容查找方法、装置、电子设备及计算机可读介质及产品
CN112487159B (zh) 检索方法、检索装置及计算机可读存储介质
CN111858966B (zh) 知识图谱的更新方法、装置、终端设备及可读存储介质
CN113919424A (zh) 文本处理模型的训练、文本处理方法、装置、设备和介质
CN110287284B (zh) 语义匹配方法、装置及设备
JP5418138B2 (ja) 文書検索システム、情報処理装置およびプログラム
CN114118087A (zh) 实体确定方法、装置、电子设备及存储介质
CN114238746A (zh) 跨模态检索方法、装置、设备及存储介质
CN109947947B (zh) 一种文本分类方法、装置及计算机可读存储介质
CN113609373A (zh) 知识推荐方法、装置、电子设备及存储介质
WO2020244150A1 (zh) 语音检索方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination