CN113761219A - 基于知识图谱的检索方法、装置、电子设备及存储介质 - Google Patents

基于知识图谱的检索方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113761219A
CN113761219A CN202110492303.XA CN202110492303A CN113761219A CN 113761219 A CN113761219 A CN 113761219A CN 202110492303 A CN202110492303 A CN 202110492303A CN 113761219 A CN113761219 A CN 113761219A
Authority
CN
China
Prior art keywords
retrieved
content
information
entity
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110492303.XA
Other languages
English (en)
Inventor
黄剑辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110492303.XA priority Critical patent/CN113761219A/zh
Publication of CN113761219A publication Critical patent/CN113761219A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于知识图谱的检索方法、装置、电子设备及存储介质,涉及检索技术领域,该方法包括:获取待检索内容及知识图谱,所述知识图谱中包括所述待检索内容所对应待检索实体以及至少一个关联实体;从所述知识图谱中搜索与所述待检索实体具有目标关联关系的所述关联实体,得到待检索内容所对应的子图谱;对所述待检索内容进行信息编码处理,得到所述待检索内容的第一特征信息,并对所述子图谱进行信息编码处理,得到所述子图谱的第二特征信息;将所述第一特征信息及所述第二特征信息进行特征融合处理,得到融合特征信息;基于所述融合特征信息确定所述待检索内容对应的检索结果。本申请有效提升内容检索时的检索准确性及可靠性。

Description

基于知识图谱的检索方法、装置、电子设备及存储介质
技术领域
本申请涉及检索技术领域,具体涉及一种基于知识图谱的检索方法、装置、电子设备及存储介质。
背景技术
内容检索是基于检索词或检索文本等待检索内容进行内容检索的工作,例如内容推荐、内容搜索等场景中都可能涉及内容检索工作。目前,存在通过深度学习等技术对待检索内容进行语义学习而检索的方案。
但是相关技术中基于深度学习等技术在进行内容检索时,由于待检索内容会存在语义更新频率高以及提供信息量较少等情况,导致语义待检索内容的语义难以理解,使得检索时出现错误或低端的检索结果,因此,相关技术中存在检索准确性及可靠性较低的问题。
发明内容
本申请实施例提供一种基于知识图谱的检索方法及相关装置,可以提升内容检索时的检索准确性及可靠性。
为解决上述技术问题,本申请实施例提供以下技术方案:
根据本申请的一个实施例,一种基于知识图谱的检索方法,该方法包括:获取待检索内容及知识图谱,所述知识图谱中包括所述待检索内容所对应待检索实体以及至少一个与所述待检索实体具有关联关系的关联实体;在所述知识图谱中搜索与所述待检索实体具有目标关联关系的关联实体,以从所述知识图谱中确定所述待检索内容对应的子图谱;对所述待检索内容进行信息编码处理,得到所述待检索内容的第一特征信息,并对所述子图谱进行信息编码处理,得到所述子图谱的第二特征信息;将所述第一特征信息及所述第二特征信息进行特征融合处理,得到融合特征信息;基于所述融合特征信息获取所述待检索内容对应的检索结果。
根据本申请的一个实施例,一种基于知识图谱的检索装置,该装置包括:获取模块,用于获取待检索内容及知识图谱,所述知识图谱中包括所述待检索内容所对应待检索实体以及至少一个与所述待检索实体具有关联关系的关联实体;关联模块,用于在所述知识图谱中搜索与所述待检索实体具有目标关联关系的关联实体,以从所述知识图谱中确定所述待检索内容对应的子图谱;编码模块,用于对所述待检索内容进行信息编码处理,得到所述待检索内容的第一特征信息,并对所述子图谱进行信息编码处理,得到所述子图谱的第二特征信息;融合模块,用于将所述第一特征信息及所述第二特征信息进行特征融合处理,得到融合特征信息;检索模块,用于基于所述融合特征信息获取所述待检索内容对应的检索结果。
在本申请的一些实施例中,所述关联模块,包括:实体链接单元,用于在所述知识图谱中对所述待检索内容中的实体进行实体链接,以在所述知识图谱中确定所述待检索内容所对应待检索实体;实体关联单元,用于从至少一个所述关联实体中,确定与所述待检索实体之间的关联距离小于预定阈值的目标关联实体,所述关联距离对应于关联关系的长度;子图谱获取单元,用于从所述知识图谱中,确定所述待检索实体、所述目标关联实体以及所述待检索实体与所述目标关联实体之间的关联关系构成的子图谱。
在本申请的一些实施例中,所述实体链接单元,包括:实体识别子单元,用于对所述待检索内容中的词进行命名实体识别,以识别出所述待检索内容中的实体;变形扩展子单元,用于对所述待检索内容中的实体进行变形扩展处理,得到所述实体对应的同义异形实体;实体匹配子单元,用于从所述知识图谱中的实体中,确定与所述待检索内容中的实体及所述同义异形实体匹配的目标实体,作为所述待检索实体。
在本申请的一些实施例中,所述子图谱获取单元,包括:环境信息获取子单元,用于获取所述待检索内容对应的检索环境信息,所述检索环境信息表征所述待检索内容的产生环境中的相关信息;候选实体筛选子单元,用于从所述目标关联实体中,筛选出与所述检索环境信息相匹配的候选关联实体;图谱获取子单元,用于从所述知识图谱中,获取所述待检索实体、所述候选关联实体以及所述待检索实体与所述候选关联实体之间的关联关系构成的子图谱。
在本申请的一些实施例中,所述编码模块,包括:分词单元,用于对所述待检索内容进行分词处理,得到所述待检索内容中的词;特征构建单元,用于构建所述待检索内容中词的词向量,得到待检索内容对应的词向量集;第一编码单元,用于对所述词向量集进行特征提取处理,得到所述待检索内容的第一特征信息。
在本申请的一些实施例中,所述第一编码单元,包括:矩阵构建子单元,用于利用所述词向量集构建所述待检索内容对应的特征向量矩阵;卷积子单元,用于基于目标大小的卷积窗口对所述特征向量矩阵进行卷积运算,得到卷积结果矩阵;生成子单元,用于基于所述卷积结果矩阵生成所述待检索内容的第一特征信息。
在本申请的一些实施例中,所述编码模块,包括:图谱特征构建单元,用于构建所述子图谱中各实体对应的实体词向量以及各关联关系对应的关系词向量,得到所述子图谱对应的图谱特征集;第二编码单元,用于对所述图谱特征集进行特征提取处理,得到所述子图谱的第二特征信息。
在本申请的一些实施例中,所述第二编码单元,包括:图数据生成单元,用于将所述图谱特征集中各所述实体词向量作为图结构中节点的节点特征,并将所述关系词向量作为所述节点之间连接边的边特征,生成图数据;状态信息提取单元,用于提取所述图数据中各所述节点所对应邻居节点的节点特征以及与各所述节点相连的连接边的边特征,作为各所述节点的节点周边状态信息;融合编码单元,用于对各所述节点进行节点周边状态信息的融合处理,得到所述第二特征信息。
在本申请的一些实施例中,所述融合模块,包括:点乘处理单元,用于将所述第一特征信息及所述第二特征信息进行点乘处理,得到所述第一特征信息及所述第二特征信息的乘积信息;乘积信息确定单元,用于将所述乘积信息作为融合得到的所述融合特征信息。
在本申请的一些实施例中,所述融合模块,包括:拼接处理单元,用于对所述第一特征信息及所述第二特征信息进行拼接处理,得到所述第一特征信息及所述第二特征信息的拼接信息;拼接信息确定单元,用于将所述拼接信息作为融合得到的所述融合特征信息。
在本申请的一些实施例中,所述检索模块,包括:全连接运算单元,用于对所述融合特征信息进行全连接运算,以获取所述待检索内容所对应语义类别的概率分布;第一获取单元,用于基于所述语义类别的概率分布进行内容检索,得到所述待检索内容的检索结果。
在本申请的一些实施例中,所述检索模块,包括:解析表获取单元,用于获取语义信息解析表,所述语义信息解析表中包含有融合特征信息样本及所述融合特征信息样本所关联的语义类别信息样本;样本匹配单元,用于从所述语义信息解析表中,查询与所述融合特征信息匹配的融合特征信息样本;第二获取单元,用于基于所述匹配的融合特征信息样本所关联的语义类别信息样本进行内容检索,得到所述待检索内容的检索结果。
根据本申请的另一实施例,一种电子设备可以包括:存储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指令,以执行本申请实施例所述的方法。
根据本申请的另一实施例,一种存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行本申请实施例所述的方法。
根据本申请的另一实施例,一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例所述的各种可选实现方式中提供的方法。
本申请实施例中,在进行内容检索时,获取待检索内容及知识图谱,该知识图谱中包括待检索内容所对应待检索实体以及至少一个与待检索实体具有关联关系的关联实体;从知识图谱中搜索与待检索实体具有目标关联关系的关联实体,以从知识图谱中确定待检索内容对应的子图谱;然后,对待检索内容进行信息编码处理,得到待检索内容的第一特征信息,并对子图谱进行信息编码处理,得到子图谱的第二特征信息;将第一特征信息及第二特征信息进行特征融合处理,得到融合特征信息;最后,基于融合特征信息确定待检索内容对应的检索结果。
以这种方式,通过获取知识图谱中有效扩充待检索内容的上下文信息的子图谱,采取对待检索内容以及子图谱分两路进行信息编码处理,然后进行特征融合处理的方式,获得有效融合反映初始检索信息及扩充的上下文信息的融合特征信息,得到待检索内容更精准的语义表达,进而,基于融合特征信息可以准确及可靠地获取待检索内容对应的检索结果,有效提升内容检索时的检索准确性及可靠性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本申请实施例的系统的示意图。
图2示出了可以应用本申请实施例的另一个系统的示意图。
图3示出了根据本申请的一个实施例的基于知识图谱的检索方法的流程图。
图4示出了应用本申请实施例的一种场景下基于知识图谱的检索流程图。
图5示出了根据本申请的一个实施例的子图谱的示意图。
图6示出了根据本申请的一个实施例的基于知识图谱的检索装置的框图。
图7示出了根据本申请的一个实施例的电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
图1示出了可以应用本申请实施例的系统100的示意图。如图1所示,系统100可以包括服务器101及终端102。一个示例中,服务器101上可以存储知识图谱,终端102上可以运行检索系统对应的客户端,用户可以通过客户端输入待检索内容,客户端可以将待检索内容传输至服务器中,服务器101在接收到待检索内容后可以基于知识图谱进行检索。一个示例中,终端102可以从服务器101获取知识图谱,终端102在接收到待检索内容后可以基于知识图谱进行检索。
服务器101及终端102可以通过无线通信方式进行直接或间接地连接,本申请在此不做特殊限制。
服务器101及终端102之间可以通过目标协议链路传输数据,目标协议链路可以包括基于运输层协议的链路,例如传输控制协议(TCP,Transmission Control Protocol)链路或者用户数据报协议(UDP,User Datagram Protocol)链路传输以及其他运输层协议。
服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
一种实施方式中,服务器101可以提供人工智能云服务,例如提供大型多人在线角色扮演游戏(MMORPG)的人工智能云服务。所谓人工智能云服务,一般也被称作是AIaaS(AIas a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。例如,服务器101可以提供基于人工智能的检索服务。
终端102可以是边缘设备,例如手机、电脑、VR/AR设备、计算机等等。
本示例的一种实施方式中,服务器101可以获取待检索内容及知识图谱,知识图谱中包括待检索内容所对应待检索实体以及至少一个与待检索实体具有关联关系的关联实体;在知识图谱中搜索与待检索实体具有目标关联关系的关联实体,以从知识图谱中确定待检索内容对应的子图谱;对待检索内容进行信息编码处理,得到待检索内容的第一特征信息,并对子图谱进行信息编码处理,得到子图谱的第二特征信息;将第一特征信息及第二特征信息进行特征融合处理,得到融合特征信息;基于融合特征信息确定待检索内容对应的检索结果。
图2示出了可以应用本申请实施例的另一种系统200的示意图。如图2所示,系统200可以是由客户端201、多个节点202通过网络通信的形式连接形成的分布式系统。
以分布式系统为区块链系统为例,参见图2,图2是本申请实施例提供的分布式系统200应用于区块链系统的一个可选的结构示意图,由多个节点202和客户端201形成,节点之间形成组成的点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点202(每个节点202可以是如图1中的服务器101),节点包括硬件层、中间层、操作系统层和应用层。
参见图2示出的区块链系统中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
例如,应用实现的业务包括:
2.1)钱包,用于提供进行电子货币的交易的功能,包括发起交易(即,将当前交易的交易记录发送给区块链系统中的其他节点,其他节点验证成功后,作为承认交易有效的响应,将交易的记录数据存入区块链的临时区块中;当然,钱包还支持查询电子货币地址中剩余的电子货币;
2.2)共享账本,用于提供账目数据的存储、查询和修改等操作的功能,将对账目数据的操作的记录数据发送到区块链系统中的其他节点,其他节点验证有效后,作为承认账目数据有效的响应,将记录数据存入临时区块中,还可以向发起操作的节点发送确认。
2.3)智能合约,计算机化的协议,可以执行某个合约的条款,通过部署在共享账本上的用于在满足一定条件时而执行的代码实现,根据实际的业务需求代码用于完成自动化的交易,例如查询买家所购买商品的物流状态,在买家签收货物后将买家的电子货币转移到商户的地址;当然,智能合约不仅限于执行用于交易的合约,还可以执行对接收的信息进行处理的合约。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
一个示例中,多个节点202可以基于共识机制组织知识图谱,所有节点可以通过投票的方式决策出所有节点具有共识的知识图谱中节点对应实体,以及节点对应的实体之间的上下文关联关系,进而实时构建高可信度的知识图谱,用户可以通过客户端201输入待检索内容,客户端201将待检索内容广播至任意节点202,然后,节点202在接收到待检索内容后可以基于知识图谱进行检索。
本示例的一种实施方式中,每个节点202可以获取待检索内容及知识图谱,知识图谱中包括待检索内容所对应待检索实体以及至少一个与待检索实体具有关联关系的关联实体;在知识图谱中搜索与待检索实体具有目标关联关系的关联实体,以从知识图谱中确定待检索内容对应的子图谱;对待检索内容进行信息编码处理,得到待检索内容的第一特征信息,并对子图谱进行信息编码处理,得到子图谱的第二特征信息;将第一特征信息及第二特征信息进行特征融合处理,得到融合特征信息;基于融合特征信息确定待检索内容对应的检索结果。
图3示意性示出了根据本申请的一个实施例的基于知识图谱的检索方法的流程图。该基于知识图谱的检索方法的执行主体可以是任意的设备,例如图1所示的服务器101或终端102或者如图2所示的客户端201及节点202对应的设备。
如图3所示,该基于知识图谱的检索方法可以包括步骤S310至步骤S350。
步骤S310,获取待检索内容及知识图谱,该知识图谱中包括待检索内容所对应待检索实体以及至少一个与待检索实体具有关联关系的关联实体;
步骤S320,在知识图谱中搜索与待检索实体具有目标关联关系的关联实体,以从知识图谱中确定待检索内容对应的子图谱;
步骤S330,对待检索内容进行信息编码处理,得到待检索内容的第一特征信息,并对子图谱进行信息编码处理,得到子图谱的第二特征信息;
步骤S340,将第一特征信息及第二特征信息进行特征融合处理,得到融合特征信息;
步骤S350,基于融合特征信息获取待检索内容对应的检索结果。
下面描述进行基于知识图谱的检索时,所进行的各步骤的具体过程。
在步骤S310中,获取待检索内容及知识图谱,该知识图谱中包括待检索内容所对应待检索实体以及至少一个与待检索实体具有关联关系的关联实体。
本示例的实施方式中,待检索内容即用于提供检索目标的相关信息的内容,待检索内容可以是直接获取到的用户提供的文本形式的待检索内容,或者接收到语音检索信息后,通过语音识别得到的文本形式的待检索内容,或者,接收到图像检索信息后,通过图像识别得到的文本形式的待检索内容等。
待检索内容可以是从如图1所示的终端102上的客户端或者如图2所示的客户端201中获取的用户输入的检索内容,终端102上的客户端或者客户端201例如视频客户端、浏览器、地图客户端以及游戏客户端等。
获取到的待检索内容中可以包括至少一个实体,例如待检索内容“某某记”或者“某某记是什么”中包括一个实体“某某记”,待检索内容“某某记中有张三嘛”中包括两个实体“某某记”及“张三”。获取到的待检索内容中还可以包括实体之间的关联关系,例如待检索内容“某某记的类型”中包括实体“某某记”及关联关系“类型”。
知识图谱(也称知识库)即组织知识信息的图谱,知识图谱中以实体作为节点,节点之间通过实体之间的关联关系进行关联,构建<实体,关联关系,实体>对应的三元组进行知识信息的组织,实体即可以表征检索目标或检索对象的词(例如人名、地名、机构名等),实体之间的关联关系即可以表征实体之间的上下文关系的信息(例如主演或者类型等),进而一个示例中,三元组例如<某某记,主演,张某某>或者<张某某,类型,明星>。
一种实施例中,知识图谱可以是如图1所示的服务器101中由专家实时更新维护的知识图谱,可以保证获得的知识图谱中包括最新的知识信息。一种实施例中,知识图谱可以是如图2所示的区块链中节点202通过共识机制实时组织构建的知识图谱,即基于共识机制组织知识图谱,所有节点可以通过投票的方式决策出所有节点具有共识的知识图谱中节点对应实体,以及节点对应的实体之间的上下文关联关系,进而实时构建高可信度的知识图谱,可以保证获得的知识图谱中包括最新的知识信息的同时保证知识信息的可靠性。
知识图谱中包括的待检索内容所对应待检索实体,即待检索内容中包括的实体在知识图谱中匹配的实体,例如,待检索内容中包实体“某某记”,知识图谱中待检索内容所对应待检索实体即“某某记”,可以先识别出待检索内容中的实体,然后通过实体匹配确定待检索内容所对应待检索实体。
知识图谱中包括的至少一个与待检索实体具有关联关系的关联实体,即知识图谱中除去待检索实体之外的其它实体中,与待检索实体具有直接关联关系或者间接关联关系的实体。例如,知识图谱中包括两个三元组<某某记,主演,张某某>或者<张某某,类型,明星>,此时,待检索实体若为“某某记”,则“张某某”与“某某记”具有直接关联关系,“明星”与“某某记”具有间接关联关系。
在步骤S320中,在知识图谱中搜索与待检索实体具有目标关联关系的关联实体,以从知识图谱中确定待检索内容对应的子图谱。
本示例的实施方式中,子图谱即知识图谱中的局部图谱,待检索内容对应的子图谱通过在知识图谱中搜索与待检索实体具有目标关联关系的关联实体确定,即待检索内容对应的子图谱为待检索实体与待检索实体具有目标关联关系的关联实体所构成的局部图谱。
在知识图谱中搜索与待检索实体具有目标关联关系的关联实体,可以以待检索实体为起点,从与待检索实体具有关联关系的关联实体中,搜索与待检索实体具有目标关联关系的关联实体,该目标关联关系可以指示特定类型的关联关系或者关联关系的长度范围。
通过搜索与待检索实体具有目标关联关系的关联实体,可以对待检索内容中的实体进一步进行上下文信息的扩充,而待检索内容对应的子图谱中对这些上下文信息进行了有效组织,可以对待检索内容的语义进行有效扩充。
一种实施例中,步骤S320,在知识图谱中搜索与待检索实体具有目标关联关系的关联实体,以从知识图谱中确定待检索内容对应的子图谱,包括:
在知识图谱中对待检索内容中的实体进行实体链接,以在知识图谱中确定待检索内容所对应待检索实体;从至少一个关联实体中,确定与待检索实体之间的关联距离小于预定阈值的目标关联实体,关联距离对应于关联关系的长度;从知识图谱中,确定待检索实体、目标关联实体以及待检索实体与目标关联实体之间的关联关系构成的子图谱。
实体链接即遍历知识图谱中的实体,确定出与待检索内容中的实体相匹配的实体,该匹配的实体即待检索内容对应的待检索实体。确定出与待检索内容中的实体相匹配的实体可以是:将待检索内容中的实体分别转化为对应的第一向量,以及将知识图谱中各实体分别转化为第二向量,然后,计算第一向量与各第二向量的相似度,最后,将知识图谱中相似度大于预定相似度值的第二向量所对应实体,作为待检索内容中对应的实体相匹配的实体。
关联距离表征实体之间关联关系的长度,一个示例中,关联距离可以等于实体之间具有的关联关系的个数,例如待检索实体为A,关联实体包括B、C、D,B与A直接关联,C与B直接关联,D与C直接关联,则,A与B之间具有直接关联关系,A与C或D之间具有间接关联关系,此时,待检索实体A与B之间的关联距离为1,待检索实体A与C之间的关联距离为2,待检索实体A与D之间的关联距离为3。
进而,确定与待检索实体之间的关联距离小于预定阈值的目标关联实体,例如预定阈值为3,此时,与待检索实体A关联距离小于预定阈值的目标关联实体即B和C。实体之间关联关系的长度(即关联距离)可以表征实体之间关联的紧密程度。
从知识图谱中,确定待检索实体、目标关联实体以及待检索实体与目标关联实体之间的关联关系构成的子图谱,可以进一步保证子图谱中组织的上下文信息的精度。
一种实施例中,对待检索内容中包括实体及关联关系,可以先在知识图谱中对待检索内容中的实体进行实体链接,以在知识图谱中确定待检索实体;然后,从至少一个关联实体中,确定与待检索实体具有待检索内容中包括的关联关系且关联距离小于预定阈值的目标关联实体,可以基于待检索内容本身进一步保证子图谱中组织的上下文信息的精度。
一种实施例中,在知识图谱中对待检索内容中的实体进行实体链接,以在知识图谱中确定所述待检索内容所对应待检索实体,包括:
对待检索内容中的词进行命名实体识别,以识别出待检索内容中的实体;对待检索内容中的实体进行变形扩展处理,得到实体对应的同义异形实体;从知识图谱中的实体中,确定与待检索内容中的实体及同义异形实体匹配的目标实体,作为待检索实体。
其中,命名实体识别即对待检索内容中所包含各个词是否实体进行识别,识别出其中的实体可以有效反映待检索内容的核心检索语义。
一种示例中,可以基于正则表达式(即按照预定词语组合规则组合得到的词语表达式)进行命名实体识别,例如一个正则表达式为“在+X+中”,若待检索内容中包含内容“在某某记中”,则可以匹配到X=某某记,将“某某记标注为实体;一种示例中,可以基于机器学习的实体识别模型进行命名实体识别。将待检索内容输入实体识别模型,实体识别模型可以标注出待检索内容中包括的实体。以实体识别模型为有监督模型为例,识别识别模型的训练方法可以是收集训练数据集,该数据集中包括待检索内容样本及标定的待检索内容样本中包括的实体,然后,将待检索内容样本作为实体识别模型的输入数据,将标定的待检索内容样本中包括的实体作为实体识别模型的期望输出,对实体识别模块进行训练,直到实体识别模型的准确率达到预定目标,得到训练好的实体识别模型,其中,实体识别模型可以是基于CRF模型或者基于HMM的实体识别模型等。
变形扩展即对实体的同义异形词(即同义异形实体)进行扩展,同义异形词例如同义词、缩写的全称、全称的缩写以及别名词等。
一种示例中,可以基于同义异形词表对待检索内容中包括的实体进行同义异形词进行扩展,例如,同义异形词表中包括鲁迅与周树人两个同义异形词的映射关系,待检索内容中包括的实体“鲁迅”,进而可以基于鲁迅与周树人两个实体的映射关系,映射得到待检索内容中包括的实体“鲁迅”的同义异形词“周树人”。
最后,可以通过将待检索内容中包括的实体及同义异形实体分别转化为第一向量,以及将知识图谱中各实体转化为第二向量,然后,计算各第一向量与各第二向量的相似度,最后,将知识图谱中相似度大于预定相似度值的第二向量对应的实体,作为与待检索内容中的实体及同义异形实体匹配的目标实体(即待检索实体)。
以这种方式,对识别出实体进行变形扩展、在知识图谱中确定出待检索内容对应的待检索实体,可以进一步保证待检索实体的确定准确性及完整性,进一步提升检索效果。
一种实施例中,从知识图谱中,获取待检索实体、目标关联实体以及待检索实体与目标关联实体之间的关联关系构成的子图谱,包括:
获取待检索内容对应的检索环境信息,检索环境信息表征待检索内容的产生环境中的相关信息;从目标关联实体中,筛选出与检索环境信息相匹配的候选关联实体;从知识图谱中,获取待检索实体以及候选关联实体按照上下文关联关系构成的子图谱。
检索环境信息表征待检索内容的产生环境中的相关信息,一种示例中,检索环境信息包括提交待检索内容的终端或用户账号中的相关信息,例如历史点击或者历史检索信息等;一种示例中,检索环境信息包括待检索内容产生的时间段内的目标平台中的相关信息,例如视频播放平台中所有用户的在该时间段内的检索信息或者点击信息。
筛选出与检索环境信息相匹配的候选关联实体的方式,通过命名实体识别提取检索环境信息中的关键实体(可以是检索环境信息中所有出现的实体或者检索环境信息中出现频率高于预定频率阈值的实体),然后将目标关联实体中包括的关联实体与关键实体进行相似度匹配,得到每个关联实体对应的相似度,然后,获取目标关联实体中相似度大于目标阈值的关联实体作为候选关联实体。
目标关联实体是通过实体之间的目标关联关系搜索到的待检索实体周围的关联实体,进一步的,通过筛选出与检索环境信息相匹配的一些关联实体作为候选关联实体,可以进一步保证子图谱对于待检索内容进行上下文信息扩充的有效性,保证检索结果准确性。
在步骤S330中,对待检索内容进行信息编码处理,得到待检索内容的第一特征信息,并对子图谱进行信息编码处理,得到子图谱的第二特征信息。
本示例的实施方式中,对待检索内容及子图谱分两路分别进行编码处理,获得准确表征待检索内容对应初始语义信息的第一特征信息以及表征子图谱扩充的上下文信息对应语义信息的第二特征信息。
对待检索内容进行信息编码处理的方式,一种示例中,可以通过将待检索内容中每个词在词向量字典中查询对应词向量,得到待检索内容对应的词向量集,然后串联对词向量集进行特征提取处理的方式进行信息编码,得到第一特征信息;一种示例中,可以通过将待检索内容中每个字转化为对应汉字内码(即二进制)的方式进行信息编码处理,得第一特征信息。
对子图谱进行信息编码处理的方式,一种示例中,可以通过将子图谱中每个实体及关联关系,在词向量字典中查询对应实体词向量及关系词向量,得到图谱特征集,然后对图谱特征集进行特征提取处理方式进行信息编码,得到第二特征信息;一种示例中,可以通过从知识图谱中,获取子图谱中每个实体及关联关系对应的唯一编号,然后串联子图谱对应的所有编号的方式进行信息编码,得到第二特征信息。
一种实施例中,步骤S330中,对待检索内容进行信息编码处理,得到待检索内容的第一特征信息,包括:
对待检索内容进行分词处理,得到待检索内容中的词;构建待检索内容中词的词向量,得到待检索内容对应的词向量集;对词向量集进行特征提取处理,得到待检索内容的第一特征信息。
对待检索内容进行分词处理可以基于分词工具对待检索内容进行切分,得到待检索内容中的词,切分得到的词中可以包括实体及关联关系对应的词。构建待检索内容中所包括词的词向量,可以是在词向量字典中查询每个词的词向量。
然后,对词向量集进行特征提取处理的方式,一种示例中,可以通过卷积处理对词向量集进行特征提取,提取到准确表征待检索内容的语义信息的第一特征信息,申请人发现这种方式可以极优提升后续步骤中特征融合处理后的检索效果;一种示例中,可以基于长短期记忆网络模型等基础编码器模型,对词向量集进行特征提取,例如可以从词向量集中的每个词向量中分别提取记忆信息(如最大的多个向量元素),按照每个词在待分类内容中的顺序融合(如相加或者拼接等)至相邻的后续词向量,得到提取的每个词向量对应的融合词向量,串联融合词向量作为第一特征信息。
以下以可以极优地提升后续步骤中特征融合处理后的检索效果的特征提取方式,即通过卷积处理对词向量集进行特征提取的实施例进行描述。
一种实施例中,对词向量集进行特征提取处理,得到待检索内容的第一特征信息,包括:
利用词向量集构建待检索内容对应的特征向量矩阵;基于目标大小的卷积窗口对特征向量矩阵进行卷积运算,得到卷积结果矩阵;基于卷积结果矩阵生成待检索内容的第一特征信息。
将词向量集的词向量作为矩阵中各行的元素,可以构建出包含每个词的词向量的特征向量矩阵。然后,将以目标大小的卷积窗口(即卷积核,一个目标大小的卷积矩阵)对特征向量矩阵进行卷积运算(即对卷积矩阵与特征向量矩阵中各元素所在的局部矩阵进行矩阵内积计算),得到卷积结果矩阵。
然后,基于卷积结果矩阵生成待检索内容的第一特征信息,一种示例中,可以直接将该卷积结果矩阵作为提取到的第一特征信息;一种示例中,可以将该卷积结果矩阵进一步进行池化处理(例如可以通过最大池化计算,提取卷积结果矩阵中代表性元素,由代表性元素组成池化结果矩阵),得到池化结果矩阵作为提取到的第一特征信息。
一种实施例中,以目标大小的卷积窗口对特征向量矩阵进行卷积运算,包括:获取待检索内容的第一信息量及子图谱的第二信息量;计算第一信息量与第二信息量的比值,并确定比值所匹配的卷积窗口大小,作为目标大小;通过目标大小的卷积窗口对特征向量矩阵进行卷积运算。
获取待检索内容的第一信息量可以是计算待检索内容中包含的词的第一总个数;获取子图谱的第二信息量可以是获取子图谱中包括的实体及上下文关联关系的第二总个数。然后,计算第一信息量与第二信息量的比值,即计算第一总个数及第二总个数的比值,基于该比值可以从预设窗口大小查询表中查询该比值匹配的卷积窗口大小,该预设窗口大小查询表中可以保存不同比值匹配的卷积窗口大小的对应关系。然后,基于此进行卷积运算,进一步保证后续步骤进行特征融合处理得到的融合特征信息的语义融合准确性。
一种实施例中,基于卷积神经网络的第一信息编码模型对词向量集进行特征提取处理,得到待检索内容的第一特征信息,将词向量集输入基于卷积神经网络的第一信息编码模型,第一信息编码模型可以在输入层利用词向量集构建待检索内容对应的特征向量矩阵;在卷积层基于目标大小的卷积窗口对特征向量矩阵进行卷积运算,得到卷积结果矩阵。进一步的,可以在池化层将该卷积结果矩阵进一步进行池化处理,得到池化结果矩阵。
一种实施例中,步骤S330中,对子图谱进行信息编码处理,得到子图谱的第二特征信息,包括:
构建子图谱中各实体对应的实体词向量以及各关联关系对应的关系词向量,得到子图谱对应的图谱特征集;对图谱特征集进行特征提取处理,得到子图谱的第二特征信息。
构建子图谱中各实体的实体词向量可以是在词向量字典中查询得到每个实体对应实体词的词向量,作为实体的实体词向量;构建关联关系的关系词向量可以是在词向量字典中查询得到每个关联关系对应关系词的词向量,作为关联关系的关系词向量;进而,实体词向量与关系词向量的集合即图谱特征集。
然后,对图谱特征集进行特征提取处理的方式,一种示例中,可以基于图谱特征集生成图数据,基于图数据进行节点周边状态信息的融合处理,得到第二特征信息,申请人发现这种方式可以极优地提升后续步骤中特征融合处理后的检索效果。一种示例中,可以将图谱特征集看作前述实施例中词向量集,通过前述实施例中卷积处理的方式对图谱特征集进行特征提取处理。
以下以可以极优地提升后续步骤中特征融合处理后的检索效果的特征提取方式,即基于图数据进行节点周边状态信息的融合处理的方式进行描述。
一种实施例中,对图谱特征集进行特征提取处理,得到子图谱的第二特征信息,包括:
将图谱特征集中各实体词向量作为图结构中节点的节点特征,并将关系词向量作为节点之间连接边的边特征,生成图数据;提取图数据中各节点所对应邻居节点的节点特征以及与各节点相连的连接边的边特征,作为各节点的节点周边状态信息;对各节点进行节点周边状态信息的融合处理,得到第二特征信息。
图结构即子图谱中节点之间通过关联关系形成的结构,图结构中如果两个节点之间具有关联关系,这两个节点通过连接边连接。子图谱中的实体对应于图结构中的节点,实体之间的关联关系对应于节点之间的连接边。
将各实体词向量作为图结构中节点的节点特征,即将实体对应实体词向量作为实体对应节点的节点特征,将关系词向量作为节点之间连接边的边特征,即将实体之间的关联关系对应关系词向量,作为实体对应节点之间连接边的边特征,生成子图谱的图结构所对应的图数据。
进而,图数据G(V,E)中,G表示一个图,V是图G中节点的集合对应的节点特征矩阵,E是图G中连接边的集合对应邻接矩阵,其中,V可以是{V1、V2...Vn},V1、V2...Vn即每个节点的节点特征,E可以是{E11、E12...E1n;E11、E12...E1n;...;En1、En2...Enn},其中,Exi即节点Vx与节点Vi之间的连接边的边特征,可以理解,元素Exx(x=1...n)通常为0,节点之间没有连接边时,邻接矩阵中对应元素也为0。
然后,节点V2的邻居节点例如V1和V3,节点V2相连的连接边例如Ex2或者E2x(x=1...n)。提取各节点所对应邻居节点的节点特征以及与各节点相连的连接边的边特征,例如,提取节点V2的邻居节点例如V1和V3的节点特征,节点V2相连的连接边例如Ex2或者E2x(x=1...n)的关系特征,作为节点周边状态信息反映节点周围的近邻状态信息。
然后,一种示例中,进行节点周边状态信息的融合处理可以是拼接每个节点的节点周边状态信息至节点本身的节点特征,得到节点集合对应的新的节点特征矩阵V:{V1+M1、V2+M2...Vn+Mn}作为第二特征信息,其中,Mi为第i个节点的节点周边状态信息,这样可以进行特征的高效可靠融合处理。一种示例中,可以基于下面的实施例,对每个节点所对应邻居节点的节点特征、相连的连接边的边特征、节点自身的节点特征以及邻居节点的隐藏状态进行融合处理的方式进行节点周边状态信息的融合处理,这样可以进一步进行特征的高效可靠融合处理。
一种实施例中,对各节点进行节点周边状态信息的融合处理,得到第二特征信息,包括:
拼接每个节点所对应邻居节点的节点特征、相连的连接边的边特征、节点自身的节点特征以及邻居节点的历史隐藏状态,得到每个节点对应的拼接状态特征;对每个节点对应的拼接状态特征进行压缩映射处理,得到每个节点的当前隐藏状态;将所有节点的当前隐藏状态进行求和,得到第二特征信息。
该实施例中,邻居节点的历史隐藏状态即本次进行拼接得到拼接状态特征的时刻点之前依次,压缩映射处理得到的邻居节点对应的隐藏状态,例如,当前隐藏状态为第二次压缩映射处理得到的,历史隐藏状态则是第一次压缩映射处理得到的;进一步的,当前隐藏状态为第一次压缩映射处理得到的时,历史隐藏状态则可以为零。
将每个节点所对应邻居节点的节点特征、相连的连接边的边特征、节点自身的节点特征以及邻居节点的历史隐藏状态拼接至同一个特征空间,该特征空间即每个节点对应的拼接状态特征,例如,该实施例中,节点集合V可以是{V1、V2...Vn},节点V2的节点周边状态信息可以包括节点V2的邻居节点(如V1和V3)的节点特征以及节点A相连的连接边(如Ex2或者E2x(x=1...n))的边特征以及邻居节点(如V1和V3)的隐藏状态,然后,拼接至同一个特征空间可以得到V2+M2,依此,得到新的节点集合如V:{V1+M1、V2+M2...Vn+Mn}。
压缩映射处理即把每个节点对应的拼接状态特征对应的特征空间进行压缩映射为一个更小的特征空间,得到节点的当前隐藏状态,其中,压缩映射可以基于偏导数矩阵的惩罚项小于预定阈值的神经网络进行进行,例如将V2+M2对应特征空间压缩为更小的特征空间。
最后,将所有节点的当前隐藏状态进行求和,得到最终特征矩阵作为第二特征信息可以进一步有效表征子图谱中的语义信息。
一种实施例中,可以基于图神经网络的第二信息编码模型,提取图数据中各所述节点所对应邻居节点的节点特征以及与各所述节点相连的连接边的边特征,作为各节点的节点周边状态信息;拼接每个节点所对应邻居节点的节点特征、相连的连接边的边特征、节点自身的节点特征以及邻居节点的历史隐藏状态,得到每个节点对应的拼接状态特征;对每个节点对应的拼接状态特征进行压缩映射处理,得到每个节点的当前隐藏状态;将所有节点的当前隐藏状态进行求和,得到第二特征信息。该第二信息编码模型可以是图神经网络(GNN,Graph Neural Networks)系列的任意模型例如图卷积网络(Graph ConvolutionNetworks,GCN)模型、图注意力网络(Graph Attention Networks)模型、图自编码器(GraphAutoencoders)模型、图生成网络(Graph Generative Networks)模型和图时空网络(GraphSpatial-temporal Networks)模型等。
在步骤S340中,将第一特征信息及第二特征信息进行特征融合处理,得到融合特征信息。
本示例的实施方式中,一种示例中,特征融合处理的方式可以是将第一特征信息及第二特征信息进行点乘,得到乘积信息作为融合得到的融合特征信息;一种示例中,将第一特征信息及第二特征信息进行拼接,得到拼接信息作为融合得到的融合特征信息。可以理解,特征融合处理处理的方式还可以是现有的其它特征融合方法,例如将第一特征信息及第二特征信息进行相加等。
通过特征融合处理可以获得有效融合反映初始检索信息及扩充的上下文信息的融合特征信息,可以有效提升检索效果。
一种实施例中,步骤S340,将第一特征信息及第二特征信息进行特征融合处理,得到融合特征信息,包括:
将第一特征信息及第二特征信息进行点乘处理,得到第一特征信息及第二特征信息的乘积信息;将乘积信息作为融合得到的融合特征信息。
点乘处理即特征向量的点乘处理或者特征矩阵的取内积点乘处理,以点乘的融合方式,发明人发现可以极优的进行特征融合,在后续步骤中,基于点乘融合得到的融合特征信息确定检索结果具有极优的结果。
一种实施例中,步骤S340,将第一特征信息及第二特征信息进行特征融合处理,得到融合特征信息,包括:
对第一特征信息及第二特征信息进行拼接处理,得到第一特征信息及第二特征信息的拼接信息;将拼接信息作为融合得到的融合特征信息。
拼接处理即特征向量拼接为向量串或者两个较小维度的特征矩阵的拼接为一个更大维度的特征矩阵,以拼接进行融合的方式在一定程度上也可以有效进行特征融合,在后续步骤中,基于拼接融合得到的融合特征信息确定检索结果具有较优的结果。
在步骤S350中,基于融合特征信息获取待检索内容对应的检索结果。
本示例的实施方式中,检索结果即基于待检索内容检索得到的内容信息,可以是具体的电视剧、小说或者短视频等内容信息,可以是内容推荐或者内容搜索等场景下的检索结果,例如一个示例中,检索结果可以包括某某记对应的视频内容以及小说内容等信息。其中,基于融合特征信息确定待检索内容对应的检索结果的方式,一种示例中,可以通过对融合特征信息全连接运算进行语义解析的方式,确定待检索内容对应的检索结果;一种示例中,可以基于语义信息解析表对融合特征信息进行匹配解析的方式,确定待检索内容对应的检索结果。
一种实施例中,步骤S350,基于融合特征信息确定待检索内容对应的检索结果,包括:
对融合特征信息进行全连接运算,以获取待检索内容所对应语义类别的概率分布;基于语义类别的概率分布进行内容检索,得到待检索内容的检索结果。
全连接运算可以是对融合特征信息对应的特征矩阵T乘以一个权重系数W后加上一个偏置值b,得到全连接运算结果Yi=T*Wi+bi(i=1...n),其中,n个语义类别可以有n个权重系数及n个偏置值b,进而,全连接运算后可以得到待检索内容对应的语义类别的n维概率分布,n维度概率分布中每一维代表待检索内容对应的一个语义类别的概率,其中,语义类别可以根据实际情况进行细粒度划分,例如其中某一维可以代表待检索内容对应的一个语义类别为电视剧类的概率为90%,某一维可以代表待检索内容对应的一个语义类别为小说类的概率为20%。
然后,基于语义类别的概率分布进行内容检索,可以根据对应的概率大于预定概率阈值的语义类别进行内容检索,例如,预定概率阈值为80%,则可以在电视剧类进行内容检索,在得到待检索内容的检索结果,有效保证检索结果准确性。
一种实施例中,将融合特征信息输入神经网络全连接层;通过神经网络全连接层对融合特征信息进行全连接运算,以获取待检索内容所对应语义类别的概率分布。
一种实施例中,步骤S350,基于融合特征信息确定待检索内容对应的检索结果,包括:
获取语义信息解析表,语义信息解析表中包含有融合特征信息样本及融合特征信息样本所关联的语义类别信息样本;从语义信息解析表中,查询与融合特征信息匹配的融合特征信息样本;基于匹配的融合特征信息样本所关联的语义类别信息样本进行内容检索,得到待检索内容的检索结果。
融合特征信息样本可以是预设的特征向量样本或者特征矩阵样本等,该融合特征信息样本所关联的语义类别信息样本例如电视剧类、小说类以及美食类等。查询与融合特征信息匹配的融合特征信息样本可以是计算融合特征信息与融合特征信息样本的相似度的方式,若两者的相似度大于预定阈值,则说明融合特征信息匹配的融合特征信息样本匹配,进而可以确定待检索内容对应的语义类别信息为匹配的融合特征信息样本所关联的语义类别信息样本,语义类别信息样本例如电视剧类或者小说类等,其中,语义类别可以根据实际情况进行细粒度划分。
然后,基于匹配的融合特征信息样本所关联的语义类别信息样本进行内容检索,例如,语义类别信息样本为电视剧类,则可以在电视剧类进行内容检索,得到待检索内容的准确检索结果,有效保证检索结果准确性。
以这种方式,基于步骤S310至步骤S350,通过获取知识图谱中有效扩充待检索内容的上下文信息的子图谱,采取对待检索内容以及子图谱分两路进行信息编码处理,然后进行特征融合处理的方式,获得有效融合反映初始检索信息及扩充的上下文信息的融合特征信息,得到待检索内容更精准的语义表达,进而,基于融合特征信息可以准确及可靠地获取待检索内容对应的检索结果,有效提升内容检索时的检索准确性及可靠性,特别对于深度学习等技术未学习的待检索内容或者提供信息较少的待检索内容,可以极为有效提升内容检索时的检索准确性及可靠性。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
图4示出了应用本申请的实施例的一种场景下基于知识图谱的检索的流程图。该场景下以在搜索系统、推荐系统等系统中进行内容检索为例进行描述。
该场景下结合表征模型框架进行基于知识图谱的检索描述,该表征模型框架中可以包括第一信息编码模型(例如基于卷积神经网络的第一信息编码模型)、第二信息编码模型(例如基于图神经网络的第二信息编码模型)以及神经网络全连接层,下面对应用本申请实施例的基于知识图谱的检索过程描述。
该场景下表征模型框架的构建过程可以包括:
(1)获取待检索内容样本及知识图谱,知识图谱中包括待检索内容样本所对应待检索实体以及至少一个与待检索实体具有关联关系的关联实体。对每个待检索内容样本中的实体通过标注方式得到相应的训练样本。
例如,待检索内容样本A中仅包括实体A1,对实体A标注语义类别为电视剧,构成一条训练样本[A1,电视剧],标注的语义类别为小说,则构成一条训练样本[A1,小说],可以理解,标注的语义类别根据需求可以进行细粒度划分设定。
(2)在知识图谱中搜索与待检索实体具有目标关联关系的关联实体,以从知识图谱中确定待检索内容样本对应的子图谱。
其中,从知识图谱中确定待检索内容样本对应的子图谱方式,可以应用本申请前述实施例中从知识图谱中确定待检索内容对应的子图谱的方式。例如,对于待检索内容样本A,获取的子图谱中可以包括待检索实体“A1”以及与“A1”具有关联关系的关联实体“B1及C1”。
(3)对待检索内容样本进行信息编码处理,得到待检索内容的第一特征信息V1=CNN(query_sentence),具体地,可以基于卷积神经网络的第一信息编码模型对词向量集进行特征提取处理,得到待检索内容的第一特征信息,将词向量集输入基于卷积神经网络的第一信息编码模型,第一信息编码模型可以在输入层利用词向量集构建待检索内容对应的特征向量矩阵;在卷积层基于目标大小的卷积窗口对特征向量矩阵进行卷积运算,得到卷积结果矩阵。进一步的,可以在池化层将该卷积结果矩阵进一步进行池化处理,得到池化结果矩阵。可以将卷积结果矩阵或池化结果矩阵作为第一特征信息。
(4)对子图谱进行信息编码处理,得到子图谱的第二特征信息V2=GNN(sub_graph),具体地,可以构建子图谱中各实体对应的实体词向量以及各关联关系对应的关系词向量,得到子图谱对应的图谱特征集,将图谱特征集中各实体词向量作为图结构中节点的节点特征,并将关系词向量作为节点之间连接边的边特征,生成图数据;然后通过基于图神经网络(GNN,Graph Neural Networks)的第二信息编码模型,提取图数据中各所述节点所对应邻居节点的节点特征以及与各所述节点相连的连接边的边特征,作为各节点的节点周边状态信息;拼接每个节点所对应邻居节点的节点特征、相连的连接边的边特征、节点自身的节点特征以及邻居节点的历史隐藏状态,得到每个节点对应的拼接状态特征;对每个节点对应的拼接状态特征进行压缩映射处理,得到每个节点的当前隐藏状态;将所有节点的当前隐藏状态进行求和,得到第二特征信息。
(5)将第一特征信息及第二特征信息进行特征融合处理,得到融合特征信息,具体地,将第一特征信息及第二特征信息进行点乘处理,得到第一特征信息及第二特征信息的乘积信息,作为融合得到的融合特征信息V,即V=fusion(V1,V2)=V1*V2。
(6)将融合特征信息输入神经网络全连接层;通过神经网络全连接层对融合特征信息进行全连接运算,以获取待检索内容样本所对应语义类别的概率分布向量(例如p[p1,p2],p1可以是电视剧类的概率,p2可以是小说类的概率),将该语义类别的概率分布向量与事先标注地语义类别进行比较,得到表征模型框架的语义类别预测误差。然后,根据该误差对表征模型框架中第一信息编码模型、第二信息编码模型以及神经网络全连接层的参数进行调整,直到语义类别预测误差小于预定误差,得到训练好的表征模型框架。
然后,参阅图4,该场景下可以基于训练好的表征模型框架中进行基于知识图谱的检索可以包括步骤S410至步骤S450。
步骤S410,获取待检索内容及知识图谱,知识图谱中包括待检索内容所对应待检索实体以及至少一个关联实体。
步骤S420,在知识图谱中搜索与待检索实体具有目标关联关系的关联实体,以从知识图谱中确定待检索内容样本对应的子图谱,例如,对于检索实体“某某记”可以获取如图5所示的子图谱,该子图谱中包括待检索实体“某某记”以及与“某某记”具有目标关联关系(包括主演及类型)的关联实体“张某某、电视剧及明星”。
步骤S430,基于第一信息编码模型,对待检索内容进行信息编码处理,得到待检索内容的第一特征信息。
对待检索内容进行分词处理,得到待检索内容中的词;构建待检索内容中词的词向量,得到待检索内容对应的词向量集。
然后,可以基于第一信息编码模型对词向量集进行特征提取处理,得到待检索内容的第一特征信息,将词向量集输入基于卷积神经网络的第一信息编码模型,第一信息编码模型可以在输入层利用词向量集构建待检索内容对应的特征向量矩阵;在卷积层基于目标大小的卷积窗口对特征向量矩阵进行卷积运算,得到卷积结果矩阵。进一步的,可以在池化层将该卷积结果矩阵进一步进行池化处理,得到池化结果矩阵。可以将卷积结果矩阵或池化结果矩阵作为第一特征信息。
步骤S440,基于第二信息编码模型,对子图谱进行信息编码处理,得到子图谱的第二特征信息,
具体地,可以构建子图谱中各实体对应的实体词向量以及各关联关系对应的关系词向量,得到子图谱对应的图谱特征集;将图谱特征集中各实体词向量作为图结构中节点的节点特征,并将关系词向量作为节点之间连接边的边特征,生成图数据;基于图神经网络的第二信息编码模型,提取图数据中各所述节点所对应邻居节点的节点特征以及与各所述节点相连的连接边的边特征,作为各节点的节点周边状态信息;拼接每个节点所对应邻居节点的节点特征、相连的连接边的边特征、节点自身的节点特征以及邻居节点的历史隐藏状态,得到每个节点对应的拼接状态特征;对每个节点对应的拼接状态特征进行压缩映射处理,得到每个节点的当前隐藏状态;将所有节点的当前隐藏状态进行求和,得到第二特征信息。
步骤S450,将第一特征信息及第二特征信息进行特征融合处理,得到融合特征信息,具体地,将第一特征信息及第二特征信息进行点乘处理,得到第一特征信息及第二特征信息的乘积信息,作为融合得到的融合特征信息。
步骤S460,基于融合特征信息获取待检索内容对应的检索结果。具体地,可以将融合特征信息输入神经网络全连接层;通过神经网络全连接层对融合特征信息进行全连接运算,以获取待检索内容样本所对应语义类别的概率分布,基于语义类别的概率分布进行内容检索,得到待检索内容的检索结果。
本场景下,通过应用本申请的实施例,可以通过获取知识图谱中有效扩充待检索内容的上下文信息的子图谱,采取对待检索内容以及子图谱分两路进行信息编码处理,然后进行特征融合处理的方式,获得有效融合反映初始检索信息及扩充的上下文信息的融合特征信息,得到待检索内容更精准的语义表达,进而,基于融合特征信息可以准确及可靠地确定待检索内容对应的检索结果,有效提升内容检索时的检索准确性及可靠性。例如,对于某某记现有技术中如果深度学习等技术中如果没有学习其语义,检索结果可能出现如歌手张某某的相关音乐作品,而基于本申请的实施例可以准确可靠地检索到某某记相关是视频内容或者小说内容等。
为便于更好的实施本申请实施例提供的基于知识图谱的检索方法,本申请实施例还提供一种基于上述基于知识图谱的检索方法的基于知识图谱的检索装置。其中名词的含义与上述基于知识图谱的检索方法中相同,具体实现细节可以参考方法实施例中的说明。图6示出了根据本申请的一个实施例的基于知识图谱的检索装置的框图。
如图6所示,基于知识图谱的检索装置500中可以包括信息获取模块510、关联模块520、编码模块530、融合模块540及检索模块550。
获取模块510可以用于获取待检索内容及知识图谱,所述知识图谱中包括所述待检索内容所对应待检索实体以及至少一个与所述待检索实体具有关联关系的关联实体;关联模块520可以用于在所述知识图谱中搜索与所述待检索实体具有目标关联关系的关联实体,以从所述知识图谱中确定所述待检索内容对应的子图谱;编码模块530可以用于对所述待检索内容进行信息编码处理,得到所述待检索内容的第一特征信息,并对所述子图谱进行信息编码处理,得到所述子图谱的第二特征信息;融合模块540可以用于将所述第一特征信息及所述第二特征信息进行特征融合处理,得到融合特征信息;检索模块550可以用于基于所述融合特征信息获取所述待检索内容对应的检索结果。
在本申请的一些实施例中,所述关联模块520,包括:实体链接单元,用于在所述知识图谱中对所述待检索内容中的实体进行实体链接,以在所述知识图谱中确定所述待检索内容所对应待检索实体;实体关联单元,用于从至少一个所述关联实体中,确定与所述待检索实体之间的关联距离小于预定阈值的目标关联实体,所述关联距离对应于关联关系的长度;子图谱获取单元,用于从所述知识图谱中,确定所述待检索实体、所述目标关联实体以及所述待检索实体与所述目标关联实体之间的关联关系构成的子图谱。
在本申请的一些实施例中,所述实体链接单元,包括:实体识别子单元,用于对所述待检索内容中的词进行命名实体识别,以识别出所述待检索内容中的实体;变形扩展子单元,用于对所述待检索内容中的实体进行变形扩展处理,得到所述实体对应的同义异形实体;实体匹配子单元,用于从所述知识图谱中的实体中,确定与所述待检索内容中的实体及所述同义异形实体匹配的目标实体,作为所述待检索实体。
在本申请的一些实施例中,所述子图谱获取单元,包括:环境信息获取子单元,用于获取所述待检索内容对应的检索环境信息,所述检索环境信息表征所述待检索内容的产生环境中的相关信息;候选实体筛选子单元,用于从所述目标关联实体中,筛选出与所述检索环境信息相匹配的候选关联实体;图谱获取子单元,用于从所述知识图谱中,获取所述待检索实体、所述候选关联实体以及所述待检索实体与所述候选关联实体之间的关联关系构成的子图谱。
在本申请的一些实施例中,所述编码模块530,包括:分词单元,用于对所述待检索内容进行分词处理,得到所述待检索内容中的词;特征构建单元,用于构建所述待检索内容中词的词向量,得到待检索内容对应的词向量集;第一编码单元,用于对所述词向量集进行特征提取处理,得到所述待检索内容的第一特征信息。
在本申请的一些实施例中,所述第一编码单元,包括:矩阵构建子单元,用于利用所述词向量集构建所述待检索内容对应的特征向量矩阵;卷积子单元,用于基于目标大小的卷积窗口对所述特征向量矩阵进行卷积运算,得到卷积结果矩阵;生成子单元,用于基于所述卷积结果矩阵生成所述待检索内容的第一特征信息。
在本申请的一些实施例中,所述编码模块530,包括:图谱特征构建单元,用于构建所述子图谱中各实体对应的实体词向量以及各关联关系对应的关系词向量,得到所述子图谱对应的图谱特征集;第二编码单元,用于对所述图谱特征集进行特征提取处理,得到所述子图谱的第二特征信息。
在本申请的一些实施例中,所述第二编码单元,包括:图数据生成单元,用于将所述图谱特征集中各所述实体词向量作为图结构中节点的节点特征,并将所述关系词向量作为所述节点之间连接边的边特征,生成图数据;状态信息提取单元,用于提取所述图数据中各所述节点所对应邻居节点的节点特征以及与各所述节点相连的连接边的边特征,作为各所述节点的节点周边状态信息;融合编码单元,用于对各所述节点进行节点周边状态信息的融合处理,得到所述第二特征信息。
在本申请的一些实施例中,所述融合模块540,包括:点乘处理单元,用于将所述第一特征信息及所述第二特征信息进行点乘处理,得到所述第一特征信息及所述第二特征信息的乘积信息;乘积信息确定单元,用于将所述乘积信息作为融合得到的所述融合特征信息。
在本申请的一些实施例中,所述融合模块540,包括:拼接处理单元,用于对所述第一特征信息及所述第二特征信息进行拼接处理,得到所述第一特征信息及所述第二特征信息的拼接信息;拼接信息确定单元,用于将所述拼接信息作为融合得到的所述融合特征信息。
在本申请的一些实施例中,所述检索模块550,包括:全连接运算单元,用于对所述融合特征信息进行全连接运算,以获取所述待检索内容所对应语义类别的概率分布;第一获取单元,用于基于所述语义类别的概率分布进行内容检索,得到所述待检索内容的检索结果。
在本申请的一些实施例中,所述检索模块550,包括:解析表获取单元,用于获取语义信息解析表,所述语义信息解析表中包含有融合特征信息样本及所述融合特征信息样本所关联的语义类别信息样本;样本匹配单元,用于从所述语义信息解析表中,查询与所述融合特征信息匹配的融合特征信息样本;第二获取单元,用于基于所述匹配的融合特征信息样本所关联的语义类别信息样本进行内容检索,得到所述待检索内容的检索结果。
以这种方式,基于知识图谱的检索装置500,可以通过获取知识图谱中有效扩充待检索内容的上下文信息的子图谱,采取对待检索内容以及子图谱分两路进行信息编码处理,然后进行特征融合处理的方式,获得有效融合反映初始检索信息及扩充的上下文信息的融合特征信息,得到待检索内容更精准的语义表达,进而,基于融合特征信息可以准确及可靠地确定待检索内容对应的检索结果,有效提升内容检索时的检索准确性及可靠性。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,本申请实施例还提供一种电子设备,该电子设备可以为终端或者服务器,如图7所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图7中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该电子设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行计算机设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户页面和应用程序等,调制解调处理器主要处理无线通讯。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
电子设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如处理器601可以执行下述步骤对应的应用程序:
获取待检索内容及知识图谱,所述知识图谱中包括所述待检索内容所对应待检索实体以及至少一个与所述待检索实体具有关联关系的关联实体;在所述知识图谱中搜索与所述待检索实体具有目标关联关系的关联实体,以从所述知识图谱中确定所述待检索内容对应的子图谱;对所述待检索内容进行信息编码处理,得到所述待检索内容的第一特征信息,并对所述子图谱进行信息编码处理,得到所述子图谱的第二特征信息;将所述第一特征信息及所述第二特征信息进行特征融合处理,得到融合特征信息;基于所述融合特征信息获取所述待检索内容对应的检索结果。
一种实施例中,在所述知识图谱中搜索与待检索实体具有目标关联关系的关联实体,以从所述知识图谱中确定所述待检索内容对应的子图谱时,处理器601可以执行:
在所述知识图谱中对所述待检索内容中的实体进行实体链接,以在所述知识图谱中确定所述待检索内容所对应待检索实体;从至少一个所述关联实体中,确定与所述待检索实体之间的关联距离小于预定阈值的目标关联实体,所述关联距离对应于关联关系的长度;从所述知识图谱中,确定所述待检索实体、所述目标关联实体以及所述待检索实体与所述目标关联实体之间的关联关系构成的子图谱。
一种实施例中,在所述知识图谱中对所述待检索内容中的实体进行实体链接,以在所述知识图谱中确定所述待检索内容所对应待检索实体时,处理器601可以执行:
对所述待检索内容中的词进行命名实体识别,以识别出所述待检索内容中的实体;对所述待检索内容中的实体进行变形扩展处理,得到所述实体对应的同义异形实体;从所述知识图谱中的实体中,确定与所述待检索内容中的实体及所述同义异形实体匹配的目标实体,作为所述待检索实体。
一种实施例中,从所述知识图谱中,获取所述待检索实体、所述目标关联实体以及所述待检索实体与所述目标关联实体之间的关联关系构成的子图谱时,处理器601可以执行:
获取所述待检索内容对应的检索环境信息,所述检索环境信息表征所述待检索内容的产生环境中的相关信息;从所述目标关联实体中,筛选出与所述检索环境信息相匹配的候选关联实体;从所述知识图谱中,获取所述待检索实体、所述候选关联实体以及所述待检索实体与所述候选关联实体之间的关联关系构成的子图谱。
一种实施例中,对所述待检索内容进行信息编码处理,得到所述待检索内容的第一特征信息时,处理器601可以执行:
对所述待检索内容进行分词处理,得到所述待检索内容中的词;构建所述待检索内容中词的词向量,得到待检索内容对应的词向量集;对所述词向量集进行特征提取处理,得到所述待检索内容的第一特征信息。
一种实施例中,对所述词向量集进行特征提取处理,得到所述待检索内容的第一特征信息时,处理器601可以执行:
利用所述词向量集构建所述待检索内容对应的特征向量矩阵;基于目标大小的卷积窗口对所述特征向量矩阵进行卷积运算,得到卷积结果矩阵;基于所述卷积结果矩阵生成所述待检索内容的第一特征信息。
一种实施例中,对所述子图谱进行信息编码处理,得到所述子图谱的第二特征信息时,处理器601可以执行:
构建所述子图谱中各实体对应的实体词向量以及各关联关系对应的关系词向量,得到所述子图谱对应的图谱特征集;对所述图谱特征集进行特征提取处理,得到所述子图谱的第二特征信息。
一种实施例中,对所述图谱特征集进行特征提取处理,得到所述子图谱的第二特征信息时,处理器601可以执行:
将所述图谱特征集中各所述实体词向量作为图结构中节点的节点特征,并将所述关系词向量作为所述节点之间连接边的边特征,生成图数据;提取所述图数据中各所述节点所对应邻居节点的节点特征以及与各所述节点相连的连接边的边特征,作为各所述节点的节点周边状态信息;对各所述节点进行节点周边状态信息的融合处理,得到所述第二特征信息。
一种实施例中,述将所述第一特征信息及所述第二特征信息进行特征融合处理,得到融合特征信息时,处理器601可以执行:
将所述第一特征信息及所述第二特征信息进行点乘处理,得到所述第一特征信息及所述第二特征信息的乘积信息;将所述乘积信息作为融合得到的所述融合特征信息。
一种实施例中,将所述第一特征信息及所述第二特征信息进行特征融合处理,得到融合特征信息时,处理器601可以执行:
对所述第一特征信息及所述第二特征信息进行拼接处理,得到所述第一特征信息及所述第二特征信息的拼接信息;将所述拼接信息作为融合得到的所述融合特征信息。
一种实施例中,基于所述融合特征信息获取所述待检索内容对应的检索结果时,处理器601可以执行:
对所述融合特征信息进行全连接运算,以获取所述待检索内容所对应语义类别的概率分布;基于所述语义类别的概率分布进行内容检索,得到所述待检索内容的检索结果。
一种实施例中,基于所述融合特征信息获取所述待检索内容对应的检索结果时,处理器601可以执行:
获取语义信息解析表,所述语义信息解析表中包含有融合特征信息样本及所述融合特征信息样本所关联的语义类别信息样本;从所述语义信息解析表中,查询与所述融合特征信息匹配的融合特征信息样本;基于所述匹配的融合特征信息样本所关联的语义类别信息样本进行内容检索,得到所述待检索内容的检索结果。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例还提供一种存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种方法中的步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种方法中的步骤,因此,可以实现本申请实施例所提供的方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请上述实施例中各种可选实现方式中提供的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的实施例,而可以在不脱离其范围的情况下进行各种修改和改变。

Claims (15)

1.一种基于知识图谱的检索方法,其特征在于,包括:
获取待检索内容及知识图谱,所述知识图谱中包括所述待检索内容所对应待检索实体以及至少一个与所述待检索实体具有关联关系的关联实体;
在所述知识图谱中搜索与所述待检索实体具有目标关联关系的关联实体,以从所述知识图谱中确定所述待检索内容对应的子图谱;
对所述待检索内容进行信息编码处理,得到所述待检索内容的第一特征信息,并对所述子图谱进行信息编码处理,得到所述子图谱的第二特征信息;
将所述第一特征信息及所述第二特征信息进行特征融合处理,得到融合特征信息;
基于所述融合特征信息获取所述待检索内容对应的检索结果。
2.根据权利要求1所述的方法,其特征在于,所述在所述知识图谱中搜索与待检索实体具有目标关联关系的关联实体,以从所述知识图谱中确定所述待检索内容对应的子图谱,包括:
在所述知识图谱中对所述待检索内容中的实体进行实体链接,以在所述知识图谱中确定所述待检索内容所对应待检索实体;
从至少一个所述关联实体中,确定与所述待检索实体之间的关联距离小于预定阈值的目标关联实体,所述关联距离对应于关联关系的长度;
从所述知识图谱中,确定所述待检索实体、所述目标关联实体以及所述待检索实体与所述目标关联实体之间的关联关系构成的子图谱。
3.根据权利要求2所述的方法,其特征在于,所述在所述知识图谱中对所述待检索内容中的实体进行实体链接,以在所述知识图谱中确定所述待检索内容所对应待检索实体,包括:
对所述待检索内容中的词进行命名实体识别,以识别出所述待检索内容中的实体;
对所述待检索内容中的实体进行变形扩展处理,得到所述实体对应的同义异形实体;
从所述知识图谱中的实体中,确定与所述待检索内容中的实体及所述同义异形实体匹配的目标实体,作为所述待检索实体。
4.根据权利要求2所述的方法,其特征在于,所述从所述知识图谱中,获取所述待检索实体、所述目标关联实体以及所述待检索实体与所述目标关联实体之间的关联关系构成的子图谱,包括:
获取所述待检索内容对应的检索环境信息,所述检索环境信息表征所述待检索内容的产生环境中的相关信息;
从所述目标关联实体中,筛选出与所述检索环境信息相匹配的候选关联实体;
从所述知识图谱中,获取所述待检索实体、所述候选关联实体以及所述待检索实体与所述候选关联实体之间的关联关系构成的子图谱。
5.根据权利要求1所述的方法,其特征在于,所述对所述待检索内容进行信息编码处理,得到所述待检索内容的第一特征信息,包括:
对所述待检索内容进行分词处理,得到所述待检索内容中的词;
构建所述待检索内容中词的词向量,得到待检索内容对应的词向量集;
对所述词向量集进行特征提取处理,得到所述待检索内容的第一特征信息。
6.根据权利要求5所述的方法,其特征在于,对所述词向量集进行特征提取处理,得到所述待检索内容的第一特征信息,包括:
利用所述词向量集构建所述待检索内容对应的特征向量矩阵;
基于目标大小的卷积窗口对所述特征向量矩阵进行卷积运算,得到卷积结果矩阵;
基于所述卷积结果矩阵生成所述待检索内容的第一特征信息。
7.根据权利要求1所述的方法,其特征在于,所述对所述子图谱进行信息编码处理,得到所述子图谱的第二特征信息,包括:
构建所述子图谱中各实体对应的实体词向量以及各关联关系对应的关系词向量,得到所述子图谱对应的图谱特征集;
对所述图谱特征集进行特征提取处理,得到所述子图谱的第二特征信息。
8.根据权利要求7所述的方法,其特征在于,所述对所述图谱特征集进行特征提取处理,得到所述子图谱的第二特征信息,包括:
将所述图谱特征集中各所述实体词向量作为图结构中节点的节点特征,并将所述关系词向量作为所述节点之间连接边的边特征,生成图数据;
提取所述图数据中各所述节点所对应邻居节点的节点特征以及与各所述节点相连的连接边的边特征,作为各所述节点的节点周边状态信息;
对各所述节点进行节点周边状态信息的融合处理,得到所述第二特征信息。
9.根据权利要求1所述的方法,其特征在于,所述将所述第一特征信息及所述第二特征信息进行特征融合处理,得到融合特征信息,包括:
将所述第一特征信息及所述第二特征信息进行点乘处理,得到所述第一特征信息及所述第二特征信息的乘积信息;
将所述乘积信息作为融合得到的所述融合特征信息。
10.根据权利要求1所述的方法,其特征在于,所述将所述第一特征信息及所述第二特征信息进行特征融合处理,得到融合特征信息,包括:
对所述第一特征信息及所述第二特征信息进行拼接处理,得到所述第一特征信息及所述第二特征信息的拼接信息;
将所述拼接信息作为融合得到的所述融合特征信息。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述基于所述融合特征信息获取所述待检索内容对应的检索结果,包括:
对所述融合特征信息进行全连接运算,以获取所述待检索内容所对应语义类别的概率分布;
基于所述语义类别的概率分布进行内容检索,得到所述待检索内容的检索结果。
12.根据权利要求1-10任一项所述的方法,其特征在于,所述基于所述融合特征信息获取所述待检索内容对应的检索结果,包括:
获取语义信息解析表,所述语义信息解析表中包含有融合特征信息样本及所述融合特征信息样本所关联的语义类别信息样本;
从所述语义信息解析表中,查询与所述融合特征信息匹配的融合特征信息样本;
基于所述匹配的融合特征信息样本所关联的语义类别信息样本进行内容检索,得到所述待检索内容的检索结果。
13.一种基于知识图谱的检索装置,其特征在于,包括:
获取模块,用于获取待检索内容及知识图谱,所述知识图谱中包括所述待检索内容所对应待检索实体以及至少一个与所述待检索实体具有关联关系的关联实体;
关联模块,用于在所述知识图谱中搜索与所述待检索实体具有目标关联关系的关联实体,以从所述知识图谱中确定所述待检索内容对应的子图谱;
编码模块,用于对所述待检索内容进行信息编码处理,得到所述待检索内容的第一特征信息,并对所述子图谱进行信息编码处理,得到所述子图谱的第二特征信息;
融合模块,用于将所述第一特征信息及所述第二特征信息进行特征融合处理,得到融合特征信息;
检索模块,用于基于所述融合特征信息获取所述待检索内容对应的检索结果。
14.一种电子设备,其特征在于,包括:存储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指令,以执行权利要求1至12任一项所述的方法。
15.一种存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至12任一项所述的方法。
CN202110492303.XA 2021-05-06 2021-05-06 基于知识图谱的检索方法、装置、电子设备及存储介质 Pending CN113761219A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110492303.XA CN113761219A (zh) 2021-05-06 2021-05-06 基于知识图谱的检索方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110492303.XA CN113761219A (zh) 2021-05-06 2021-05-06 基于知识图谱的检索方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113761219A true CN113761219A (zh) 2021-12-07

Family

ID=78787100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110492303.XA Pending CN113761219A (zh) 2021-05-06 2021-05-06 基于知识图谱的检索方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113761219A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254132A (zh) * 2022-03-01 2022-03-29 北京理工大学 一种材料数据的检索方法
CN114301725A (zh) * 2021-12-24 2022-04-08 珠海格力电器股份有限公司 设备控制方法、装置、电子设备及存储介质
CN114417845A (zh) * 2022-03-30 2022-04-29 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN116702784A (zh) * 2023-08-03 2023-09-05 腾讯科技(深圳)有限公司 实体链接方法、装置、计算机设备和存储介质
CN116777634A (zh) * 2023-06-25 2023-09-19 深圳征信服务有限公司 一种基于人工智能的金融数据分析系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114301725A (zh) * 2021-12-24 2022-04-08 珠海格力电器股份有限公司 设备控制方法、装置、电子设备及存储介质
CN114301725B (zh) * 2021-12-24 2022-11-11 珠海格力电器股份有限公司 设备控制方法、装置、电子设备及存储介质
CN114254132A (zh) * 2022-03-01 2022-03-29 北京理工大学 一种材料数据的检索方法
CN114417845A (zh) * 2022-03-30 2022-04-29 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN116777634A (zh) * 2023-06-25 2023-09-19 深圳征信服务有限公司 一种基于人工智能的金融数据分析系统及方法
CN116702784A (zh) * 2023-08-03 2023-09-05 腾讯科技(深圳)有限公司 实体链接方法、装置、计算机设备和存储介质
CN116702784B (zh) * 2023-08-03 2023-11-28 腾讯科技(深圳)有限公司 实体链接方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
WO2022068196A1 (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
US20230334254A1 (en) Fact checking
US10565498B1 (en) Deep neural network-based relationship analysis with multi-feature token model
CN113761219A (zh) 基于知识图谱的检索方法、装置、电子设备及存储介质
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
WO2022252363A1 (zh) 数据处理方法、计算机设备以及可读存储介质
US10909442B1 (en) Neural network-based artificial intelligence system for content-based recommendations using multi-perspective learned descriptors
US20220100963A1 (en) Event extraction from documents with co-reference
CN110795657A (zh) 文章推送及模型训练方法、装置、存储介质和计算机设备
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN116601626A (zh) 个人知识图谱构建方法、装置及相关设备
US20220100772A1 (en) Context-sensitive linking of entities to private databases
US20220100967A1 (en) Lifecycle management for customized natural language processing
CN113609866A (zh) 文本标记方法、装置、设备及存储介质
CN110019751A (zh) 机器学习模型修改和自然语言处理
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN113010737A (zh) 一种视频标签的分类方法、装置及存储介质
CN117252186A (zh) 基于xai的信息处理方法、装置、设备及存储介质
CN116756281A (zh) 知识问答方法、装置、设备和介质
CN112685618A (zh) 用户特征识别方法、装置、计算设备及计算机存储介质
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN115905575A (zh) 语义知识图谱的构建方法、电子设备和存储介质
CN115345600A (zh) 一种rpa流程的生成方法和装置
CN112541357B (zh) 实体识别方法、装置及智能设备
CN115017385A (zh) 一种物品搜索方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination