CN112860866A

CN112860866A - 语义检索方法、装置、设备以及存储介质

Info

Publication number: CN112860866A
Application number: CN202110186927.9A
Authority: CN
Inventors: 林泽南; 卢佳俊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-05-28
Anticipated expiration: 2041-02-09
Also published as: JP7301922B2; US20220027569A1; EP3958145A1; CN112860866B; KR20220115046A; JP2022050379A

Abstract

本申请公开了一种语义检索方法、装置、设备以及存储介质，涉及人工智能技术领域，尤其是知识图谱、深度学习和自然语言处理领域。该方法的一具体实施方式包括：接收查询信息，基于预先构建的知识图谱对查询信息进行序列标注，得到序列标注结果，其中，序列标注结果包括知识图谱既定信息部分及语义检索部分；基于知识图谱构建符合序列标注结果的候选实体集合；将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配，得到语义相关度高于预设阈值的实体集合。该实施方式一种基于知识图谱的语义检索方法，提高了语义检索的效率和准确率，进而提升了用户体验。

Description

语义检索方法、装置、设备以及存储介质

技术领域

本申请实施例涉及计算机领域，具体涉及知识图谱、深度学习和自然语言处理等人工智能领域，尤其涉及语义检索方法、装置、设备以及存储介质。

背景技术

随着人工智能的普及和发展，在互联网海量信息中，用户经常需要通过搜索引擎来检索需要的信息，然而目前搜索引擎的检索效果并不是很理想，无法完全理解用户的查询信息。

目前的语义检索方法大多还是把用户的查询信息当做只包含实体名称的信息，直接模糊检索进行匹配；或者是只对查询信息进行分词，利用相关性进行判定，导致无法真正理解用户的查询信息，从而导致比较高的错误率。

发明内容

本申请实施例提出了一种语义检索方法、装置、设备以及存储介质。

第一方面，本申请实施例提出了一种语义检索方法，包括：接收查询信息，基于预先构建的知识图谱对查询信息进行序列标注，得到序列标注结果，其中，序列标注结果包括知识图谱既定信息部分及语义检索部分；基于知识图谱构建符合序列标注结果的候选实体集合；将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配，得到语义相关度高于预设阈值的实体集合。

第二方面，本申请实施例提出了一种语义检索装置，包括：标注模块，被配置成接收查询信息，基于预先构建的知识图谱对查询信息进行序列标注，得到序列标注结果，其中，序列标注结果包括知识图谱既定信息部分及语义检索部分；构建模块，被配置成基于知识图谱构建符合序列标注结果的候选实体集合；匹配模块，被配置成将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配，得到语义相关度高于预设阈值的实体集合。

第三方面，本申请实施例提出了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。

第五方面，本申请实施例提出了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的语义检索方法、装置、设备以及存储介质，首先接收查询信息，基于预先构建的知识图谱对查询信息进行序列标注，得到序列标注结果，其中，序列标注结果包括知识图谱既定信息部分及语义检索部分；然后基于知识图谱构建符合序列标注结果的候选实体集合；最后将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配，得到语义相关度高于预设阈值的实体集合。本申请提供了一种基于知识图谱的语义检索方法，提高了语义检索的效率和准确率，进而提升了用户体验。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的语义检索方法的一个实施例的流程图；

图3是根据本申请的语义检索方法的另一个实施例的流程图；

图4是图3所示的语义检索方法的修正步骤的分解流程图；

图5是本申请的语义检索方法的实现框图；

图6是语义检索方法的应用场景图；

图7是根据本申请的语义检索装置的一个实施例的结构示意图；

图8是用来实现本申请实施例的语义检索方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的语义检索方法或语义检索装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用，例如搜索引擎等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以提供各种服务。例如，服务器105可以对从终端设备101、102、103获取到的消息进行分析和处理，并生成处理结果(例如实体集合)。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的语义检索方法一般由服务器105执行，相应地，语义检索装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的语义检索方法的一个实施例的流程200。该语义检索方法包括以下步骤：

步骤201，接收查询信息，基于预先构建的知识图谱对查询信息进行序列标注，得到序列标注结果。

在本实施例中，语义检索方法的执行主体(例如图1所示的服务器105)可以接收查询信息，基于预先构建的知识图谱对查询信息进行序列标注，得到序列标注结果，其中，序列标注结果包括知识图谱既定信息部分及语义检索部分。查询信息可以为用户输入的任何能表达其查询需求的文本信息，接收到用户输入的查询信息，会基于预先构建的知识图谱对查询信息进行序列标注。知识图谱，其是表示不同实体间的关系以及实体的属性的数据库。在知识图谱中，以实体为节点；实体与实体之间，以及实体与其对应的值之间通过边相连，从而构成结构化的、图谱状的数据库。实体(或称概念)，其是指现实世界中存在或曾经存在的具体的物质实体或抽象概念，例如人物、物品、结构、产品、影视、建筑、地点、国家、组织、艺术作品、科学技术、科学定理等。实体与实体间的连接(边)表示实体间的关系；而实体与值之间的连接(边)表示实体具有该值的属性。知识图谱可以采用现有的知识图谱构建方法来构建，例如，采用知识图谱神经网络训练模型构建知识图谱等，本申请对此不做具体限定。作为示例，可以采用预训练序列标注模型对查询信息进行序列标注，将查询信息标注为知识图谱既定信息部分和语义检索部分。知识图谱既定信息部分为在知识图谱中已经存在的信息，例如，当查询信息为“A饰演的野外生存的电影叫荒野什么”，基于知识图谱可以知道“A”是实体，是影星A1的别名，且用户知道的领域(domain)为电影，且电影的名字为“荒野xx”。语义检索部分为知识图谱字符串层面不认识的部分，需要后续进行语义匹配的信息。作为示例，当查询信息为“B饰演角色1、C饰演角色2、N的电影叫什么”，其中，N为对电影剧情的描述信息，则B和C在查询信息中已经指定是演员(知识图谱既定信息)，且B的角色是角色1(知识图谱既定信息)，C饰演的是角色2(知识图谱既定信息)，且用户找的domain为电影(知识图谱既定信息)，且用户问的问题是电影名字(知识图谱既定信息)，而语义检索部分(semantic)为N，所以得到的序列标注结果为：B[starring(主演)]饰演角色1[character(角色)]C[starring]饰演角色2[character]N[semantic]的电影[domain]叫什么[expression(表述)]。

步骤202，基于知识图谱构建符合序列标注结果的候选实体集合。

在本实施例中，上述执行主体可以基于知识图谱构建符合序列标注结果的候选实体集合。基于完备的知识图谱信息，对序列标注结果进行候选实体集合的筛选，基于已有信息尽可能的缩小候选实体集合，使候选实体集合更加符合序列标注结果、更加精准。作为示例，当查询信息为“B饰演角色1、C饰演角色2、N的电影叫什么”，其中，N为对电影剧情的描述信息，对该查询信息进行序列标注，可以得到序列标注结果为：B[starring]饰演角色1[character]C[starring]饰演角色2[character]N[semantic]的电影[domain]叫什么[expression]。分析查询信息发现所找寻的是domain为电影的一类实体，利用知识图谱信息，先搜寻domain为电影的全量实体集合；然后找寻B和C同时作为starring演员的实体集合；之后判定B在实体中的角色是否是角色1，发现不存在，再判定C的角色是否为角色2，发现也不存在，此时就判定为用户输入的角色为代称或别名或概念上下位信息。所以利用知识图谱概念上下位信息，发现B饰演的是角色3，而角色1是角色3的下位，角色3是角色1的上位(统称)，所以将B饰演角色是角色1、角色3存在于概念上下位中的所有实体进行筛选，进一步缩小候选实体集合。所以，尽管角色1不完全等于某个电影实体的character，但是存在某些实体的character为角色3，下位为角色1，所以也可以进行候选实体集合的筛选。但是对于角色2，利用知识图谱概念上下位信息，无法获得相关缩小候选实体集合的方法，此时只能修改序列标注结果，将角色2的character修改为semantic，只能后续去做语义匹配。并且，得到的最终序列标注结果如下：B[starring]饰演角色1[character]C[starring]饰演角色2[semantic]N[semantic]的电影[domain]叫什么[expression]。

步骤203，将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配，得到语义相关度高于预设阈值的实体集合。

在本实施例中，上述执行主体可以将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配，得到语义相关度高于预设阈值的实体集合。基于步骤202已经构建好的候选实体集合，可基于离线训练好的预训练语义匹配模型，将候选实体集合中的每个实体依次与查询信息的序列标注结果中的semantic部分进行语义匹配，从而选取语义相关度高的实体集合。作为示例，当查询信息为“B饰演角色1、C饰演角色2、N的电影叫什么”，其中，N为对电影剧情的描述信息，查询信息的序列标注结果为：B[starring]饰演角色1[character]C[starring]饰演角色2[semantic]N[semantic]的电影[domain]叫什么[expression]，假设基于步骤202得到的候选实体集合中包括30个候选实体，利用离线训练好的预训练语义匹配模型，将30个实体依次与semantic部分(即“角色2”和“N”)进行语义匹配，计算语义相关度，从而得到语义相关度高的实体或实体集合，其中，语义相关度为0～1之间的数值，数值越高，相关性越高。

本申请实施例提供的语义检索方法，首先接收查询信息，基于预先构建的知识图谱对查询信息进行序列标注，得到序列标注结果，其中，序列标注结果包括知识图谱既定信息部分及语义检索部分；然后基于知识图谱构建符合序列标注结果的候选实体集合；最后将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配，得到语义相关度高于预设阈值的实体集合。本申请提供了一种基于知识图谱的语义检索方法，能够充分理解用户查询信息的复杂语义，将用户的查询信息分为知识图谱既定信息部分和语义检索部分，并将语义检索部分与构建的候选实体集合内的每个实体进行语义匹配，选取语义相关度最高的实体集合作为最终结果返回给用户，提升了语义检索的效率和准确率，也提升了用户体验。

继续参考图3，图3示出了根据本申请的语义检索方法的另一个实施例的流程300。该语义检索方法包括以下步骤：

步骤301，接收查询信息，利用预先构建的知识图谱和预训练序列标注模型对查询消息进行序列标注，得到第一标注结果。

在本实施例中，语义检索方法的执行主体可以接收查询信息，利用预先构建的知识图谱和预训练序列标注模型对查询消息进行序列标注，得到第一标注结果，其中，第一标注结果包括知识图谱既定信息部分及语义检索部分。通过将用户查询信息标注为知识图谱既定信息部分和语义检索部分，能达到充分理解用户查询信息的复杂语义的效果。

可选地，还可利用预先构建的知识图谱和ERNIE+BiLSTM+CRF预训练序列标注模型对查询消息进行序列标注，以区分查询信息中的知识图谱既定信息部分和语义检索部分，从而得到第一标注结果。BiLSTM+CRF是一种序列标注算法，其将BiLSTM(Bilateral LongShort-Term Memory，双向长短期记忆网络)和CRF(Conditional Random Field，条件随机场)结合在一起，使模型既可以像CRF一样考虑序列前后之间的关联性，又可以拥有LSTM的特征抽取及拟合能力。ERNIE(Enhanced Representation from kNowledge IntEgration)是基于知识增强的持续学习语义理解框架，该框架将大数据预训练与多源丰富知识相结合，通过持续学习技术，不断吸收海量文本数据中词汇、结构、语义等方面的知识，实现模型效果不断进化。由于ERNIE是一个上下文相关的迁移学习模型，所以进一步增强了模型能力。作为示例，可以基于人工标注的训练样本，构建ERNIE+BiLSTM+CRF预训练序列标注模型，将查询信息中的成分进行标注。

可选地，可利用预先构建的知识图谱和BiLSTM+CRF预训练序列标注模型对查询消息进行序列标注，以区分查询信息中的知识图谱既定信息部分和语义检索部分，从而得到第一标注结果。

步骤302，对第一标注结果进行修正，得到序列标注结果。

在本实施例中，上述执行主体可以对第一标注结果进行修正，得到序列标注结果。作为示例，可利用知识图谱和自然语言处理工具对第一标注结果进行修正，以更准确地对查询信息中的各个部分进行标注，将查询信息中的知识图谱既定信息部分和语义检索部分区分开，只检索需要检索的部分，缩小了语义检索的范围。例如，上述查询信息“A饰演的野外生存的电影叫荒野什么”中的“叫什么”其实就是问题的表述词，而不是需要进行语义检索的部分，如果强行检索实体是否和“叫什么”进行语义匹配，就会极大的降低准确率；或者根本不认识“A”这个别名，强行用“A”对实体剧情信息进行语义匹配，也会极大的降低准确率。

步骤303，基于知识图谱构建符合序列标注结果的候选实体集合。

在本实施例中，上述执行主体可以基于知识图谱构建符合上述序列标注结果的候选实体集合。步骤303与前述实施例的步骤202相对应，具体实现方式可以参考前述对步骤202的描述，此处不再赘述。

步骤304，基于预训练双塔语义匹配模型将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配，得到实体与语义检索部分的语义相关度。

在本实施例中，上述执行主体可以基于预训练双塔语义匹配模型将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配，得到实体与语义检索部分的语义相关度。将候选实体集合中的实体和序列标注结果中的semantic部分输入至预训练双塔语义匹配模型中，以得到候选实体集合中的每个实体与semantic部分的语义相关度，从而解决语义检索的相关性匹配的问题。作为示例，可将语义检索部分的语义检索词和候选实体集合中的实体信息输入至ERNIE+SIAMESE+POINTWISE+LSTM预训练语义匹配模型中，从而得到语义检索词和候选实体集合中的实体的语义相关度。SIAMESE网络可以接收两个输入，POINTWISE是一种常用的卷积方式，将ERNIE、SIAMESE、POINTWISE和LSTM(Long Short-TermMemory，长短期记忆网络)结合构建预训练语义匹配模型，使得输入语义检索词和候选实体集合中的每个实体，能得到输出结果：语义检索词和候选实体集合中的每个实体的语义相关度。例如，当查询信息为“关于M大院生活的电影”，得到的序列标注结果为：关于[preposition(介词)]M大院[semantic]生活[semantic]的电影[domain]，基于步骤303可以得到影视候选实体集合，对影视候选实体集合中的每一个实体的实体信息与semantic部分的“M大院”和“生活”进行语义匹配，可以得到semantic部分与每一个实体的语义相关度。

在本实施例的一些可选实现方式中，预训练双塔语义匹配模型的输入源包括：语义检索部分的语义检索词和知识图谱的实体信息，其中，知识图谱的实体信息包括实体剧情描述和实体描述性标签。

步骤305，将语义相关度与预设阈值进行比较，得到语义相关度高于预设阈值的实体集合。

在本实施例中，上述执行主体可以将语义相关度与预设阈值进行比较，得到语义相关度高于预设阈值的实体集合。由于语义相关度是一个0～1之间的数值，作为示例，可将阈值设置为0.9，也即选择与semantic部分的每个语义检索词的相关度都在0.9以上的实体，并计算该实体与所有语义检索词的相关度的平均值，将此平均值作为该实体的最终分数。例如，在“关于[preposition(介词)]M大院[semantic]生活[semantic]的电影[domain]”这条查询信息中，semantic部分包括“M大院”和“生活”，假设影视候选实体集合中的实体1与检索词“M大院”的相关度为0.92，与检索词“生活”的相关度为0.8，而实体2与检索词“M大院”的相关度为0.92，与检索词“生活”的相关度为0.96，那么就选择保留实体2，而不保留实体1，且实体2的最终分数为(0.92+0.96)/2＝0.94。最终将平均分最高的前三个实体作为答案返回给用户，如果没有三个则有几个就返回几个，本申请对此不做具体限定。

本申请实施例提供的语义检索方法，首先接收查询信息，利用预先构建的知识图谱和预训练序列标注模型对查询消息进行序列标注，得到第一标注结果；并对第一标注结果进行修正，得到序列标注结果；然后基于知识图谱构建符合序列标注结果的候选实体集合；之后基于预训练双塔语义匹配模型将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配，得到实体与语义检索部分的语义相关度；最后将语义相关度与预设阈值进行比较，得到语义相关度高于预设阈值的实体集合。本申请实施例提供的语义检索方法，通过将序列标注结果的语义检索部分与候选实体集合中的每个实体进行语义匹配，从而得到语义相关度最高的实体集合，充分理解了用户的查询意图，并提高了语义检索的准确率，提升了用户体验。

继续参考图4，其示出了图3所示的语义检索方法的修正步骤的分解流程400。该修正步骤可以分解如下：

步骤401，基于自然语言处理分词工具对第一标注结果的语义检索部分进行分词，得到第一语义检索部分。

在本实施例中，利用自然语言处理(Natural Language Processing，NLP)分词工具对第一标注结果的semantic部分进行分词，得到第一语义检索部分。分词是为了更好的理解semantic语义检索部分，并使semantic语义检索部分与实体的语义匹配更准确，否则字符串太长，语义信息有偏差。例如，当查询信息为“关于M大院生活的电影”，序列标注结果为：关于[preposition(介词)][country]M大院生活[semantic]的电影[domain]。利用nlp分词工具对semantic部分“M大院生活”进行分词，得到的第一语义检索部分为：M[semantic]大院[semantic]生活[semantic]。

步骤402，基于自然语言处理专名识别工具对第一语义检索部分进行专名修正，得到第二语义检索部分。

在本实施例中，利用nlp专名识别工具，对步骤401中分词好的semantic语义检索部分进行专名修正，防止切词工具将专名部分给切分散开了，影响语义匹配效果。例如：上述查询信息“关于M大院生活的电影”的semantic部分“M大院生活”，经过步骤401得到的分词结果为：M[semantic]大院[semantic]生活[semantic]。但“M大院”其实为一个专名，不能被切散，所以利用nlp专名识别工具，识别“M大院”整体为一个专名，所以对整个序列标注结果修正，得到的第二语义检索部分为：M大院[semantic]，完整的查询信息的标注结果为：关于[preposition]M大院[semantic]生活[semantic]的电影[domain]。

步骤403，基于自然语言处理依存分析工具对第一标注结果的知识图谱既定信息部分和第二语义检索部分中的各个序列标注部分之间的依赖关系进行判定修正，得到第二标注结果。

在本实施例中，利用nlp依存分析工具，判定查询信息中的各个序列标注部分之间的依赖关系，也即对第一标注结果的知识图谱既定信息部分和第二语义检索部分中的各个序列标注部分之间的依赖关系进行判定修正，从而得到第二标注结果，以使标注结果更加准确。例如：当查询信息为“B饰演角色1、C饰演角色2、N的电影叫什么”，序列标注结果为：B[person]饰演角色1[character]C[person]饰演角色2[character]N[semantic]的电影[domain]叫什么[expression]。基于nlp依存分析工具，来判定依存关系(节点之间的依赖关系)，发现“饰演角色1”修饰“B”，“饰演角色2”修饰“C”，所以“B”和“C”这两个person一定是演员(starring)，而非导演、编剧等。所以继续修正序列标注结果，得到第二标注结果为：B[starring]饰演角色1[character]C[starring]饰演角色2[character]N[semantic]的电影[domain]叫什么[expression]。

步骤404，基于知识图谱对第二标注结果进行修正，得到序列标注结果。

在本实施例中，利用知识图谱对第二标注结果进行修正，得到最终的序列标注结果。由于知识图谱具有完备的信息，所以可利用对第二标注结果中的已有标注信息进行修正，使序列标注图谱化，从而使得序列标注结果更加准确。例如：当查询信息为“D的文艺电影”，序列标注结果如下：D[person]的文艺[semantic]电影[domain]。基于知识图谱信息，发现D在domain为“电影”的领域，作为人person有导演、编剧、演员三种类型的身份，且查询信息中没有强制指定D为导演之类的，所以进行修正，得到最终的序列标注结果如下：D[director(导演)/writing_credits(编剧)/starring]的文艺[semantic]电影[domain]。

本申请实施例提供的修正方法，首先基于自然语言处理分词工具对第一标注结果的语义检索部分进行分词，得到第一语义检索部分；然后基于自然语言处理专名识别工具对第一语义检索部分进行专名修正，得到第二语义检索部分；之后基于自然语言处理依存分析工具对第一标注结果的知识图谱既定信息部分和第二语义检索部分中的各个序列标注部分之间的依赖关系进行判定修正，得到第二标注结果；最后基于知识图谱对第二标注结果进行修正，得到序列标注结果。提供了一种对序列标注结果进行修正的方法，通过利用nlp工具对序列标注结果中的语义检索部分进行分词和专名识别，提高了语义匹配的效果和准确率，并通过利用知识图谱对已有的序列标注信息进行修正，将序列标注图谱化，提高了标注结果的准确性。

继续参考图5，图5是本申请的语义检索方法的实现框图。如图5所示，用户输入查询信息query，利用预训练序列标注模型(ERNIE+BiLSTM+CRF)对查询信息进行序列标注，标注结果包括知识图谱既定信息部分和语义检索部分，其中，预训练序列标注模型是由人工标注训练样本训练并进行微调得到的。一方面，利用npl分词工具、npl专名识别工具和npl依存分析工具对知识图谱既定信息部分进行处理，再基于知识图谱对知识图谱既定信息部分进行修正，并构建符合序列标注结果的候选实体集合。另一方面，将语义检索部分的语义检索词和知识图谱的实体知识信息输入至预训练语义匹配模型(ERNIE+SIAMESE+POINTWISE+LSTM)，经过EMBEDDING层(嵌入层)、LSTM层和DENSE层(全连接层)，并计算其Manhattan(曼哈顿距离)或是Cosine(余弦相似度)，从而得到语义检索部分的语义检索词与候选实体集合的实体的语义相关度，并基于语义相关度对候选实体集合进行筛选，得到最终的实体集合。

继续参考图6，图6是语义检索方法的应用场景图。如图6所示，用户在终端设备601上输入查询信息“XXXXXXXXXX”，并点击进行搜索，服务器602会获取终端设备上用户输入的查询信息，并通过预先构建的知识图谱对查询信息进行序列标注，得到包括知识图谱既定信息部分和语义检索部分的序列标注结果，并基于知识图谱构建符合序列标注结果的候选实体集合，最后将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配，得到语义相关度高于预设阈值的实体集合，并将该实体集合返回给用户，并显示在终端设备601上，其中，实体集合中可以包含一个或多个实体，如实体1、实体2、实体3等等。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种语义检索装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的语义检索装置700可以包括：标注模块701、构建模块702和匹配模块703。其中，标注模块701，被配置成接收查询信息，基于预先构建的知识图谱对查询信息进行序列标注，得到序列标注结果，其中，序列标注结果包括知识图谱既定信息部分及语义检索部分；构建模块702，被配置成基于知识图谱构建符合序列标注结果的候选实体集合；匹配模块703，被配置成将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配，得到语义相关度高于预设阈值的实体集合。

在本实施例中，语义检索装置700中：标注模块701、构建模块702和匹配模块703的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，标注模块包括：标注子模块，被配置成接收查询信息，利用预先构建的知识图谱和预训练序列标注模型对查询消息进行序列标注，得到第一标注结果；修正子模块，被配置成对第一标注结果进行修正，得到序列标注结果。

在本实施例的一些可选的实现方式中，修正子模块进一步配置成：基于自然语言处理分词工具对第一标注结果的语义检索部分进行分词，得到第一语义检索部分；基于自然语言处理专名识别工具对第一语义检索部分进行专名修正，得到第二语义检索部分；基于自然语言处理依存分析工具对第一标注结果的知识图谱既定信息部分和第二语义检索部分中的各个序列标注部分之间的依赖关系进行判定修正，得到第二标注结果；基于知识图谱对第二标注结果进行修正，得到序列标注结果。

在本实施例的一些可选的实现方式中，匹配模块进一步配置成：基于预训练双塔语义匹配模型将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配，得到实体与语义检索部分的语义相关度；将语义相关度与预设阈值进行比较，得到语义相关度高于预设阈值的实体集合。

在本实施例的一些可选的实现方式中，预训练双塔语义匹配模型的输入源包括：语义检索部分的语义检索词和知识图谱的实体信息。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如语义检索方法。例如，在一些实施例中，语义检索方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的语义检索方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语义检索方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语义检索方法，包括：

接收查询信息，基于预先构建的知识图谱对所述查询信息进行序列标注，得到序列标注结果，其中，所述序列标注结果包括知识图谱既定信息部分及语义检索部分；

基于所述知识图谱构建符合所述序列标注结果的候选实体集合；

将所述候选实体集合中的实体与所述序列标注结果中的语义检索部分进行语义匹配，得到语义相关度高于预设阈值的实体集合。

2.根据权利要求1所述的方法，其中，所述接收查询信息，基于预先构建的知识图谱对所述查询信息进行序列标注，得到序列标注结果，包括：

接收查询信息，利用预先构建的知识图谱和预训练序列标注模型对所述查询消息进行序列标注，得到第一标注结果；

对所述第一标注结果进行修正，得到所述序列标注结果。

3.根据权利要求2所述的方法，其中，所述对所述第一标注结果进行修正，得到所述序列标注结果，包括：

基于自然语言处理分词工具对所述第一标注结果的语义检索部分进行分词，得到第一语义检索部分；

基于自然语言处理专名识别工具对所述第一语义检索部分进行专名修正，得到第二语义检索部分；

基于自然语言处理依存分析工具对所述第一标注结果的知识图谱既定信息部分和所述第二语义检索部分中的各个序列标注部分之间的依赖关系进行判定修正，得到第二标注结果；

基于所述知识图谱对所述第二标注结果进行修正，得到所述序列标注结果。

4.根据权利要求3所述的方法，其中，所述将所述候选实体集合中的实体与所述序列标注结果中的语义检索部分进行语义匹配，得到语义相关度高于预设阈值的实体集合，包括：

基于预训练双塔语义匹配模型将所述候选实体集合中的实体与所述序列标注结果中的语义检索部分进行语义匹配，得到所述实体与所述语义检索部分的语义相关度；

将所述语义相关度与预设阈值进行比较，得到所述语义相关度高于所述预设阈值的实体集合。

5.根据权利要求4所述的方法，其中，所述预训练双塔语义匹配模型的输入源包括：

所述语义检索部分的语义检索词和所述知识图谱的实体信息。

6.一种语义检索装置，包括：

标注模块，被配置成接收查询信息，基于预先构建的知识图谱对所述查询信息进行序列标注，得到序列标注结果，其中，所述序列标注结果包括知识图谱既定信息部分及语义检索部分；

构建模块，被配置成基于所述知识图谱构建符合所述序列标注结果的候选实体集合；

匹配模块，被配置成将所述候选实体集合中的实体与所述序列标注结果中的语义检索部分进行语义匹配，得到语义相关度高于预设阈值的实体集合。

7.根据权利要求6所述的装置，其中，所述标注模块包括：

标注子模块，被配置成接收查询信息，利用预先构建的知识图谱和预训练序列标注模型对所述查询消息进行序列标注，得到第一标注结果；

修正子模块，被配置成对所述第一标注结果进行修正，得到所述序列标注结果。

8.根据权利要求7所述的装置，其中，所述修正子模块进一步配置成：

9.根据权利要求8所述的装置，其中，所述匹配模块进一步配置成：

10.根据权利要求9所述的装置，其中，所述预训练双塔语义匹配模型的输入源包括：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。