CN110019644B

CN110019644B - 对话实现中的搜索方法、装置和计算机可读存储介质

Info

Publication number: CN110019644B
Application number: CN201710795237.7A
Authority: CN
Inventors: 张建军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-09-06
Filing date: 2017-09-06
Publication date: 2022-10-14
Anticipated expiration: 2037-09-06
Also published as: CN110019644A

Abstract

本发明揭示了一种对话实现中的搜索方法、装置和计算机可读存储介质。所述方法包括：获取请求进行对话的问题语句；在以词为粒度构建的倒排索引信息中检索问题语句获得匹配的词；通过问题语句匹配的词在倒排索引信息中映射的问题标识信息定位到正排索引信息中所指向知识点下的问题；根据定位的问题在以知识点为粒度构建的正排索引信息中获取所在知识点下的答案为问题语句请求进行对话的答案。在此，由于倒排索引信息是以词为粒度构建的，使得问题语句的匹配也是以词为粒度进行的，问题语句中每一词都进行倒排索引信息中的匹配，避免问题语句的匹配中计算偏差的问题，将有效降低对话实现中答案获得的难度，答案准确率获得提高。

Description

对话实现中的搜索方法、装置和计算机可读存储介质

技术邻域

本发明涉及信息处理领域，特别涉及一种对话实现中的搜索方法、装置和计算机可读存储介质。

背景技术

基于机器的对话实现在各个领域都有着非常广泛的应用场景，以使得所实现的应用场景具备对话能力，提供基于对话的交互平台。在支持对话实现的应用场景，是以用户自然语言为输入，所之所进行的响应包括对此自然语言的回答、根据回答所对应答案而进行的操控等，极大提高应用场景的智能化程度。

无论何种应用场景，所进行的对话都需要为用户所输入的自然语言相应获得答案，进而由此答案的输出完成对话。对话的进行中答案是通过自然语言所相关的搜索获得的。

将搜索引擎应用于对话的实现上。简而言之，搜索引擎配置存储了众多问题，在众多问题中对用户输入的自然语言匹配最为相似的问题，此最为相似问题对应的答案就是为当前进行对话中输出的答案。

但是，在进行的问题匹配中，往往会出现计算偏差，例如，两者定位的关键词出现偏差，从而导致匹配结果出错，无法得到适应于用户所输入自然语言的准确答案。

因此，在对话的实现中，答案的获得仍然是存在着极大难度的，且准确率较为低下，并不是真正意义上的对应，未能适应于智能化发展。

发明内容

为了解决相关技术中存在的对话实现中答案由于无法准确匹配到最为相似的问题而导致其获得存在极大难度且准确率低下的技术问题，本发明提供了一种对话实现中的搜索方法、装置和计算机可读存储介质。

一种对话实现中的搜索方法，所述方法包括：

获取请求进行对话的问题语句；

在以词为粒度构建的倒排索引信息中检索所述问题语句获得匹配的词；

通过所述问题语句匹配的词在所述倒排索引信息中映射的问题标识信息定位到正排索引信息中所指向知识点下的问题；

根据定位的所述问题在以知识点为粒度构建的正排索引信息中获取所在知识点下的答案为所述问题语句请求进行对话的答案。

一种对话实现中的搜索装置，所述装置包括：

问题语句获取模块，用于获取请求进行对话的问题语句；

匹配词获得模块，用于在以词为粒度构建的倒排索引信息中检索所述问题语句获得匹配的词；

定位模块，用于通过所述问题语句匹配的词在所述倒排索引信息中映射的问题标识信息定位到正排索引信息中所指向知识点下的问题；

答案获得模块，用于根据定位的所述问题在以知识点为粒度构建的正排索引信息中获取所在知识点下的答案为所述问题语句请求进行对话的答案。

一种对话实现中的搜索装置，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的对话实现中的搜索方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的对话实现中的搜索方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

对请求进行对话的问题语句，首先在以词为粒度的倒排索引信息检索问题语句，以获得匹配的词，在此，由于倒排索引信息是以词为粒度构建的，使得问题语句的匹配也是以词为粒度进行的，问题语句中的每一词都进行了倒排索引信息中的匹配，避免了问题语句的匹配中计算偏差的问题，在此基础上，通过问题语句匹配的词在倒排索引信息中的知识点指向和所指向知识下映射问题的问题标识信息，定位到正排索引信息中所指向知识点下的问题，与问题语句中词所相关的问题都可能成为与问题语句相似的问题，至此便完成了问题语句相似问题的预选取，将有效降低对话实现中答案获得的难度，从而根据定位到的问题来获得问题语句请求进行对话的答案，答案的准确率获得提高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的本发明所涉及的实施环境示意图；

图2是根据一示例性实施例示出的一种服务器的框图；

图3是根据一示例性实施例示出的一种对话实现中的搜索方法的流程图；

图4是根据图3对应实施例示出的对步骤330的细节进行描述的流程图；

图5是根据图3对应实施例示出的对步骤350的细节进行描述的流程图；

图6是根据图3对应实施例示出的对步骤370的细节进行描述的流程图；

图7是根据另一示例性实施例示出的一种对话实现中的搜索方法的流程图；

图8是根据一示例性实施例示出的一种开源搜索引擎实现示意图；

图9是图7对应实施例示出的对步骤510的细节进行描述的流程图；

图10是根据一示例性实施例示出的索引数据结构示意图；

图11是根据一示例性实施例示出的一种对话实现中的搜索装置的框图；

图12是根据图11对应实施例示出的对定位模块的细节进行描述的框图；

图13是根据另一示例性实施例示出的一种对话实现中的搜索装置的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的本发明所涉及的实施环境示意图。本发明所涉及的实施环境是包括前端和后端的实现，因此，在一个示例性实施例中，可以是如图1所示的实施环境，即包括由各种终端设备，例如，便携电脑150和智能手机170作为本发明的前端实现，服务器110和后台操控端130则是本发明的后端实现。

具体而言，服务器110为对话进行提供了答案的搜索服务，其实现搜索服务的索引数据是由相互配合的倒排索引信息和正排索引信息形成。后台操控端130用于实现服务器110中搜索服务的配置，例如，在其所实现的界面中，可以进行各类问题以及相对应答案的显示，运维人员可对此进行配置和修改。

便携电脑150和智能手机170，作为接入对话实现的终端设备，将用于进行问题语句的输入，并在服务器110为此问题语句获得答案时，输出此答案，进而完成问题语句所请求进行的对话。

图2是根据一示例性实施例示出的一种服务器的框图。该服务器200可因配置或性能不同而产生比较大的差异，可以包括至少一个中央处理器(central processing units，CPU)222(例如，至少一个处理器)和存储器232，至少一个存储应用程序242或数据244的存储介质230(例如至少一个海量存储设备)。其中，存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括至少一个模块(图示未示出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器222可以设置为与存储介质230通信，在服务器200上执行存储介质230中的一系列指令操作。服务器200还可以包括至少一个电源226，至少一个有线或无线网络接口250，至少一个输入输出接口258，和/或，至少一个操作系统241，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。下述图3、图4、图5、图6、图7和图9所示实施例中所述的由服务器所执行的步骤可以基于该图2所示的服务器结构。

图3是根据一示例性实施例示出的一种对话实现中的搜索方法的流程图。该对话实现中的搜索方法适用于图1所示实施环境，该实施环境中的服务器可以如图2所示，并且执行本发明所未的对话实现中的搜索。

如图3所示，该对话实现中的搜索方法，至少包括以下步骤。

在步骤310中，获取请求进行对话的问题语句。

其中，问题语句是自然语言所形成的文本信息，用于描述当前所请求进行的对应中的问题。应当说明的是，请求进行的对话是指用户向机器发起的问答，用户通过自然语言向机器提问，所对应的问题即为此问题语句。

问题语句的获取是通过用户在终端设备的输入实现的，进而在终端设备的控制下上传至服务器，用以响应用户所发起对话的服务器便获得问题语句。

在一示例性实施例中，问题语句可以是用户在界面中输入的文本信息，也可以是用户通过语音输入后对语音信号转换而获得的文本信息，在此不进行限定，将根据实际运营的需要配置。

例如，在应用本发明所实现的对话系统而显示于终端设备中的线上问答页面中，通过输入框所触发进行的问题输入获得问题语句，进而通过向服务器进行的问题语句上传而发起此用户与机器之间的对话。

在步骤330中，在以词为粒度构建的倒排索引信息中检索问题语句获得匹配的词。

其中，倒排索引信息是以标识为索引而映射至问题的索引数据，此标识是问题所相关的标识，即后续所指的问题标识信息。倒排索引信息通过倒排索引的方式，一方面用于进行问题语句中词的检索，另一方面便是在倒排索引的作用下为所检索到的词，即匹配的词定位词所相关的问题。

倒排索引信息是以词为粒度构建的倒排索引，也就是说，在倒排索引信息中存在着若干索引记录，即倒排链表，并且每一倒排链表都是一词作为头结点且实现标识到问题的映射的，倒排索引信息中的索引记录是以词为单位存在的，每一条索引记录，即一倒排链表便对应于一个词。

如前所述的，问题语句是描述问题的自然语句，因此往往包含至少一个词，针对于每一个词，都基于倒排索引信息中所有词进行匹配，以实现问题语句的检索获得匹配的词。

应当理解，根据每一个词在倒排索引信息中的匹配情况，可能为问题语句获得其所包含的每一词所在倒排索引信息中匹配的词，进而形成问题语句匹配的词；但也可能获得问题语句中所包含某一个或者某几个词在倒排索引信息中匹配的词，除此之外，也可能存在着其它的情况。

但是，由于倒排索引信息是以词为粒度而构建的，使得问题语句在倒排索引信息中的检索是以词为单位进行的，随之而获得问题语句匹配的词就是由问题语句所包含的词执行匹配的结果，这将保证了任何问题语句都可执行其在倒排索引信息中的检索，也使得相应匹配过程的执行不存在任何偏向性，避免了现有技术中直接进行问题语句与众多问题的相似性匹配中由于是对问题整体执行匹配而导致的计算偏差，例如，对问题语句中的关键词定位偏差，准确理解问题语句，实现了语义上最为相似问题的准确确定。

在步骤350中，通过问题语句匹配的词在倒排索引信息中映射的问题标识信息定位到正排索引信息中所指向知识点下的问题。

其中，如前所述的，倒排索引信息是以词为单位形成的索引记录集合，此索引记录用于记录一词至问题标识信息的映射，并且由于问题标识信息包括问题所在知识点标识，所以索引记录指示了一词至正排索引信息中知识点的链接，除此之外，问题标识信息还包括唯一标示知识点所对应问题集合中问题的问题所知识点内部标识，所以此链接上包含了问题标识信息至存储于正排索引信息中问题的倒排索引，因此，索引记录实质上是倒排链表，可以通过问题语句匹配的词经由其所在的倒排链表定位到正排索引信息中的知识点以及此知识点下的问题。

正排索引信息将与倒排索引信息相配合实现对话中问题的搜索。正排索引信息与倒排索引信息二者之间存在着关联关系，一方面，倒排索引信息中每一词所在的倒排链表是指向正排索引信息中的知识点的，另一方面，倒排链表上的问题标识信息是映射到正排索引信息中一问题的，问题标识信息将作为正排索引信息中问题的倒排索引。

正排索引信息用于进行实体数据的存储，即为对话所预备的问题是存储在正排索引信息中的，并且将以知识点为粒度实现问题的存储。换而言之，正排索引信息中，每一问题将分布于其所相关的知识点下，每一知识点都有其所对应的问题集合，以及答案集合。

由此，针对于问题语句匹配的每一词，获得其在倒排索引信息中的索引记录，倒排链表，然后经由倒排链表指向的知识点以及问题标识信息到所指向知识点之下问题的映射，定位到问题，所定位到的问题是问题语句中词所相关的问题，存在着与此问题语句相似的可能性。

可以理解的，在倒排索引信息和正排索引信息的作用下，为问题语句所匹配的词获得所指向知识点下的问题，是获得与问题语句最为相似问题的初步筛选过程，并且是根据问题语句中的有效信息，即所包含的词获得的，不再存在计算难度，也将基于此过程弥补了现有方案中相似问题确定的不准确性。

在步骤370中，根据定位的问题在以知识点为粒度构建的正排索引信息中获取所在知识点下的答案为问题语句请求进行对话的答案。

其中，正排索引信息用于实现问题的存储，以及问题的搜索和更新，而倒排索引信息则为问题的搜索提供了路径和以词为单位的搜索入口。正排索引信息所存储的问题，是为与用户的对话而预先构想的诸多问题。

以知识点为粒度的正排索引信息，是指问题以及其他所有信息的存储，都是按照知识点分布的，其都存储于相应的知识点下。具体的，正排索引信息中，以知识点为单位，进行此知识点所对应问题和答案的存储，此时，往往会由于此知识点下对应的问题有多种，且有相应的答案，所以知识点对应了问题集合以及答案集合。除此之外，对于所存储的每一问题，都映射了相应的问题标识信息，并且问题标识信息除了包括问题所在知识点标识和问题所在知识点内部标识之外，还携带了所映射问题的分词集合，以构建分词集合至问题的正排索引，从而方能够获得与倒排索引信息的关联关系，进而得以简单高效的进行后续的问题更新过程以及由此而产生的问题搜索。

可以理解，由于问题的定位是针对于问题语句所匹配的词进行的，并且问题语句所匹配的词往往会是多个，所以定位而获得的问题也往往会是多个，所以需要从定位而获得的多个问题中选取与问题语句最为相似的问题，这一最为相似问题的答案就是对话中响应问题语句的答案。

由于问题定位的进行已为问题语句提供了相关的问题，其分布于各种知识点下，内容各有侧重，因此，避免了语义理解的偏差，也降低了计算的复杂度，有效的圈定了最终所获取答案的问题范围，所以能够有效提高对话实现中问题搜索的准确性，并且也保障了所提供答案的相适应性。

图4是根据图3对应实施例示出的对步骤330的细节进行描述的流程图。该步骤330，如图4所示，至少包括以下步骤。

在步骤331中，进行问题语句的分词处理获得检索词。

其中，在处理当前所请求进行的对话中，对获取的问题语句执行分词计算，所获得的分词结果中包含的词即为本次对话执行搜索的检索词。

可以理解，进行分词处理而获得的检索词数量是至少一个，在后续所处理的过程，将针对每一检索词执行本发明所示的方案，从而获得此检索词在倒排索引信息匹配的词，即前述所指的问题语句匹配的一个词，以及随后定位到的问题。

在步骤333中，进行检索词在倒排索引信息中词的匹配，检索词匹配的词构成问题语句匹配的词。

其中，所有检索词在倒排索引信息中匹配的词就形成了问题语句匹配的词，所指的检索词在倒排索引信息中的匹配，是指在倒排索引信息中的所有词匹配检索词，以获得与此检索词最为相似的词的过程。

通过此示例性实施例，实现了以词为粒度的问题语句内容匹配，为后续充分准确理解问题语句的语义奠定基础。

图5是根据图3对应实施例示出的对步骤350的细节进行描述的流程图。该步骤350，如图5所示，至少包括以下步骤。

在步骤351中，在倒排索引信息通过问题语句匹配的词获得所映射的问题标识信息。

其中，如前所述的，倒排索引信息中进行着以词为索引至问题标识信息映射的存储。例如，以词为键，问题标识信息为值而形成键值对存储于倒排索信息中，所以问题语句匹配的每一词都可以在倒排索引信息中获得所映射的问题标识信息。

在步骤353中，通过问题标识信息获得与正排索引信息中知识点之间的指向关系和问题所在知识点内部标识，由指向关系定位到正排索引信息中的知识点，获得所指向的知识点。

其中，问题标识信息通过问题所在知识点标识的存在构建了至正排索引信息中知识点的映射，进而以此来指示与正排索引信息中知识点之间的指向关系。

对于正排索引信息中的一知识而言，其有对应的问题集合，因此需要在问题所在知识点内部标识来确定问题集合中最终定位的问题。

在步骤355中，根据问题所在知识点内部标识在所指向知识点对应问题集合中定位问题。

通过此示例性实施例，借由倒排索引信息中存储的词以及构建的倒排索引，为问题语句匹配的词定位到具体的问题，完成问题的初始选取，简单易行，并不涉及计算过程，极大的降低了搜索的难度和复杂性，进而便于保证结果的准确性。

图6是根据图3对应实施例示出的对步骤370的细节进行描述的流程图。该步骤370，如图6所示，至少包括以下步骤。

在步骤371中，从定位的问题获得问题语句匹配的问题，该问题对应于正排索引信息中的知识点。

其中，如前所述的，定位所获得的问题会是多个。针对定位的问题逐一进行此问题与问题语句的匹配，以确定问题语句与此问题的相似程度，以此类推，获得每一问题与问题语句的相似程度，将相似程度最高的问题作为问题语句匹配的问题。

问题语句匹配的问题处于一问题集合中，此问题集合是对应于一知识点的，由此可知，问题语句所匹配的问题是此知识点所相关的，在词以及知识点的把控下得以保障问题匹配的准确性。

在步骤373中，由问题语句匹配的问题返回正排索引信息中对应的知识点，获得知识点对应的答案集合。

其中，通过问题语句所匹配问题与知识点的对应关系，由问题语句匹配的问题返回到正排索引信息中的知识点，此知识点对应的答案集合，即为问题语句所匹配问题的答案集合。

在步骤375中，通过配置的答案选取策略在答案集合中选取答案，选取的答案用于问题语句所请求进行的对话。

其中，对答案集合中存在的多个答案，通过本置的答案选取策略实现问题的选取。答案选取策略可以是随机选择答案的策略或者不重复答案选取策略等，在此不进行限定。

在另一个示例性实施例中，对话被部署应用于多种业务，步骤330之前，该对话实现中的搜索方法还至少包括：

根据请求进行对话的业务确定执行问题语句检索的索引数据，索引数据中包括为业务相关对话执行问题语句检索的倒排索引信息和正排索引信息。

其中，所指的业务是对应于对话所在的应用场景的，相应业务逻辑的执行就实现了应用场景所配置的功能。例如，对话所在的应用场景是线上贩卖商品的商城，则线上贩卖商品的实现即为其所配置的业务逻辑，其业务在于线上贩卖商品，因此，在这一应用场景上应用的对话就是线上贩卖商品相关的，需要为此而配置相应的索引数据，以实现精准有效的提问回复。

借助于对话所实现平台而进行业务中用户与机器之间的对话，而借助于对话所实现平台的业务有多种，因此为每一业务都有与对应的索引数据，并且各种业务所对应的索引数据之间需要隔离，以提高检索和存储的性能，保障能够实现与业务相适配的对话搜索。

例如，在通过社交网络应用而搭建的对话实现平台中，为各业务所实现的对话通过引入相应的社交网络交互接口，比如作为社交网络中的一联系人而提供用户与此业务之间实现对话的入口，此时，此业务所对应的社交网络帐号便是指向此业务对应的索引数据的。

索引数据包括倒排索引信息以及与此倒排索引信息相配合的正排索引信息，因此通过业务与索引数据的对应，而使得通过本发明所实现的对话具备通用性，通用适用于任意业务。

图7是根据另一示例性实施例示出的一种对话实现中的搜索方法的流程图。在此示例性实施例中，倒排索引信息和正排索引信息具备读功能而提供问题语句所请求对话的答案，且通过执行双缓冲存储而获得具备写功能的另一份倒排索引信息和正排索引信息。

与之相对应的，该对话实现中的搜索方法，如图7所示，还至少包括以下步骤。

在步骤510中，在写功能指向的倒排索引信息和正排索引信息，执行正排索引信息中指定知识点下更新问题对应的问题标识信息的构建，以及更新问题包含的词至更新问题之间正排索引信息的构建，获得更新的正排索引信息，指定知识点为更新相似问题的目标知识点或者新增知识点。

其中，为对话中搜索配置的倒排索引信息和正排索引信息作为一份索引数据，还进行了双缓冲存储。具体而言，为对话中搜索配置的一份索引数据，是读功能所指向的，此份索引数据存储于分配的搜索执行缓冲区，读功能指向搜索执行缓冲区。

除此之外，还将对此份索引数据进行复制，并存储至双缓冲区，写功能指向双缓冲区。存储于双缓冲区的索引数据具备写功能，能够对其执行写操作，不可执行读操作；而存储于搜索执行缓冲区的索引数据则是具备读功能，能够对其执行读操作，不可执行写操作。

写功能指向的索引数据用于更新倒排索引信息和正排索引信息，在通过执行写操作而更新之后，获得更新的倒排索引信息和正排索引信息，并进行缓冲存储。

此时，与前述相类似的，更新的倒排索引信息和正排索引信息也将形成两份索引数据，进行双缓冲存储，一份是写功能所重新指向的，另一份则是读功能所重新指向的。

在写功能指向的倒排索引信息和正排索引信息中，通过写操作而执行的更新，可以是一个或者某几个知识点下问题的更新，在此情况下，将对于更新的问题为新问题时，将首先进行知识的新增，更新的问题便形成对应于新增知识点的问题集合，并相应写入答案集合。如果更新问题为现有问题的相似问题，则仅需要将更新问题写入目标知识点对应的问题集合即可。

更新问题是与知识点，即指定知识点存在着对应关系的，例如，更新的问题所包含的词，是指定知识点所对应问题中词的同义词或相关词。问题的更新包括正排索引信息中更新问题的写入以及相应正排索引的构建，在更新问题为新问题时还需要执行知识点的新增，倒排索引信息也将会被随之进行更新问题所包含词的更新以及倒排索引信息的构建。

更新问题被写入指定知识点对应的问题集合，并且为写入的更新问题构建更新问题所映射的问题标识信息，向此问题标识信息写入更新问题包含的词，即分词集合，将所写入的词映射至更新问题，以完成正排索引的构建。

至此，便完成了更新问题在正排索引信息中的更新。词至更新问题的正排索引将便于构建搜索中能够查找到更新问题的索引记录，问题标识信息用于唯一标识目标知识点和更新问题。

对于问题的更新而言，更新问题被写入指定知识点对应的问题集合，相应的答案则被写入指定知识点对应的答案集合，一更新问题的相应答案可能有多个，例如，在一指定知识点下的问题，在扩展成X个更新问题时，有Y个可选答案，则需要对此进行更新。

图8是根据一示例性实施例示出的一种开源搜索引擎实现示意图。现有的技术实现中，搜索引擎是对用户所输入的问题语句匹配最为相似的文档，此文档的内容即为问题语句最为相似的问题。如图8所示的，所对应的索引数据构建过程包括：

将文档内容进行分词，然后在分词对应的倒排链表中插入文档标识，文档标识用于标识文档，是全局唯一的标识，如图8所示的doc_id_1、doc_id_2、doc_id_3、doc_id_4和doc_id_5，文档标识映射至相应的文档，比如，Doc_1和Doc_2。

图8中示例性的包含了两个文档，即Doc_1和Doc_2，Doc_1的分词结果只包含key1这一个词，因此在key1对应的倒排链表后面增加doc_id_1。类似的，Doc_2包含key1和keyN两个词，则在的倒排链表上增加doc_id_2。

在此索引数据中，如需要新增X个更新问题，Y个可选答案，则共需要插入(X+1)*(Y+1)条索引记录，而在本发明所示的索引数据中仅需要新增(X+1+Y+1)条索引记录，避免了较大的存储冗余，节省存储资源，进而有利于提高后续的搜索速度，技术成本得到较大降低。

并且对于现有的技术实现而言，由于所有的索引记录都保存在一起，导致如需要进行分业务的数据隔离时，降低索引和存储的性能。

在步骤530中，在倒排索引信息中根据正排索引以更新问题所包含的词为粒度，写入更新问题所包含的词至问题标识信息的映射获得更新的倒排索引信息。

其中，完成了正排索引信息的更新之后，根据所更新的正排索引信息更新倒排索引信息。倒排索引信息是以词为键而形成倒排索引链表的，对于正排索引信息中问题的更新，将根据更新问题中的词，确定是需要对倒排索引信息新增词，以确定在倒排索引信息中能够构建更新问题所包含的词至问题标识信息的映射，进而方可最终由问题标识信息映射至问题。

在一个示例性实施例中，步骤530包括：根据更新问题包含的词和对应的问题标识信息，进行写功能指向的倒排索引信息中词以及词所映射问题标识信息的更新，使所述更新问题中的词存在于所述倒排索引信息且映射至更新问题对应的问题标识信息，获得更新的倒排索引信息。

其中，写功能指向的倒排索引信息中词的更新是指更新问题包含的词并不存在于倒排索引信息时词的写入过程。

在步骤550中，切换读功能的指向至更新的倒排索引信息和正排索引信息。

其中，将指向原有倒排索引信息和正排索引信息的读功能切换至更新的倒排索引信息和正排索引信息，以向对话实现中的搜索上线更新的倒排索引信息和正排索引信息。

在步骤570中，执行更新的倒排索引信息和正排索引信息的双缓冲存储，并切换写功能的指向至双缓冲存储获得的倒排索引信息和正排索引信息。

在此应当补充说明的是，对于实现写入目标知识点对应问题集合的更新问题，其与是问题集合中问题扩展的相似问题，或者是基于问题集合中问题发现的新问题，新问题是原有问题的相关问题。

更新的倒排索引信息和正排索引信息进行双缓冲存储，并释放原有的倒排索引信息和正排索引信息，以释放占用的存储资源。

通过如上所述的示例性实施例，在双缓冲存储的作用下，实现读写分离，保证了在需要执行更新期间不会发生索引冲突的问题，提高了可靠性。

图9是图7对应实施例示出的对步骤510的细节进行描述的流程图。该步骤510，如图9所示，至少包括以下步骤。

在步骤511中，在写功能所指向的正排索引信息中，向正排索引信息进行更新问题的写入。

其中，知识点有其对应的问题集合，问题集合存储了知识点相关的诸多问题，其所对应的一种或多种可能的答案，也将被相应写入知识点对应的答案集合。

更新问题的写入包括向目标知识点所对应问题集合写入更新问题，以及新知识节点的新增以及新增知识点对应问题集合中更新问题的写入。

在步骤513中，根据更新问题以及其所在的问题集合、目标知识点构建问题标识信息。

其中，如前所述的，问题标识信息包括问题所在知识点标识和问题所在知识点内部标识，问题所在知识点标识用于唯一标示知识点，问题所在知识点内部标识，用于在知识点所对应问题集合中标示问题。因此，更新问题所对应问题标识信息将根据问题以及其所在的问题集合、指定知识点生成，并映射至指定知识点和写入指定知识点下的更新问题。

在步骤515中，由更新问题包含的词形成问题标识信息携带的分词集合，构建分词集合至指定知识点所对应问题集合中更新问题的正排索引获得更新的正排索引信息。

其中，对于更新问题，还将对其执行分词处理获得分词集合，将此分词集合写入问题标识信息中，以实现词至问题的正排索引。

在一个示例性实施例中，步骤510之前，该对话实现中的搜索方法，还至少包括以下步骤。

在写功能指向的正排索引信息中，以知识点为目标通过知识图谱进行目标知识点下问题的相似问题扩展和/或新问题发现获得更新问题。

其中，根据前述描述可以知道，正排索引信息中存在着诸多知识点，以满足搜索需求。对于每一知识点，其问题集合中的问题，都可以通过知识图像执行相似问题扩展和/或新问题发现，获得新问题。

知识点是知识图谱中的节点，在知识图谱中，存在着诸多节点，并且节点之间通过边连结，边定义了节点之间的关系，例如，一节点可以是所连结的另一节点的相似节点，或者相关节点。因此，对于一问题而言，可由其所涵盖的节点搜索相关的词或者同义词，进而按照所在领域相关的问题模式，或者当前问题中词之间的构成，由知识图谱中搜索到的词形成相似问题或新问题，相似问题和新问题所相关的知识点，即可作为正排索引信息中的新增知识点。

例如，对于现有问题的相似问题扩展，将利用同义词表和知识图谱分别召回其同义词，如故宫扩展为紫禁城，和原来的句式组合就可以得到扩展的相似问题。

对于新问题发现，利用知识图谱发现的方式，将现有问题中的关键词在知识图谱中搜索出与之相关的词，如将故宫搜索出乾隆、颐和园等相关的词，组合出新的问题，并作为一个新的知识点，在此基础上利用相似问题扩展对新问题扩展出其它的相似问题。

也就是说，在扩展出相似问题时只需要将其写入所在知识点对应的问题集合，但是在发现新问题时，将新增此新问题对应的知识点，再写入更新问题。

并且在此基础之上，为进一步提高搜索性能，还将对执行新问题发现获得的更新问题执行相似问题扩展，并更新至索引数据中。

通过此示例性实施例，可以对一个领域的知识库进行扩展，丰富其问题。

以社交网络应用场景中对话系统的实现为例，描述上述对话实现中的搜索过程。此社交网络应用场景中，各业务接入而分别配置用户接入业务的服务帐号，并以联系人的形式存在于用户的社交网络应用消息界面中。

对于一业务而言，通过其服务帐号所对应的联系人消息界面，获得用户输入的问题语句。

通过本发明所示的示例性实施例实现的对话系统接入了社交网络应用和服务器。此时，服务器获得问题语句以及此问题语句所属的业务。

服务器中，各业务的索引数据是相互隔离的，但是所有业务的索引数据都是如图10所示构建得到的。图10是根据一示例性实施例示出的索引数据结构示意图。

业务均有其所唯一对应的业务标识，根据社交网络应用场景下接入的业务形成业务标识索引集合710。

在图10所示的索引数据结果下，首先由问题语句所属业务对应的业务标识，通过业务标识索引集合710中获得映射的索引数据，具体而言，便是获得了业务标识索引且双缓冲所对应的读指针Read_pointer721和写指针Write_pointer722。

Read_pointer721指向的索引数据，即业务读缓冲数据730将执行问题语句所匹配问题的搜索和答案的获得；Write_pointer722指向的索引数据，即业务写缓冲数据740则执行现有问题的相似问题和/或新问题的更新。

在此首先对业务读缓冲数据730看问题语句所匹配问题的搜索和答案的获得进行阐述。

业务读缓冲数据730包括可读正排表731和可读倒排表733。可读正排表731是以链表形式存在的正排索引信息，可读倒排表733则是以链表形式存在的倒排索引信息。

可读正排表731中具体的数据结构如图10所示，其是以知识点为单位构建的。在可读倒排表733中通过HashMap7331，匹配得到问题语句包含的词，得到问题语句匹配的若干个词。

HashMap7331存储了以词为键，问题标识信息为值而构成的键值对，词是以其哈希值的形式存在的，如key_1，以保证其处理速度以及唯一性。

获得了问题语句匹配的若干个词之后就可以随之获得映射的问题标识信息，即如可读倒排表733中的<qa_inner_id,question_id>，这是以问题所在知识点为键，问题所在知识点内部标识为值所构成的键值对，通过此方式而映射至可读正排表731中的知识点以及知识点所对应问题集合中的问题。

由此即可为问题语句获得相关的问题，进而执行问题与问题语句之间的匹配来得到最为相似的问题，此问题所对应知识点下答案集合中的答案即可作为用户所输入问题的自动回复。

至此，便实现了用户所请求进行对话的自动输出答案。

其次，对业务写缓冲数据740更新现有问题的相似问题和/或新问题进行阐述。

在对现有问题获得相似问题以及新问题时，将在现有问题所在的问题集合中写入相似问题，但是为新问题构建新增知识点，进而在此新增知识点下实现新问题的更新，以及新问题的相似问题扩展。

业务写缓冲数据740是双缓冲存储而获得的，故在未发生更新时，其可写正排表741与可读正排表731相同，可写倒排表743与可读倒排表733相同。

在可写正排表741中，随着更新的执行而写入项内容，并且相应更新可读倒排表743。

通过此方式实现了区别图10所示的索引结构，降低了短文本计算文本相关发生的难度，弥补了现有技术实现中的准确率不足的缺陷，也很好的解决了多答案时表现的不足，提升索引的存储开销。

下述为本发明装置实施例，可以用于执行本发明上述硬件设备执行的对话实现中的搜索方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明对话实现中的搜索方法实施例。

图11是根据一示例性实施例示出的一种对话实现中的搜索装置的框图。该对话实现中的搜索装置，至少包括：问题语句获取模块910、匹配词获得模块930、定位模块950和答案获得模块970。

问题语句获取模块910，用于获取请求进行对话的问题语句。

匹配词获得模块930，用于在以词为粒度构建的倒排索引信息中检索问题语句获得匹配的词。

定位模块950，用于通过问题语句匹配的词在倒排索引信息中映射的问题标识信息定位到正排索引信息中所指向知识点下的问题。

答案获得模块970，用于根据定位的问题在以知识点为粒度构建的正排索引信息中获取所在知识点下的答案为问题语句请求进行对话的答案。

图12是根据图11对应实施例示出的对定位模块的细节进行描述的框图。该定位模块950，如图12所示，至少包括：问题标识获得单元951、指向定位单元953和问题定位单元955。

问题标识获得单元951，用于在倒排索引信息通过问题语句匹配的词获得所映射的问题标识信息。

指向定位单元953，用于通过问题标识信息获得与正排索引信息中知识点之间的指向关系和问题所在知识点内部标识，由指向关系定位到正排索引信息中的知识点，获得所指向的知识点。

问题定位单元955，用于根据问题所在知识点内部标识在所指向知识点对应问题集合中定位问题。

在另一个示例性实施例中，该对话实现中的搜索装置还包括索引数据确定模块。

索引数据确定模块，用于根据请求进行对话的业务确定执行问题语句检索的索引数据，索引数据中包括为业务相关对话执行问题语句检索的倒排索引信息和正排索引信息。

图13是根据另一示例性实施例示出的一种对话实现中的搜索装置的框图。在另一示例性实施例中，倒排索引信息和正排索引信息具备读功能而提供问题语句所请求对话的答案，且通过执行双缓冲存储而获得具备写功能的另一份倒排索引信息和正排索引信息，

相对应的，该对话实现中的搜索装置，至少还包括：正排索引更新模块1010、倒排索引更新模块1030、指向切换模块1050和双缓冲执行模块1070。

正排索引更新模块1010，用于在写功能指向的倒排索引信息和正排索引信息，执行正排索引信息中指定知识点下更新问题对应问题标识信息的构建，以及更新问题包含的词至更新问题之间正排索引的构建，获得更新的正排索引信息，指定知识点为更新相似问题的目标知识点或者新增知识点。

倒排索引更新模块1030，用于在倒排索引信息中根据正排索引以更新问题所包含的词为粒度，写入更新问题所包含的词至问题标识信息的映射获得更新的倒排索引信息。

指向切换模块1050，用于切换读功能的指向至更新的倒排索引信息和正排索引信息。

双缓冲执行模块1070，用于执行更新的倒排索引信息和正排索引信息的双缓冲存储，并切换写功能的指向至双缓冲存储获得的倒排索引信息和正排索引信息。

在另一个示例性实施例中，该对话实现中的搜索装置还包括更新问题获得模块。更新问题获得模块用于在写功能所指向的所述正排索引信息中，以知识点为目标通过知识图谱进行目标知识点下问题的相似问题扩展和/或新问题发现获得更新问题。

可选的，本发明还提供一种硬件设备，该硬件设备可以前述所示实施环境中，执行图3、图4、图5、图6、图7和图9任一所示的对话实现中的搜索方法的全部或者部分步骤。此硬件设备为对话实现中的搜索装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行：

获取请求进行对话的问题语句；

该实施例中的装置的处理器执行操作的具体方式已经在有关该硬件设备的对话实现中的搜索方法的实施例中执行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介指例如包括指令的存储器204，上述指令可由装置200的处理器218执行以完成上述方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种对话实现中的搜索方法，其特征在于，所述方法包括：

获取请求进行对话的问题语句；

根据定位的所述问题在以知识点为粒度构建的正排索引信息中获取所在知识点下的答案为所述问题语句请求进行对话的答案；

所述倒排索引信息和正排索引信息具备读功能而提供问题语句所请求对话的答案，且通过执行双缓冲存储而获得具备写功能的另一份倒排索引信息和正排索引信息，所述方法包括：

在写功能指向的倒排索引信息和正排索引信息，执行所述正排索引信息中指定知识点下更新问题对应问题标识信息的构建，以及所述更新问题包含的词至所述更新问题之间正排索引的构建，获得更新的正排索引信息，所述指定知识点为更新相似问题的目标知识点或者新增知识点；

在所述倒排索引信息中根据所述正排索引以更新问题所包含的词为粒度，写入更新问题所包含的词至所述问题标识信息的映射获得更新的倒排索引信息；

切换读功能的指向至更新的所述倒排索引信息和正排索引信息；

执行更新的所述倒排索引信息和正排索引信息的双缓冲存储，并切换写功能的指向至双缓冲存储获得的所述倒排索引信息和正排索引信息。

2.根据权利要求1所述的方法，其特征在于，所述在以词为粒度构建的倒排索引信息中检索所述问题语句获得匹配的词，包括：

进行所述问题语句的分词处理获得检索词；

进行所述检索词在所述倒排索引信息中词的匹配，所述检索词匹配的词构成所述问题语句匹配的词。

3.根据权利要求1所述的方法，其特征在于，所述通过所述问题语句匹配的词在所述倒排索引信息中映射的问题标识信息定位到正排索引信息中所指向知识点下的问题，包括：

在所述倒排索引信息通过所述问题语句匹配的词获得所映射的问题标识信息；

通过所述问题标识信息获得与所述正排索引信息中知识点之间的指向关系和问题所在知识点内部标识，由所述指向关系定位到所述正排索引信息中的知识点，获得所指向的知识点；

根据问题所在知识点内部标识在所指向知识点对应问题集合中定位问题。

4.根据权利要求1所述的方法，其特征在于，所述根据定位的所述问题在以知识点为粒度构建的正排索引信息中获取所在知识点下的答案为所述问题语句请求进行对话的答案，包括：

从定位的所述问题获得所述问题语句匹配的问题，所述问题对应于所述正排索引信息中的知识点；

由所述问题语句匹配的问题返回至所述正排索引信息中对应的知识点，获得所述知识点对应的答案集合；

通过配置的答案选取策略在所述答案集合中选取答案，选取的所述答案用于所述问题语句所请求进行的对话。

5.根据权利要求1所述的方法，其特征在于，所述对话被部署应用于多种业务，所述以词为粒度构建的倒排索引信息中检索所述问题语句获得匹配的词之前，所述方法还包括：

根据请求进行对话的业务确定执行问题语句检索的索引数据，所述索引数据中包括为业务相关对话执行问题语句检索的倒排索引信息和正排索引信息。

6.根据权利要求1所述的方法，其特征在于，所述在写功能指向的倒排索引信息和正排索引信息，执行所述正排索引信息中目标知识点下构建更新问题对应的问题标识信息，以及所述更新问题包含的词至所述更新问题的正排索引，获得更新的正排索引信息之前，所述方法还包括：

在写功能所指向的所述正排索引信息中，以知识点为目标通过知识图谱进行目标知识点下问题的相似问题扩展和/或新问题发现获得更新问题。

7.根据权利要求1所述的方法，其特征在于，所述在所述倒排索引信息中根据所述正排索引以更新问题所包含的词为粒度，写入更新问题所包含的词至所述问题标识信息的映射获得更新的倒排索引信息，包括：

根据所述更新问题包含的词和对应的问题标识信息，进行写功能指向的倒排索引信息中词以及词所映射问题标识信息的更新，使所述更新问题中的词存在于所述倒排索引信息且映射至所述更新问题对应的问题标识信息，获得更新的所述倒排索引信息。

8.一种对话实现中的搜索装置，其特征在于，所述装置包括：

问题语句获取模块，用于获取请求进行对话的问题语句；

答案获得模块，用于根据定位的所述问题在以知识点为粒度构建的正排索引信息中获取所在知识点下的答案为所述问题语句请求进行对话的答案；

所述倒排索引信息和正排索引信息具备读功能而提供问题语句所请求对话的答案，且通过执行双缓冲存储而获得具备写功能的另一份倒排索引信息和正排索引信息，所述装置包括：

正排索引更新模块，用于在写功能指向的倒排索引信息和正排索引信息，执行所述正排索引信息中指定知识点下更新问题对应问题标识信息的构建，以及所述更新问题包含的词至所述更新问题之间正排索引的构建，获得更新的正排索引信息，所述指定知识点为更新相似问题的目标知识点或者新增知识点；

倒排索引更新模块，用于在所述倒排索引信息中根据所述正排索引以更新问题所包含的词为粒度，写入更新问题所包含的词至所述问题标识信息的映射获得更新的倒排索引信息；

指向切换模块，用于切换读功能的指向至更新的所述倒排索引信息和正排索引信息；

双缓冲执行模块，用于执行更新的所述倒排索引信息和正排索引信息的双缓冲存储，并切换写功能的指向至双缓冲存储获得的所述倒排索引信息和正排索引信息。

9.根据权利要求8所述的装置，其特征在于，所述定位模块包括：

问题标识获得单元，用于在所述倒排索引信息通过所述问题语句匹配的词获得所映射的问题标识信息；

指向定位单元，用于通过所述问题标识信息获得与所述正排索引信息中知识点之间的指向关系和问题所在知识点内部标识，由所述指向关系定位到所述正排索引信息中的知识点，获得所指向的知识点；

问题定位单元，用于根据问题所在知识点内部标识在所指向知识点对应问题集合中定位问题。

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

索引数据确定模块，用于根据请求进行对话的业务确定执行问题语句检索的索引数据，所述索引数据中包括为业务相关对话执行问题语句检索的倒排索引信息和正排索引信息。

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

更新问题获得模块，用于在写功能所指向的所述正排索引信息中，以知识点为目标通过知识图谱进行目标知识点下问题的相似问题扩展和/或新问题发现获得更新问题。

12.一种对话实现中的搜索装置，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至7中任一项所述的对话实现中的搜索方法。

13.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至7中任一项所述的对话实现中的搜索方法。