CN116414940A

CN116414940A - 标准问题的确定方法、装置及相关设备

Info

Publication number: CN116414940A
Application number: CN202111622357.XA
Authority: CN
Inventors: 朱博睿; 孟繁宇; 冯俊兰
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2023-07-11

Abstract

本发明公开了一种标准问题的确定方法、装置及相关设备。该方法包括：在接收到待检索问题的情况下，确定与待检索问题对应的标准问题候选集；基于每条候选标准问题与待检索问题之间的相似度值，以及每条候选标准问题对应的权重值，对N条候选标准问题进行排序；按照N条候选标准问题的排列顺序，将N条候选标准问题中的前M条或后M条候选标准问题确定为目标标准问题。本发明实施例中，基于相似度值和权重值建立候选标准问题与待检索问题之间的关联关系，进而提高智能问答系统检索标准问题的准确率。

Description

标准问题的确定方法、装置及相关设备

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种标准问题的确定方法、装置及相关设备。

背景技术

随着人工智能技术的发展，越来越多的企业采用智能问答系统替代传统的人工问答系统。智能问答系统接收用户输入的待检索问题，并在数据库中对该待检索问题的关键词进行检索，得到与待检索问题对应的标准问题，进而显示该标准问题，在接收到用户对标准问题的输入之后，显示该标准问题对应的答案文本。

然而，在上述过程中，基于待检索问题的关键词确定的标准问题可能与待检索问题之间毫无关联，也就是说，智能问答系统检索到的标准问题与待检索问题不匹配，智能问答系统检索到的标准问题的准确率较低。

发明内容

本发明实施例提供一种标准问题的确定方法、装置及相关设备，以解决智能问答系统检索标准问题的准确率较低的技术问题。

为解决上述问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种标准问题的确定方法，所述方法包括：

在接收到待检索问题的情况下，确定与所述待检索问题对应的标准问题候选集；所述标准问题候选集包括N条候选标准问题，N为正整数；

基于每条候选标准问题与所述待检索问题之间的相似度值，以及所述每条候选标准问题对应的权重值，对所述N条候选标准问题进行排序；所述权重值基于用户对所述待检索问题的操作行为确定；

按照所述N条候选标准问题的排列顺序，将所述N条候选标准问题中的前M条或后M条候选标准问题确定为目标标准问题，M为小于或等于N的正整数。

第二方面，本发明实施例还提供一种标准问题的确定装置，包括：

第一确定模块，用于在接收到待检索问题的情况下，确定与所述待检索问题对应的标准问题候选集；所述标准问题候选集包括N条候选标准问题，N为正整数；

排序模块，用于基于每条候选标准问题与所述待检索问题之间的相似度值，以及所述每条候选标准问题对应的权重值，对所述N条候选标准问题进行排序；所述权重值基于用户对所述待检索问题的操作行为确定；

第二确定模块，用于按照所述N条候选标准问题的排列顺序，将所述N条候选标准问题中的前M条或后M条候选标准问题确定为目标标准问题，M为小于或等于N的正整数。

第三方面，本发明实施例还提供一种电子设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器，用于读取存储器中的程序实现如前述第一方面所述方法中的步骤。

第四方面，本发明实施例还提供一种可读存储介质，用于存储程序，所述程序被处理器执行时实现如前述第一方面所述方法中的步骤。

本发明实施例中，在接收到待检索问题的情况下，确定与待检索问题对应的标准问题候选集；基于每条候选标准问题与待检索问题之间的相似度值，以及每条候选标准问题对应的权重值，对N条候选标准问题进行排序；按照N条候选标准问题的排列顺序，将N条候选标准问题中的前M条或后M条候选标准问题确定为目标标准问题。本发明实施例中，基于每条候选标准问题与待检索问题之间的相似度值，以及表征用户对待检索问题的操作行为的权重值，对N条候选标准问题进行排序，进而确定目标标准问题，以此基于相似度值和权重值建立候选标准问题与待检索问题之间的关联关系，进而提高智能问答系统检索标准问题的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中智能问答系统的模块示意图；

图2是现有技术中智能问答系统的应用场景图；

图3是本发明实施例提供的标准问题的确定方法的流程图；

图4是本发明实施例提供的标准问题的确定方法的应用场景图之一；

图5是现有技术中精排应答模块的示意图；

图6是本发明实施例提供的标准问题的确定方法的应用场景图之二；

图7是本发明实施例提供的标准问题的确定方法的应用场景图之二；

图8是本发明实施提供的标准问题的确定装置的结构示意图；

图9是本发明实施提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，本申请中使用“和/或”表示所连接对象的至少其中之一，例如A和/或B和/或C，表示包含单独A，单独B，单独C，以及A和B都存在，B和C都存在，A和C都存在，以及A、B和C都存在的7种情况。

为了方便理解，以下对本申请实施例涉及的一些内容进行说明：

智能问答系统可以替代人工问答系统对用户提出的问题进行解答。用户在智能问答系统的输入栏中输入待检索问题，系统在数据库中对该待检索问题进行查询，得到标准问题，进而显示该标准问题对应的答案文本，以此准确的回答用户咨询的问题。

请参阅图1，图1是现有技术中智能问答系统的模块示意图。如图1所示，智能问答系统通常由问题解析模块、粗排召回模块和精排应答模块组成。以此可以将智能问答系统的工作流程分为三个阶段：问题解析阶段、粗排阶段和精排阶段。

以下具体对各个模块的功能和工作方式进行阐述。

在问题解析模块中，可以通过中文分词、词性分析、依存句法分析和语义特征提取等方式对用户输入的待检索问题进行预处理，得到该待检索问题对应的语义向量，该语义向量又称为Query。

在粗排召回模块中，可以使用基于词频的方法从数据库中召回与待检索问题相关的多条候选标准问题，形成标准问题候选集，例如词频-逆文本频率指数(term frequency–inverse document frequency，TF-IDF)算法、BM25算法和统计语言模型。也可以使用基于语义的方法，确定标准问题候选集，例如动态状态空间模型(Deep Structured SemanticModels，DSSM)、Sentence BERT等语义表示模型。

在精排应答模块中，精排应答模块可以使用BM25算法、TF-IDF算法或者WordEmbedding等算法直接计算每条候选标准问题与待检索问题之间的相似度，进而使用排序学习(Learning to Rank，LTR)算法。或者交互型深度文本匹配模型对每条候选标准问题进行排序。

请参阅图2，图2是现有技术中智能问答系统的应用场景图。图2示出的是精排应答模块的工作流程，其中，需要针对不同的环境对精排应答模块进行不同的建模，上述环境可以理解为智能问答系统具体的应用场景，上述精排应答模块又称为智能体。例如政务大厅中的智能问答系统主要回答政务问题，购物网站的智能问答系统主要回答购物问题，上述2个智能问答系统具体的应用场景是不同的。

以下从精排应答模块的4个方面，简要阐述精排应答模块的构建方式。

状态空间：

可以基于用户信息、用户输入待检索问题的输入时间、历史信息和相似度数值建立状态空间。其中，上述用户信息可以理解为智能问答系统中用户账号的相关信息，上述历史信息包括用户检索过的历史问题和历史检索时间，上述相似度数值可以理解为用户检索过的问题与候选标准问题之间的相似度值。

那么，状态空间可以定义为：

s＝(user_info，input_time，history，similarity)

其中，s表征精排应答模块的状态空间，user_info表征用户信息，input_time表征输入时间、history表征历史信息，similarity表征相似度数值。应理解，为了方便模精排应答模块进行特征处理，将上述用户信息、输入时间、历史信息和相似度数值进行归一化处理。

动作空间：

基于候选标准问题与待检索问题之间的相似度数值对候选标准问题进行排序。

奖励函数：

基于人工经验设定每个候选标准问题对应的奖励函数，以此调整候选标准问题的排序。

模型框架：

使用深度增强学习(Proximal Policy Optimization，PPO)算法对应的模型框架在数据库中查询待检索问题对应的候选标准问题，并对候选标准问题进行排序。

然而，在上述粗排阶段中，如若想要增加从数据库中召回的候选标准问题的数量，则需要增加向量维度，导致语义检索效率降低。在上述精排阶段中，智能问答系统检索到的标准问题与待检索问题不匹配，智能问答系统检索到的标准问题的准确率较低。

为了解决上述可能存在的技术问题，本发明提供了一种标准问题的确定方法，下面将结合附图及具体实施例进行详细描述。

请参见图3，图3是本发明实施例提供的标准问题的确定方法的流程示意图。本发明实施例提供的标准问题的确定方法包括以下步骤：

步骤101，在接收到待检索问题的情况下，确定与所述待检索问题对应的标准问题候选集。

本步骤中，接收用户输入的待检索问题。其中，用户可以通过触控输入的方式输入待检索问题，例如用户在智能问答系统显示的输入栏中输入待检索问题，或者，用户也可以通过语音输入的方式输入待检索问题。应理解，上述待检索问题至少包括一个字段。

在接收到待检索问题的情况下，通过在数据库中对该待检索问题进行查询，得到该待检索问题对应的标准问题候选集。其中，上述标准问题候选集包括N条候选标准问题，N为正整数。具体的如何确定标准问题候选集的技术方案，请参阅后续实施例。

步骤102，基于每条候选标准问题与所述待检索问题之间的相似度值，以及所述每条候选标准问题对应的权重值，对N条候选标准问题进行排序。

本步骤中，在得到标准问题候选集后，计算标准问题候选集中每条候选标准问题与所述待检索问题之间的相似度值，以及基于用户对待检索问题的操作行为确定每条候选标准问题对应的权重值。应理解，上述候选标准问题对应的相似度值和权重值与对该候选标准问题对应的语义向量使用奖励函数得到的奖励值相关。

进一步的，基于该候选标准问题对应的相似度值和权重值，对标准问题候选集中的N条候选标准问题进行排序。

在一种可选地实施方式中，可以按照候选标准问题对应的目标数值从高到底的属性对N条候选标准问题进行排序。其中，目标数值可以理解为候选标准问题对应的相似度值与权重值之间的乘积。

在另一种可选地实施方式中，可以按照候选标准问题对应的目标数值从低到高的属性对N条候选标准问题进行排序。

步骤103，按照所述N条候选标准问题的排列顺序，将所述N条候选标准问题中的前M条或后M条候选标准问题确定为目标标准问题。

本步骤中，在对N条候选标准问题进行排序后，一种可选地实施方式为，在按照候选标准问题对应的目标数值从高到低排序的情况下，表示排序靠前的候选标准问题与待检索问题相似度较高，具备强相关性，则可以将N条候选标准问题中的前M条候选标准问题确定为目标标准问题。

另一种可选地实施方式为，在按照候选标准问题对应的目标数值从低到高排序的情况下，表示排序靠后的候选标准问题与待检索问题相似度较高，具备强相关性，则可以将N条候选标准问题中的后M条候选标准问题确定为目标标准问题。其中，M为小于或等于N的正整数。

以下，具体阐述如何在粗排阶段确定标准问题候选集：

可选地，所述确定与所述待检索问题对应的标准问题候选集包括：

对所述待检索问题进行语义分析，得到第一语义向量；

使用预设的分类模型对所述第一语义向量进行分类，得到与所述待检索问题的类别关联的索引文件；

在预设的数据库中对所述索引文件进行倒排索引处理和向量索引处理，得到N条候选标准问题。

为便于理解，请参阅图4，图4示出的是粗排召回模块的模型框架。如图4所示，使用Sentence BERT模型对预先存储的标准问题进行语义分析，得到语义特征；使用聚类模型对上述语义特征进行聚类处理，根据不同的类别创建不同的索引文件。其中，上述聚类模型可以是K-means模型。

在接收到待检索问题后，使用Sentence BERT模型对该待检索问题进行语义分析，得到第一语义向量；进一步的，使用分类模型依据标准问题对应的类别对第一语义向量进行分类，并确定不同类别的待检索问题对应的索引文件。

例如，标准问题的类别为时间，该标准问题的类别对应的索引文件为K1，待检索问题为“业务办理时间是多少？”，则可以将该待检索问题的类别对应的索引文件确定为K1。

在得到索引文件后，在预设的数据库中对索引文件进行倒排索引处理和向量索引处理，得到N条候选标准问题。其中，数据库中存储有索引文件和候选标准问题之间的映射关系。

如图4所示，上述数据库可以是Elasticsearch搜索服务器，调用Elasticsearch对索引文件进行文本召回处理和向量召回处理，得到N条候选标准问题。

本实施例中，通过对索引文件进行倒排索引处理和向量索引处理，在不增加语义向量的维度的情况下，增加召回的候选标准问题的数量，以此提高智能问答系统检索到的标准问题的准确性。

可选地，所述基于每条候选标准问题与所述待检索问题之间的相似度值，以及所述每条候选标准问题对应的权重值，对所述N条候选标准问题进行排序包括：

对于任意一条候选标准问题，对所述候选标准问题进行语义分析，得到第二语义向量；

计算第一语义向量和所述第二语义向量之间的相似度值；

将所述相似度值和所述候选标准问题对应的权重值之间的乘积结果，确定为所述候选标准问题对应的目标数值；

按照每条候选标准问题对应的目标数值从大至小的顺序，对N条候选标准问题进行排序。

本实施例中，对于任意一条候选标准问题，可以使用Sentence BERT模型对该候选标准问题进行语义分析，得到第二语义向量。进一步的，计算第一语义向量和第二语义向量之间的相似度值，得到该候选标准问题对应的相似度值。

在得到候选标准问题对应的相似度值后，可以将相似度值和候选标准问题对应的权重值之间的乘积结果，确定为候选标准问题对应的目标数值。应理解，本实施例涉及的精排应答模块新增了点击奖励函数，基于人工经验设定的奖励函数和点击奖励函数调整候选标准问题的排序。

具体而言，奖励函数可以通过以下公式表示：

R(s,a,s')＝R₀(s,a,s')+Φ_clk(s)

其中，s表示本申请实施例提供的智能问答系统中精排应答模块的状态空间，s’表示本申请实施例提供的智能问答系统中精排应答模块在响应奖励函数之后的状态空间，a表示本申请实施例提供的智能问答系统中精排应答模块的动作空间；R(s,a,s')的值为候选标准问题对应的目标数值，Φ_clk(s)表示新增的点击奖励函数，R0(s,a,s')表示预设的初始奖励函数，y_i∈{0,1}，可选地，在第i个候选标准问题是用户想要检索的问题的情况下，y_i＝1，在第i个候选标准问题不是用户想要检索的问题的情况下，y_i＝0；

表示第i个候选标准问题相似度值，v_θ(s)表征权重值。其中，上述权重值与用户操作行为用户操作行为确定。

示例性的，在用户输入待检索问题的过程中，智能问答系统显示该待检索问题对应的目标标准问题，若用户对该目标标准问题对应的选项执行触控操作，即上述目标标准问题是用户想要检索的问题，则将该目标数值确定为0.5。在目标标准问题的目标数值为正数的情况下，相当于给精排召回模型正奖励，以此训练精排召回模型。

示例性的，若用户连续输入相同的待检索问题，表示智能问答系统推荐的目标标准问题不是用户想要检索的问题，这种情况下，将目标数值确定为-0.5，相当于给精排召回模型负奖励，使得精排召回模型重新确定目标标准问题。

请参阅图5，图5示出的是现有的PPO算法对应的模型框架，即现有的精排应答模块的示意图。

本实施例在现有的PPO算法对应的模型框架的基础上，在LTR网络中新增了一个loss层。请参阅图6，图6示出的是在LTR网络中增加loss层后，精排应答模块的模块示意图。其中，LTR网络中的loss层对原有的Actor网络的输出再次进行调整，调整候选标准问题的排列顺序，以提高智能问答系统检索标准问题的准确性。

其中，该loss层的交叉熵损失函数可以通过以下公式表示：

其中，L表示交叉熵损失函数值，σ(a^Tx_i)为1/1+exp(σ(a^Tx_i)，a^T表示权重值，a^Tx_i表示相似度值，n表示候选标准问题的数量，y_i∈{0,1}，可选地，在第i个候选标准问题是用户想要检索的问题的情况下，y_i＝1，在第i个候选标准问题不是用户想要检索的问题的情况下，y_i＝0。

可选地，所述对所述N条候选标准问题进行排序之后，所述方法还包括：

在接收到对所述N条候选标准问题的目标操作的情况下，更新每条候选标准问题对应的权重值；

基于每条候选标准问题对应的相似度值和更新后的权重值，对所述N条候选标准问题进行重排序。

本实施例中，若智能问答系统在检索标准问题的过程中，接收到用户对N条候选标准问题的目标操作的情况下，则基于该目标操作，更新每条候选标准问题对应的权重值，并基于每条候选标准问题对应的相似度值和更新后的权重值，对上述N条候选标准问题进行重排序。其中，上述目标操作可以是用户的输入操作。

例如，用户想要输入的待检索问题为“业务办理时间是多少”，当用户输入“业务”这2个字符时，智能问答系统依次显示的目标标准问题为“业务办理地点在哪”、“业务办理流程是什么”和“业务办理时间是多少”。当用户继续输入“办理时间”这4个字符时，智能问答系统则基于用户的输入操作，对N条候选标准问题进行重排序，依次显示目标标准问题“业务办理时间是多少”、“业务办理地点在哪”、“业务办理流程是什么”。

请参阅图7，如图7所示，智能问答系统与用户进行交互的流程通常为：智能问答系统接收状态信息，上述状态信息包括用户信息、用户输入的待检索问题对应的第一语义向量以及待检索问题的上下文信息，精排召回模型对上述状态信息进行分析后，对N条候选标准问题进行排序，进而显示目标标准问题。进一步的，智能问答系统将用户对该目标标准问题的操作行为反馈至精排召回模型，以使得精排召回模型对N条候选标准问题进行重排序。

参见图8，图8是本发明实施例提供的标准问题的确定装置的结构示意图。如图8所示，标准问题的确定装置200包括：

第一确定模块201，用于在接收到待检索问题的情况下，确定与所述待检索问题对应的标准问题候选集；

排序模块202，用于基于每条候选标准问题与所述待检索问题之间的相似度值，以及所述每条候选标准问题对应的权重值，对所述N条候选标准问题进行排序；

第二确定模块203，用于按照所述N条候选标准问题的排列顺序，将所述N条候选标准问题中的前M条或后M条候选标准问题确定为目标标准问题。

可选地，所述第一确定模块201，具体用于：

对所述待检索问题进行语义分析，得到第一语义向量；

可选地，所述排序模块202，具体用于：

计算第一语义向量和所述第二语义向量之间的相似度值；

可选地，所述标准问题的确定装置200还包括：

更新模块，用于在接收到对所述N条候选标准问题的目标操作的情况下，更新每条候选标准问题对应的权重值；

重排序模块，用于基于每条候选标准问题对应的相似度值和更新后的权重值，对所述N条候选标准问题进行重排序。

标准问题的确定装置200能够实现本发明实施例中图3方法实施例的各个过程，以及达到相同的有益效果，为避免重复，这里不再赘述。

本发明实施例还提供一种电子设备。请参见图9，电子设备可以包括处理器301、存储器302及存储在存储器302上并可在处理器301上运行的程序3021。

在电子设备为标准问题的确定装置的情况下，程序3021被处理器301执行时可实现图3对应的方法实施例中的任意步骤及达到相同的有益效果，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法的全部或者部分步骤是可以通过程序指令相关的硬件来完成，所述的程序可以存储于一可读取介质中。

本发明实施例还提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时可实现上述图3对应的方法实施例中的任意步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

所述的存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

以上所述是本发明实施例的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种标准问题的确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定与所述待检索问题对应的标准问题候选集包括：

对所述待检索问题进行语义分析，得到第一语义向量；

在预设的数据库中对所述索引文件进行倒排索引处理和向量索引处理，得到N条候选标准问题；所述数据库中存储有所述索引文件和所述候选标准问题之间的映射关系。

3.根据权利要求1所述的方法，其特征在于，所述基于每条候选标准问题与所述待检索问题之间的相似度值，以及所述每条候选标准问题对应的权重值，对所述N条候选标准问题进行排序包括：

计算第一语义向量和所述第二语义向量之间的相似度值；所述第一语义向量基于对所述待检索问题进行语义分析得到；

4.根据权利要求1所述的方法，其特征在于，所述对所述N条候选标准问题进行排序之后，所述方法还包括：

5.一种标准问题的确定装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述第一确定模块，具体用于：

对所述待检索问题进行语义分析，得到第一语义向量；

7.根据权利要求5所述的装置，其特征在于，所述排序模块，具体用于：

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

9.一种电子设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，所述处理器，用于读取存储器中的程序实现如权利要求1至4中任一项所述的标准问题的确定方法中的步骤。

10.一种可读存储介质，用于存储程序，其特征在于，所述程序被处理器执行时实现如权利要求1至4中任一项所述的标准问题的确定方法中的步骤。