CN115858742A

CN115858742A - 问题文本扩充方法、装置、设备及存储介质

Info

Publication number: CN115858742A
Application number: CN202211073548.XA
Authority: CN
Inventors: 李可新; 曲本盛; 杜斌; 钟磊
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2023-03-28

Abstract

本发明公开了一种问题文本扩充方法、装置、设备及存储介质。该问题文本扩充方法包括：获取目标问答场景及其标准问题文本、历史问题文本；根据所述目标问答场景和所述标准问题文本获取关键词表，根据所述关键词表和所述历史问题文本得到关键词扩充问题文本；根据所述标准问题文本和所述历史问题文本，得到语义扩充问题文本；对所述关键词扩充问题文本和所述语义扩充问题文本进行审核，得到扩充问题文本。本发明能够实现标准问题文本的智能扩充，提高扩充效率、节省成本。

Description

问题文本扩充方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种问题文本扩充方法、装置、设备及存储介质。

背景技术

在基于问答对的问答系统任务中，配置“问答对”是保障系统合理运行的重要环节，我们将这些配置好的问题称为“标准问”。在使用中，预先配置的问题，即标准问都会存储在数据库中，用户的问题经过与标准问的匹配可以使系统辨别该问题是否为预先设置好的问题内容；如果是，会通过配置好的问答对，直接向用户返回其问题的答案。

目前，主要是通过人工编写的方式进行“标准问”的扩充，其成本高、且效率低。

发明内容

本发明的主要目的在于提供一种问题文本扩充方法、装置、设备及存储介质，旨在解决问题文本扩充方式不智能、成本高且效率低的问题。

为实现上述目的，本发明提供一种问题文本扩充方法，所述问题文本扩充方法包括：

获取目标问答场景及其标准问题文本、历史问题文本；

根据所述目标问答场景和所述标准问题文本获取关键词表，根据所述关键词表和所述历史问题文本得到关键词扩充问题文本；

根据所述标准问题文本和所述历史问题文本，得到语义扩充问题文本；

对所述关键词扩充问题文本和所述语义扩充问题文本进行审核，得到扩充问题文本。

优选地，所述根据所述目标问答场景和所述标准问题文本获取关键词表的步骤包括：

获取所述目标问答场景对应的第一关键词；

提取所述标准问题文本的第二关键词；其中，关键词表包括所述第一关键词和所述第二关键词。

优选地，所述根据所述关键词表和所述历史问题文本得到关键词扩充问题文本的步骤包括：

对所述历史问题文本进行词向量训练，得到历史问题文本中各分词对应的词向量；

根据所述词向量从所述分词中搜索与所述关键词表相似的词，得到扩充关键词；

从所述历史问题文本中筛选包含所述扩充关键词的文本，得到关键词扩充文本。

优选地，所述根据所述标准问题文本和所述历史问题文本，得到语义扩充问题文本的步骤包括：

将所述标准问题文本输入至文本语义向量模型，得到第一文本向量；

将所述历史问题文本输入至文本语义向量模型，得到第二文本向量；

计算各第二文本向量与所述第一文本向量的相似度，根据所述相似度从所述历史问题文本中筛选得到语义扩充问题文本。

优选地，所述根据所述相似度从所述历史问题文本中筛选得到语义扩充问题文本的步骤包括：

获取所述目标问答场景对应的目标搜索数量；

对所述相似度按从高到低的顺序进行排序，根据排序结果和所述目标搜索数量获取目标相似度；

将所述目标相似度对应的历史问题文本作为语义扩充问题文本。

优选地，所述对所述关键词扩充问题文本和所述语义扩充问题文本进行审核，得到扩充问题文本的步骤包括：。

将所述关键词扩充问题文本和所述语义扩充问题文本进行显示，以供审核人进行审核；

获取审核结果，根据所述审核结果得到扩充问题文本。

此外，为实现上述目的，本发明还提供一种问题文本扩充装置，所述问题文本扩充装置包括：

第一获取模块，用于获取目标问答场景及其标准问题文本、历史问题文本；

第一扩充模块，用于根据所述目标问答场景和所述标准问题文本获取关键词表，根据所述关键词表和所述历史问题文本得到关键词扩充问题文本；

第二扩充模块，用于根据所述标准问题文本和所述历史问题文本，得到语义扩充问题文本；

文本审核模块，用于对所述关键词扩充问题文本和所述语义扩充问题文本进行审核，得到扩充问题文本。

此外，为实现上述目的，本发明还提供一种问题文本扩充设备，所述问题文本扩充设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的问题文本扩充方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的问题文本扩充方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上所述的问题文本扩充方法的步骤。

本发明提供一种问题文本扩充方法、装置、设备、存储介质及产品，先获取目标问答场景及其标准问题文本、历史问题文本；然后，根据目标问答场景和标准问题文本获取关键词表，根据关键词表和历史问题文本得到关键词扩充问题文本；同时，根据标准问题文本和历史问题文本，得到语义扩充问题文本；最后，对关键词扩充问题文本和语义扩充问题文本进行审核，得到扩充问题文本。本发明可实现标准问题文本的自动扩充，相比于现有技术中人工进行扩充，可大大节省人工成本，提高效率。此外，本发明通过关键词匹配和语义检索的方式，从语言形式和语言内容两方面进行相似问题的扩充，可以更全面地挖掘历史问题文本中的相似问，有效缓解现有人工扩充覆盖率低的问题。同时，由于问题扩充数据来源于历史问题文本，即历史真实场景的沟通，因而上述扩充更符合用户群的表达，能更好地适应真实业务场景，进而提升用户问题识别的准确性，提高下游任务的性能。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明问题文本扩充方法第一实施例的流程示意图；

图3为本发明问题文本扩充装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例问题文本扩充设备可以是服务器，也可以是PC(PersonalComputer，个人计算机)、平板电脑、便携计算机等终端设备。

如图1所示，该问题文本扩充设备可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的问题文本扩充设备结构并不构成对问题文本扩充设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的计算机程序，并执行以下操作：

获取目标问答场景及其标准问题文本、历史问题文本；

进一步地，处理器1001可以调用存储器1005中存储的计算机程序，还执行以下操作：

获取所述目标问答场景对应的第一关键词；

获取所述目标问答场景对应的目标搜索数量；

获取审核结果，根据所述审核结果得到扩充问题文本。

基于上述硬件结构，提出本发明问题文本扩充方法的各实施例。

本发明提供一种问题文本扩充方法。

参照图2，图2为本发明问题文本扩充方法第一实施例的流程示意图。

在本实施例中，该问题文本扩充方法包括：

步骤S10，获取目标问答场景及其标准问题文本、历史问题文本；

本实施例的问题文本扩充方法是由问题文本扩充设备实现的，该设备可以是服务器，也可以是PC(Personal Computer，个人计算机)、平板电脑、便携计算机等终端设备。

在本实施例中，首先获取目标问答场景及其标准问题文本、历史问题文本。其中，标准问题文本即为“标准问”对应的文本，而历史问题文本即为历史积累的对话文本数据中的问题部分所对应的文本。

步骤S20，根据所述目标问答场景和所述标准问题文本获取关键词表，根据所述关键词表和所述历史问题文本得到关键词扩充问题文本；

然后，根据目标问答场景和标准问题文本获取关键词表，根据关键词表和历史问题文本得到关键词扩充问题文本，以通过关键词匹配的方式，从语言形式这一方面进行相似问题的扩充。具体的，先获取目标问答场景对应的第一关键词，并提取标准问题文本的第二关键词，根据第一关键词和第二关键词形成关键词表。然后，对历史问题文本进行词向量训练，得到历史问题文本中各分词对应的词向量，进而根据词向量从分词中搜索与关键词表相似的词，得到扩充关键词，最后从历史问题文本中筛选包含扩充关键词的文本，得到关键词扩充文本。具体的执行过程可参照下述第二实施例，此处不作赘述。

步骤S30，根据所述标准问题文本和所述历史问题文本，得到语义扩充问题文本。

根据所述标准问题文本和所述历史问题文本，得到语义扩充问题文本，以通过语义搜索的方式，从语言内容这一方面进行相似问题的扩充。具体的，先将标准问题文本输入至文本语义向量模型，得到第一文本向量，并将历史问题文本输入至文本语义向量模型，得到第二文本向量；然后，计算各第二文本向量与第一文本向量的相似度，获取目标问答场景对应的目标搜索数量，进而对相似度按从高到低的顺序进行排序，根据排序结果和目标搜索数量获取目标相似度；最后，将目标相似度对应的历史问题文本作为语义扩充问题文本。具体的执行过程可参照下述第三实施例，此处不作赘述。

步骤S40，对所述关键词扩充问题文本和所述语义扩充问题文本进行审核，得到扩充问题文本。

在得到关键词扩充问题文本和语义扩充问题文本后，对关键词扩充问题文本和语义扩充问题文本进行审核，得到扩充问题文本。

具体的，步骤S40可以包括：

步骤a41，将所述关键词扩充问题文本和所述语义扩充问题文本进行显示，以供审核人进行审核；

步骤a42，获取审核结果，根据所述审核结果得到扩充问题文本。

由于筛选可能存在一定的误差，故在扩充得到关键词扩充问题文本和语义扩充问题文本之后，将关键词扩充问题文本和语义扩充问题文本进行显示，以供审核人进行审核与调整，剔除模型勿召回的文本，进而反馈审核结果；在获取到审核结果后，根据审核结果确定得到最终的扩充问题文本。审核人在审核时，只需要判断是否与标准问题文本是否相似即可，或者进行简单调整即可。

进一步地，当历史问题文本有更新时，可自动通过上述步骤挖掘出更多的相似问题，进而实现标准问题文本的进一步扩充。

本发明实施例提供一种问题文本扩充方法，先获取目标问答场景及其标准问题文本、历史问题文本；然后，根据目标问答场景和标准问题文本获取关键词表，根据关键词表和历史问题文本得到关键词扩充问题文本；同时，根据标准问题文本和历史问题文本，得到语义扩充问题文本；最后，对关键词扩充问题文本和语义扩充问题文本进行审核，得到扩充问题文本。本发明可实现标准问题文本的自动扩充，相比于现有技术中人工进行扩充，可大大节省人工成本，提高效率。此外，本发明通过关键词匹配和语义检索的方式，从语言形式和语言内容两方面进行相似问题的扩充，可以更全面地挖掘历史问题文本中的相似问，有效缓解现有人工扩充覆盖率低的问题。同时，由于问题扩充数据来源于历史问题文本，即历史真实场景的沟通，因而上述扩充更符合用户群的表达，能更好地适应真实业务场景，进而提升用户问题识别的准确性，提高下游任务的性能。

进一步地，基于上述第一实施例，提出本发明问题文本扩充方法的第二实施例。

在本实施例中，上述步骤S20中，“根据所述目标问答场景和所述标准问题文本获取关键词表”的步骤包括：

步骤a21，获取所述目标问答场景对应的第一关键词；

步骤a22，提取所述标准问题文本的第二关键词；其中，关键词表包括所述第一关键词和所述第二关键词；

在本实施例中，通过关键词匹配进行扩充，得到关键词扩充问题文本的过程具体如下：

先获取目标问答场景对应的关键词，记作第一关键词。具体的，可预先设置不同问答场景的关键词，形成映射关系，进而根据该映射关系确定目标问答场景所对应的第一关键词。

然后，提取标准问题文本的第二关键词，根据第一关键词和第二关键词形成关键词表。

进一步地，上述步骤S20中，“根据所述关键词表和所述历史问题文本得到关键词扩充问题文本”的步骤包括：

步骤a23，对所述历史问题文本进行词向量训练，得到历史问题文本中各分词对应的词向量；

步骤a24，根据所述词向量从所述分词中搜索与所述关键词表相似的词，得到扩充关键词；

步骤a25，从所述历史问题文本中筛选包含所述扩充关键词的文本，得到关键词扩充文本。

在确定得到关键词表后，对历史问题文本进行word2vector(用来产生词向量的相关模型)词向量训练，得到历史问题文本中各分词对应的词向量。进行词向量训练，是为了形成更符合业务语境的词向量表示，此训练过程是为了使得特定业务场景下的含义相似词的向量之间距离较近；通用的词向量因为是用大量不同场景的数据进行训练的，因此在特定语境中某些词的相似关系无法准确表达。在得到历史问题文本中各分词对应的词向量之后，根据词向量从分词中搜索与关键词表相似的词，得到扩充关键词，通过扩充关键词，从历史问题文本中筛选包含扩充关键词的文本，得到关键词扩充文本。

本实施例中，通过上述关键词匹配方式，可从历史问题文本中获取到包含与目标问答场景相关关键词表相似度较高的关键词的问题文本形成关键词扩充问题文本，作为其中一部分候选，进而用于对“标准问”进行扩充。上述方式，无需人工扩充，可节省人力成本，提高扩充效率，且本部分的扩充是基于历史问题文本得到的，可提升后续用户问题识别的准确性，进而提高下游任务的性能。

进一步地，基于上述第一实施例，提出本发明问题文本扩充方法的第三实施例。

在本实施例中，上述步骤S30可以包括：

步骤a31，将所述标准问题文本输入至文本语义向量模型，得到第一文本向量；

步骤a32，将所述历史问题文本输入至文本语义向量模型，得到第二文本向量；

需要说明的是，步骤a31与步骤a32的执行顺序不分先后。

在本实施例中，通过语义搜索进行扩充，得到语义扩充问题文本的过程具体如下：

先将标准问题文本输入至文本语义向量模型，得到标准问题文本对应的文本向量，记作第一文本向量；同时，将历史问题文本输入至文本语义向量模型，得到历史问题文本对应的文本向量，记作第二文本向量。可以理解，若历史问题文本包括多条，则对应输出多条第二文本向量。

其中，文本语义向量模型可以采用现有的模型算法，如基于NLP(NaturalLanguage Processing，自然语言处理)算法、bert(Bidirectional EncoderRepresentations from Transformer，基于Transformer的双向编码器表示)模型、TF-IDF(term frequency–inverse document frequency，词频-逆文本频率指数)算法等，也可以基于训练样本数据预先训练得到。

步骤a33，计算各第二文本向量与所述第一文本向量的相似度，根据所述相似度从所述历史问题文本中筛选得到语义扩充问题文本。

在得到标准问题文本对应的第一文本向量和历史问题文本对应的第二文本向量之后，计算各第二文本向量与第一文本向量的相似度，进而根据相似度从历史问题文本中筛选得到语义扩充问题文本。

进一步地，步骤“根据所述相似度从所述历史问题文本中筛选得到语义扩充问题文本”包括：

步骤a331，获取所述目标问答场景对应的目标搜索数量；

步骤a332，对所述相似度按从高到低的顺序进行排序，根据排序结果和所述目标搜索数量获取目标相似度；

步骤a333，将所述目标相似度对应的历史问题文本作为语义扩充问题文本。

具体的，可预先自定义每一类问答场景的相似问搜索数量，在搜索确定语义扩充问题文本时，可先获取目标问答场景对应的目标搜索数量K，然后，对相似度按从高到低的顺序进行排序，根据排序结果和目标搜索数量获取目标相似度，即选择相似度排在前K个的作为目标相似度。最后，将目标相似度对应的历史问题文本作为语义扩充问题文本。

本实施例中，通过上述语义搜索的方式，可从历史问题文本中获取到与标准问题文本(即“标准问”)相似度较高的问题文本形成语义扩充问题文本，作为另一部分候选，进而用于对“标准问”进行扩充。上述方式，无需人工扩充，可节省人力成本，提高扩充效率，且本部分的扩充是基于历史问题文本得到的，可提升后续用户问题识别的准确性，进而提高下游任务的性能。

本发明还提供一种问题文本扩充装置。

参照图3，图3为本发明问题文本扩充装置第一实施例的功能模块示意图。

如图3所示，所述问题文本扩充装置包括：

第一获取模块10，用于获取目标问答场景及其标准问题文本、历史问题文本；

第一扩充模块20，用于根据所述目标问答场景和所述标准问题文本获取关键词表，根据所述关键词表和所述历史问题文本得到关键词扩充问题文本；

第二扩充模块30，用于根据所述标准问题文本和所述历史问题文本，得到语义扩充问题文本；

文本审核模块40，用于对所述关键词扩充问题文本和所述语义扩充问题文本进行审核，得到扩充问题文本。

进一步地，所述第一扩充模块20包括：

第一获取单元，用于获取所述目标问答场景对应的第一关键词；

第一提取单元，用于提取所述标准问题文本的第二关键词；其中，关键词表包括所述第一关键词和所述第二关键词。

进一步地，所述第一扩充模块20还包括：

第二获取单元，用于对所述历史问题文本进行词向量训练，得到历史问题文本中各分词对应的词向量；

关键词搜索单元，用于根据所述词向量从所述分词中搜索与所述关键词表相似的词，得到扩充关键词；

第一筛选单元，用于从所述历史问题文本中筛选包含所述扩充关键词的文本，得到关键词扩充文本。

进一步地，所述第二扩充模块30包括：

第一输入单元，用于将所述标准问题文本输入至文本语义向量模型，得到第一文本向量；

第二输入单元，用于将所述历史问题文本输入至文本语义向量模型，得到第二文本向量；

第二筛选单元，用于计算各第二文本向量与所述第一文本向量的相似度，根据所述相似度从所述历史问题文本中筛选得到语义扩充问题文本。

进一步地，所述第二筛选单元具体包括：

获取所述目标问答场景对应的目标搜索数量；

进一步地，所述文本审核模块40包括：

文本显示单元，用于将所述关键词扩充问题文本和所述语义扩充问题文本进行显示，以供审核人进行审核；

文本确定单元，用于获取审核结果，根据所述审核结果得到扩充问题文本。

其中，上述问题文本扩充装置中各个模块的功能实现与上述问题文本扩充方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如以上任一项实施例所述的问题文本扩充方法的步骤。

本发明计算机可读存储介质的具体实施例与上述问题文本扩充方法各实施例基本相同，在此不作赘述。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如以上任一项所述的问题文本扩充方法的步骤。

本发明计算机程序产品的具体实施例与上述问题文本扩充方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种问题文本扩充方法，其特征在于，所述问题文本扩充方法包括：

获取目标问答场景及其标准问题文本、历史问题文本；

2.如权利要求1所述的问题文本扩充方法，其特征在于，所述根据所述目标问答场景和所述标准问题文本获取关键词表的步骤包括：

获取所述目标问答场景对应的第一关键词；

3.如权利要求2所述的问题文本扩充方法，其特征在于，所述根据所述关键词表和所述历史问题文本得到关键词扩充问题文本的步骤包括：

4.如权利要求1所述的问题文本扩充方法，其特征在于，所述根据所述标准问题文本和所述历史问题文本，得到语义扩充问题文本的步骤包括：

5.如权利要求4所述的问题文本扩充方法，其特征在于，所述根据所述相似度从所述历史问题文本中筛选得到语义扩充问题文本的步骤包括：

获取所述目标问答场景对应的目标搜索数量；

6.如权利要求1至5中任一项所述的问题文本扩充方法，其特征在于，所述对所述关键词扩充问题文本和所述语义扩充问题文本进行审核，得到扩充问题文本的步骤包括：

获取审核结果，根据所述审核结果得到扩充问题文本。

7.一种问题文本扩充装置，其特征在于，所述问题文本扩充装置包括：

8.一种问题文本扩充设备，其特征在于，所述问题文本扩充设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的问题文本扩充方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的问题文本扩充方法的步骤。