CN116775875A

CN116775875A - 问题语料库构建方法和装置、问答方法、设备及存储介质

Info

Publication number: CN116775875A
Application number: CN202310743299.9A
Authority: CN
Inventors: 马龙; 文竹
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-09-19

Abstract

本申请实施例提供了一种问题语料库构建方法和装置、问答方法、设备及存储介质，属于金融科技技术领域。该方法包括：获取目标问题文本数据；根据预设的目标文本表示模型对目标问题文本数据进行向量转换，得到目标文本向量；根据预设的目标聚类模型对目标文本向量进行文本聚类处理，得到目标文本簇；其中，目标文本簇包括目标文本聚类向量；对目标文本聚类向量进行池化处理，得到目标文本簇的目标文本中心向量；对目标文本中心向量进行归一化处理，得到目标文本簇的目标聚类标签；其中，目标聚类标签用于表征目标文本簇的语义类别；根据目标聚类标签和目标文本簇构建问题语料库。本申请实施例能够提高构建问题语料库的准确性。

Description

问题语料库构建方法和装置、问答方法、设备及存储介质

技术领域

本申请涉及金融科技技术领域，尤其涉及一种问题语料库构建方法和装置、问答方法、设备及存储介质。

背景技术

文本聚类，是指将语义相似的文本归为一类，并达到类内相似性最大，类间相似性最小的聚类效果，文本聚类方法可以用于构建问答助手的语料库。由于文本聚类方法为无监督的机器学习方法，即无法根据监督信号进行反馈学习，从而在一些场景中容易出现聚类效果不好的现象，例如在根据文本聚类方法对金融场景中问答助手的语料库进行构建时，容易出现语料库中各语料聚类有误的现象，从而对问答操作造成影响，如对应于保险咨询的语料库中包含保险理赔的语料。因此，如何提高根据文本聚类方法构建语料库的准确性，成了亟待解决的技术问题。

发明内容

本申请实施例的主要目的在于提出一种问题语料库构建方法和装置、问答方法、设备及存储介质，旨在提高构建问题语料库的准确性。

为实现上述目的，本申请实施例的第一方面提出了一种问题语料库构建方法，所述方法包括：

获取目标问题文本数据；

根据预设的目标文本表示模型对所述目标问题文本数据进行向量转换，得到目标文本向量；

根据预设的目标聚类模型对所述目标文本向量进行文本聚类处理，得到目标文本簇；其中，所述目标文本簇包括目标文本聚类向量；

对所述目标文本聚类向量进行池化处理，得到所述目标文本簇的目标文本中心向量；

对所述目标文本中心向量进行归一化处理，得到所述目标文本簇的目标聚类标签；其中，所述目标聚类标签用于表征所述目标文本簇的语义类别；

根据所述目标聚类标签和所述目标文本簇构建问题语料库。

在一些实施例，在所述根据预设的目标文本表示模型对所述目标问题文本数据进行向量转换，得到目标文本向量之前，所述方法还包括训练所述目标文本表示模型，具体包括：

获取具有原始聚类标签的原始文本簇；其中，所述原始聚类标签用于表征所述原始文本簇的语义类别，所述原始文本簇包括原始问题文本数据；

根据预设的原始文本表示模型对所述原始问题文本数据进行向量转换，得到样本文本向量；

根据预设的原始聚类模型对所述样本文本向量进行文本聚类处理，得到样本文本簇；其中，所述样本文本簇包括样本文本聚类向量；

对所述样本文本聚类向量进行池化处理，得到所述样本文本簇的样本文本中心向量；

对所述样本文本中心向量进行归一化处理，得到所述样本文本簇的样本聚类标签；其中，样本聚类标签用于表征所述样本文本簇的语义类别；

根据所述样本聚类标签、所述原始聚类标签对所述原始文本表示模型进行参数调整，得到所述目标文本表示模型。

在一些实施例，所述训练所述目标文本表示模型还包括对所述目标文本表示模型进行训练，具体包括：

根据所述样本聚类标签、所述原始聚类标签、所述原始问题文本数据进行聚类准确度计算，得到聚类准确值；

根据所述聚类准确值对所述原始聚类模型进行模型参数调整，得到初始聚类模型；

根据预设的目标文本表示模型对所述原始问题文本数据进行向量转换，得到训练文本向量；

根据所述初始聚类模型对所述训练文本向量进行文本聚类处理，得到训练样本文本簇；

根据所述训练样本文本簇对所述目标文本表示模型进行训练，直至所述聚类准确值等于预设准确阈值。

在一些实施例，所述根据所述聚类准确值对所述原始聚类模型进行模型参数调整，得到初始聚类模型，包括：

将所述聚类准确值与所述预设准确阈值进行比较，得到比较结果；

若所述比较结果表示所述聚类准确值小于所述预设准确阈值，则将所述样本文本中心向量作为所述原始聚类模型的中心向量，得到所述初始聚类模型。

在一些实施例，所述根据预设的原始聚类模型对所述样本文本向量进行文本聚类处理，得到样本文本簇，包括：

根据预设的簇数量对所述样本文本向量进行中心向量选取，得到原始文本中心向量；

根据所述原始文本中心向量对所述样本文本向量进行向量筛选，得到候选文本向量；

将所述候选文本向量与所述原始文本中心向量进行相似度计算，得到相似度值；

将数值最小的相似度值作为关键值，将关键值的原始文本中心向量作为关键文本中心向量，根据所述关键文本中心向量和所述候选文本向量得到所述样本文本簇。

在一些实施例，所述目标文本表示模型包括编码层和向量表示层；

所述根据预设的目标文本表示模型对所述目标问题文本数据进行向量转换，得到目标文本向量，包括：

根据所述编码层对所述目标问题文本数据进行向量转换，得到初始文本向量；

根据所述向量表示层对所述初始文本向量进行语义融合处理，得到所述目标文本向量。

为实现上述目的，本申请实施例的第二方面提出了一种问答方法，所述方法包括：

获取待解答文本数据；

将所述待解答文本数据与预设问题语料库中的目标文本簇进行语义匹配，得到匹配结果；其中，所述预设问题语料库为根据第一方面所述的方法构建得到；

将所述匹配结果表示语义匹配的所述目标文本簇作为关键文本簇；

根据所述关键文本簇从预设的原始答案文本簇筛选得到关键答案文本簇；

根据所述关键答案文本簇进行答复处理，得到所述待解答文本数据的答案文本数据。

为实现上述目的，本申请实施例的第三方面提出了一种问题语料库构建装置，所述装置包括：

数据获取模块，用于获取目标问题文本数据；

向量转换模块，用于根据预设的目标文本表示模型对所述目标问题文本数据进行向量转换，得到目标文本向量；

文本聚类模块，用于根据预设的目标聚类模型对所述目标文本向量进行文本聚类处理，得到目标文本簇；其中，所述目标文本簇包括目标文本聚类向量；

池化模块，用于对所述目标文本聚类向量进行池化处理，得到所述目标文本簇的目标文本中心向量；

归一化模块，用于对所述目标文本中心向量进行归一化处理，得到所述目标文本簇的目标聚类标签；其中，所述目标聚类标签用于表征所述目标文本簇的语义类别；

语料库构建模块，用于根据所述目标聚类标签和所述目标文本簇构建问题语料库。

为实现上述目的，本申请实施例的第四方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法或第二方面所述的方法。

为实现上述目的，本申请实施例的第五方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法或第二方面所述的方法。

本申请提出的问题语料库构建方法和装置、问答方法、设备及存储介质,其通过预设的目标文本表示模型对目标问题文本数据进行向量转换，得到能够对目标问题文本数据的语义特征进行准确表示的目标文本向量。通过目标聚类模型对目标文本向量进行文本聚类处理，得到目标文本簇。由此可知，本申请实施例避免了相关技术中直接通过文本聚类方法构建语料库的方法，本申请实施例通过目标文本向量进行文本聚类处理，能够提高文本聚类处理的准确性。因此，当根据目标文本簇中的目标文本聚类向量得到目标聚类标签，并根据目标聚类标签和目标文本簇构建问题语料库时，能够提高构建问题语料库的准确性。当将本申请应用于金融场景中问答助手语料库的构建时，能够提高问答助手语料库构建的准确性。当根据上述问答助手进行智能答复时，能够提高答复语料与对象提问内容的匹配度。

附图说明

图1是本申请实施例提供的问题语料库构建方法的流程图；

图2是在图1中的步骤S102之前的步骤流程图；

图3是图2中的步骤S203的流程图；

图4是图2中的步骤S206以后还包括的步骤流程图；

图5是图4中的步骤S402的流程图；

图6是图1中的步骤S102的流程图；

图7是本申请实施例提供的问答方法的流程图；

图8是本申请实施例提供的问题语料库构建装置的结构示意图；

图9是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

文本聚类，是指将语义相似的文本归为一类，并达到类内相似性最大，类间相似性最小的聚类效果，文本聚类方法可以用于构建问答助手的语料库。由于文本聚类方法为无监督的机器学习方法，即无法根据监督信号进行反馈学习，从而在一些场景中容易出现聚类效果不好的现象，例如在根据文本聚类方法对金融场景中问答助手的语料库进行构建时，容易出现语料库中各语料聚类有误的现象，从而对问答操作造成影响，如对应于保险咨询的语料库中包含保险理赔的语料。。因此，如何提高根据文本聚类方法构建语料库的准确性，成了亟待解决的技术问题。

基于此，本申请实施例提供了一种问题语料库构建方法和装置、设备及存储介质，旨在提高问题语料库构建的准确性。

本申请实施例提供的问题语料库构建方法和装置、设备及存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的问题语料库构建方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的问题语料库构建方法，涉及金融科技技术领域。本申请实施例提供的问题语料库构建方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现问题语料库构建方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户语料数据、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

图1是本申请实施例提供的问题语料库构建方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S101至步骤S106。

步骤S101、获取目标问题文本数据；

步骤S102、根据预设的目标文本表示模型对目标问题文本数据进行向量转换，得到目标文本向量；

步骤S103、根据预设的目标聚类模型对目标文本向量进行文本聚类处理，得到目标文本簇；其中，目标文本簇包括目标文本聚类向量；

步骤S104、对目标文本聚类向量进行池化处理，得到目标文本簇的目标文本中心向量；

步骤S105、对目标文本中心向量进行归一化处理，得到目标文本簇的目标聚类标签；其中，目标聚类标签用于表征目标文本簇的语义类别；

步骤S106、根据目标聚类标签和目标文本簇构建问题语料库。

本申请实施例所示意的步骤S101至步骤S106，通过预设的目标文本表示模型对目标问题文本数据进行向量转换，得到能够对目标问题文本数据的语义特征进行准确表示的目标文本向量。通过目标聚类模型对目标文本向量进行文本聚类处理，得到目标文本簇。由此可知，本申请实施例避免了相关技术中直接通过文本聚类方法构建语料库的方法，本申请实施例通过目标文本向量进行文本聚类处理，能够提高文本聚类处理的准确性。因此，当根据目标文本簇中的目标文本聚类向量得到目标聚类标签，并根据目标聚类标签和目标文本簇构建问题语料库时，能够提高构建问题语料库的准确性。当将本申请应用于金融场景中问答助手语料库的构建时，能够提高问答助手语料库构建的准确性。当根据上述问答助手进行智能答复时，能够提高答复语料与对象提问内容的匹配度。

在一些实施例的步骤S101中，通过相关应用程序编码接口(ApplicationProgramming Interface，API)等方式获取用于构建问题语料库的多个目标问题文本数据。可以理解的是，多个目标问题文本数据的文本内容可以是语义相似的，也可以是语义不相似的。例如，获取了两个文本内容语义不相似的目标问题文本数据，其中一个目标问题文本数据的文本内容为“今天天气如何”，另一个目标问题文本数据的文本内容为“我应该购买哪一类保险”。可以理解的是，当将本申请应用于不同的应用场景时，获取目标问题文本数据的方式还可以进行适应性更改。例如，当应用于以文本沟通的客服场景时，可以根据API接口直接获取用户在对应终端上以键入、语音输入等方式生成的目标问题文本数据。当应用于语音助手的场景时，获取到的是用户进行语音询问的目标问题语音数据，此时根据对目标问题语音数据进行语音识别得到目标问题文本数据。当应用于图像识别场景时，获取到的是用户通过相关方式上传的目标问题图像数据，此时根据光学字符识别(OpticalCharacter Recognition，OCR)、NLP等方式对目标问题图像数据进行文本识别得到目标问题文本数据。

参照图2，在一些实施例中，在步骤S102之前，本申请实施例提供的方法还包括步骤：训练目标文本表示模型，具体包括但不限于包括有步骤S201至步骤S206。

步骤S201、获取具有原始聚类标签的原始文本簇；其中，原始聚类标签用于表征原始文本簇的语义类别，原始文本簇包括原始问题文本数据；

步骤S202、根据预设的原始文本表示模型对原始问题文本数据进行向量转换，得到样本文本向量；

步骤S203、根据预设的原始聚类模型对样本文本向量进行文本聚类处理，得到样本文本簇；其中，样本文本簇包括样本文本聚类向量；

步骤S204、对样本文本聚类向量进行池化处理，得到样本文本簇的样本文本中心向量；

步骤S205、对样本文本中心向量进行归一化处理，得到样本文本簇的样本聚类标签；其中，样本聚类标签用于表征样本文本簇的语义类别；

步骤S206、根据样本聚类标签、原始聚类标签对原始文本表示模型进行参数调整，得到目标文本表示模型。

在一些实施例的步骤S201中，获取多个原始问题文本数据，对多个原始问题文本数据进行文本聚类处理，得到原始文本簇。根据原始文本簇所包括的原始问题文本数据文本内容的语义进行聚类标签标记，得到原始聚类标签。例如，将多个原始文本簇进行集合，得到簇集合{(A₁,A₂,A₃)₁,(A₄,A₅)₂,...,(A_e,...,A_g)_j}。对多个原始聚类标签进行集合，得到聚类标签集合{L¹,L²,...,L^j}。其中，(...)_j表示第j个原始文本簇，Ag表示第g个原始问题文本数据,Lj表示对应于原始文本簇(Ae,...,A_g)_j的原始聚类标签。例如，如下多个原始文本数据可以聚类为一个原始文本簇，且对应的原始聚类标签为保险咨询：“我想了解一下保险的种类和保障范围”、“我想购买一份适合自己的保险”、“我想了解一下重疾险的保障范围”等。而如下多个原始文本数据可以聚类为另一个原始文本簇，且对应的原始聚类标签为保险理赔：“我想了解一下我的保险理赔是否符合保险合同的条款和规定”、“请问保险理赔的流程和所需的材料有哪些”、“查询保险理赔进度”等。

在一些实施例的步骤S202中，预先设置基于transformer模型系列的原始文本表示模型，例如原始文本表示模型可以为如下任一种模型：来自transformer的双向编码表示模型(Bidirectional Encoder Representation from Transformers，BERT)、BERT改进模型(A Robustly Optimized BERT Pretraining Approach，RoBERTa)、轻量级BERT模型(ALite BERT，ALBERT)。以transformer模型为例进行统一说明，transformer模型包括编码器和解码器。可以理解的是，本申请实施例使用的是transformer模型中的编码器。将原始问题文本数据作为原始文本表示模型的输入数据，通过原始文本表示模型将原始问题文本数据映射至语义空间中，得到一个固定维数的样本文本向量，该样本文本向量为原始问题文本数据的语义特征向量。

在一些实施例的步骤S203中，根据预设的原始聚类模型对多个样本文本向量进行文本聚类处理，即将语义特征相近的多个样本文本向量聚类为一个样本文本簇。因此，通过原始聚类模型可以得到簇集合{(B₁,B₄)₁,(B₃,B₇)₂,...,(...,B_g)_m}。其中，(...)_m表示第m个样本文本簇，B_g表示第g个原始问题文本数据对应的样本文本向量。可以理解的是，m的数值与j的数值相等。此外，进行文本聚类处理后，将同一个样本文本簇内的样本文本向量作为样本文本聚类向量。

参照图3，在一些实施例中，步骤S203包括但不限于有步骤S301至步骤S304。

步骤S301、根据预设的簇数量对样本文本向量进行中心向量选取，得到原始文本中心向量；

步骤S302、根据原始文本中心向量对样本文本向量进行向量筛选，得到候选文本向量；

步骤S303、将候选文本向量与原始文本中心向量进行相似度计算，得到相似度值；

步骤S304、将数值最小的相似度值作为关键值，将关键值的原始文本中心向量作为关键文本中心向量，根据关键文本中心向量和候选文本向量得到样本文本簇。

在一些实施例的步骤S301中，对于初始化的原始聚类模型，预先随机设置数值为m的簇数量，即期望将多个样本文本向量聚类为m个样本文本簇。因此，根据预设的簇数量对每个样本文本簇的中心向量进行选取，得到原始文本中心向量。具体地，随机从多个样本文本向量中选取m个文本向量，并将选取出的m个文本向量作为原始文本中心向量。

在一些实施例的步骤S302中，将未选取出的样本文本向量，即剩余的样本文本向量作为候选文本向量。

在一些实施例的步骤S303中，分别计算每一个候选文本向量与各个原始文本中心向量的相似度，得到对应的相似度值。可以理解的是，由于候选文本向量和原始文本向量均为映射至语义空间的向量，因此可以根据候选文本向量与原始文本向量之间的距离进行相似度度量。具体地，可以根据欧几里得距离、曼哈顿距离、切比雪夫距离中的任一种向量距离计算方法进行计算，从而得到对应的相似度值。

在一些实施例的步骤S304中，将每一个候选文本向量与m个原始文本中心向量均进行相似度计算，得到m个相似度值。对m个相似度值进行数值比较，将数值最小的相似度值作为关键值，将该关键值对应的原始文本中心向量作为关键文本中心向量。也就是说，关键文本中心向量是m个原始文本中心向量中与候选文本向量距离最近的文本向量。因此，将该候选文本向量归类为关键文本中心向量所在的簇，即对关键文本中心向量和候选文本向量进行聚类，得到样本文本簇。

本申请实施例通过距离进行聚类划分，使得簇内各个文本向量的距离尽量小，簇间各个文本向量的距离尽量大，从而能够实现将具有相近语义特征的样本文本向量归类为一个样本文本簇。

在一些实施例的步骤S204中，由于在同一个样本文本簇内的多个样本文本聚类向量具有相近的语义特征，因此，可以对同一个样本文本簇内的多个样本文本聚类向量进行池化处理，以得到能对该样本文本簇的语义特征进行统一表示的样本文本中心向量。

在一些实施例的步骤S205中，根据预设的分类器对样本文本中心向量进行归一化处理，得到用于表征对应样本文本簇的语义类别数据，即样本聚类标签。例如，根据簇集合{(B₁,B₄)₁,(B₃,B₇)₂,...,(...,B_g)_m}可以得到聚类标签集合其中，/>表示对应于样本文本簇(...,B_g)_m的样本聚类标签。

在一些实施例的步骤S206中，根据预设的损失函数对样本聚类标签和原始聚类标签进行损失计算，得到损失值。根据损失值对原始文本表示模型进行参数调整，得到语义特征提取能力更准确的目标文本表示模型。具体地，根据如下式(1)计算得到损失值G。

参照图4，在一些实施例中，步骤训练目标文本表示模型还包括但不限于有步骤S401至步骤S405。

步骤S401、根据样本聚类标签、原始聚类标签、原始问题文本数据进行聚类准确度计算，得到聚类准确值；

步骤S402、根据聚类准确值对原始聚类模型进行模型参数调整，得到初始聚类模型；

步骤S403、根据预设的目标文本表示模型对原始问题文本数据进行向量转换，得到训练文本向量；

步骤S404、根据初始聚类模型对训练文本向量进行文本聚类处理，得到训练样本文本簇；

步骤S405、根据训练样本文本簇对目标文本表示模型进行训练，直至聚类准确值等于预设准确阈值。

在一些实施例的步骤S401中，根据预设的聚类评估算法对原始聚类模型的聚类效果进行检测，得到聚类准确值。可以理解的是，聚类评估算法包括兰德系数、调整兰德系数、轮廓系数、戴维森堡丁指数等，对此本申请实施例不作具体限定。但为了便于说明，如下以兰德系数为例进行具体说明。

首先，对兰德系数计算聚类准确值的方法进行说明。假设集合U为预先设定的正确聚类效果，集合V为根据原始聚类模型得到的预测聚类效果，根据如下式(2)计算得到聚类准确值RI。

其中，a表示在集合U中属于同一个簇，并且在集合V中也属于同一个簇的数据对的数据量；b表示在集合U中属于同一个簇，但在集合V中属于不同簇的数据对的数据量；c表示在集合U中属于不同簇，但在集合V中属于同一个簇的数据对的数据量；d表示在集合U中属于不同簇，并且在集合V中也属于不同簇的数据对的数据量。在本申请实施例中，簇集合{(A₁,A₂,A₃)₁,(A_4,A₅)₂,...,(A_e,...,A_g)_j}相当于集合U，簇集合{(B₁,B₄)₁,(B₃,B₇)₂,...,(...,B_g)_m}相当于集合V。因此，通过原始聚类标签和样本聚类标签可以确定原始问题文本数据分别在簇集合{(A₁,A₂,A₃)₁,(A4,A₅)₂,...,(A_e,...,A_g)_j}、簇集合{(B₁,B₄)₁,(B₃,B₇)₂,...,(...,B_g)_m}中所属于的簇，从而得到如式(2)中a、b、c、d的具体数值，进而根据如式(2)计算得到聚类准确值。

在一些实施例的步骤S402中，根据聚类准确值可以确定原始聚类模型的聚类效果，因此可以根据聚类准确值对原始聚类模型进行参数调整，得到聚类能力更强的初始聚类模型，以使初始聚类模型的聚类效果为期望的聚类效果。具体地，可以对原始聚类模型的聚类中心、簇数量等进行调整，对此本申请实施例不作具体限定。

参照图5，在一些实施例中，步骤S402包括但不限于包括有步骤S501至步骤S502。

步骤S501、将聚类准确值与预设准确阈值进行比较，得到比较结果；

步骤S502、若比较结果表示聚类准确值小于预设准确阈值，则将样本文本中心向量作为原始聚类模型的中心向量，得到初始聚类模型。

在一些实施例的步骤S501中，预先根据期望的聚类效果设置预设准确阈值，将聚类准确值与该预设准确阈值进行数值比较，得到对应的比较结果。

在一些实施例的步骤S502中，若比较结果表示聚类准确值小于预设准确阈值，表明当前原始聚类模型的聚类效果未达到期望的聚类效果。因此，需对原始聚类模型进行参数调整，以提高该原始聚类模型的聚类效果。具体地，将样本文本中心向量作为原始聚类模型的中心向量，即作为原始聚类模型的聚类中心，得到初始聚类模型，以使原始问题文本数据根据新的聚类中心进行聚类。

可以理解的是，当需对目标文本表示模型进行多次训练时，将上一次训练得到的样本中心向量作为本次训练中初始聚类模型的中心向量。在不断的训练中使得初始聚类模型的聚类效果达到期望的聚类效果，由此当根据该初始聚类模型得到的训练文本簇训练目标文本表示模型时，得到能够取得期望聚类效果的文本向量，并最终达到提高问题语料库构建准确性的目的。

在一些实施例的步骤S403中，预先设置基于transformer模型系列的目标文本表示模型。将原始问题文本数据作为目标文本表示模型的输入数据，通过目标文本表示模型将原始问题文本数据映射至语义空间中，得到一个固定维数的训练文本向量，该训练文本向量为原始问题文本数据的语义特征向量。

在一些实施例的步骤S404中，根据调整后的初始聚类模型对多个训练文本向量进行文本聚类处理，即将语义特征相近的多个训练文本向量聚类为一个训练样本文本簇。

在一些实施例的步骤S405中，进行文本聚类处理后，将同一个训练样本文本簇内的训练文本向量作为训练文本聚类向量，即训练样本文本簇包括训练文本聚类向量。通过对训练文本聚类向量进行池化处理和归一化处理，得到该训练文本簇新的样本聚类标签。根据该新的样本聚类标签对目标文本表示模型进行参数调整，并根据调整后的目标文本表示模型、新的样本聚类标签再次执行步骤S301至步骤S305所描述的方法，直至目标文本表示模型收敛。可以理解的是，根据实际需要可以对该目标文本表示模型的收敛条件进行设定，例如设置当对原始聚类模型参数调整的调整次数达到预设次数时，停止对目标文本表示模型训练；或，设置根据当前目标文本表示模型计算得到的聚类准确值大于预设准确值时，停止对目标文本表示模型训练。对此本申请实施例不作具体限定。

可以理解的是，本申请实施例根据初始聚类模型生成的训练样本文本簇对目标文本表示模型进行训练，即根据期望的聚类效果对目标文本表示模型进行训练，使得训练好的目标文本表示模型能够生成更准确的文本向量，而该文本向量能够使目标聚类模型的聚类效果达到期望的聚类效果。即目标文本表示模型能够根据期望的聚类效果进行向量转换，使得簇内的文本向量在语义空间距离相近，并使簇间的文本向量在语义空间距离相远。例如，对于目标问题文本数据C、D、E、F，当期望的聚类效果是将目标问题文本数据C和D聚类为一个簇，并将目标问题文本数据E和F聚类为一个簇时，训练好的目标文本表示模型能够根据期望的聚类效果对目标问题文本数据C和目标问题文本数据D进行语义特征挖掘，使得目标问题文本数据C的目标文本向量与目标问题文本数据D的目标文本向量在语义空间中相近，并且目标问题文本数据C的目标文本向量与目标问题文本数据D的目标文本向量在语义空间中均与目标问题文本数据E的目标文本向量相远。同理，目标文本表示模型还对目标问题文本数据E和目标问题文本数据F进行语义特征挖掘。因此，本申请实施例能够提高基于目标聚类模型构建问题语料库的准确性。

在一些实施的步骤S102中，预先设置基于transformer模型系列训练好的目标文本表示模型。将目标问题文本数据作为目标文本表示模型的输入数据，通过目标文本表示模型将目标问题文本数据映射至语义空间中，得到一个固定维数的目标文本向量，该目标文本向量为目标问题文本数据的语义特征向量。可以理解的是，由于目标文本表示模型为预先训练好的模型，因此，通过目标文本表示模型可以对目标文本数据的语义特征进行准确表达。由此在后续目标文本聚类模型根据目标文本向量进行文本聚类处理时，能够提高文本聚类处理的准确性。当将本申请应用于与金融科技中的保险场景时，目标问题文本数据是与保险有关的问题文本数据，如可以为与保险咨询有关的问题文本数据、与保险理赔有关的问题文本数据、与保费缴纳有关的问题文本数据等。

参照图6，在一些实施例中，目标文本表示模型包括编码层和向量表示层，步骤S102包括但不限于有步骤S601至步骤S602。

步骤S601、根据编码层对目标问题文本数据进行向量转换，得到初始文本向量；

步骤S602、根据向量表示层对初始文本向量进行语义融合处理，得到目标文本向量。

在一些实施例的步骤S601中，通过编码层对目标问题文本数据进行字划分或词划分，并将划分得到的字或词进行向量转换，以将目标问题文本数据转换为多个词向量，即得到多个初始文本向量。

在一些实施例的步骤S602中，向量表示层用于将根据注意力机制对多个初始文本向量进行语义融合处理，即根据目标问题文本数据的全文内容语义信息对多个初始文本向量进行语义融合处理，得到能够表示目标问题文本数据重要语义特征的目标文本向量。

在一些实施例的步骤S103中，通过预设的目标聚类模型对目标文本向量进行文本聚类处理，以将语义特征向量相近的多个目标问题文本数据聚类为一个目标文本簇。可以理解的是，目标聚类模型基于以下任一种方法实现对目标文本向量的聚类：划分式聚类方法、基于密度的聚类方法、层次化聚类方法等。其中，划分式聚类方法包括K均值算法(K-means clustering algorithm，K-means)算法，以及K-means算法的变体算法K-means++、bi-Kmeans等；基于密度的聚类方法包括具有噪声的基于密度的聚类方法(Density-BasedSpatial Clustering of Applications with Noise，DBSCAN)、对象排序识别聚类算法(Ordering points to identify the clustering structure，OPTICS)等。层次化聚类方法包括凝聚的层次聚类方法(agglomerative clustering，AGNES)、分裂的分层聚类方法(divisive clustering)。

可以理解的是，为了便于说明，在本申请实施例中以K-means算法为例进行说明。根据K-means算法可以将多个目标文本向量分为K个目标文本簇，K的具体取值根据预先对目标聚类模型的设定确定。例如，将多个目标文本簇进行集合，得到簇集合{(S₁,S₂,S₃)₁,(S₄,S₅)₂,...,(S_i,...,S_n)_k}。其中，(...)_k表示第K个目标文本簇，S_i表示第i个目标问题文本数据在高维空间中的向量表示，即目标文本向量。此外，进行文本聚类处理后，将同一个目标文本簇内的目标文本向量作为目标文本聚类向量。

在一些实施例的步骤S104中，由于在同一个目标文本簇内的多个目标文本聚类向量具有相近的语义特征，因此，可以对同一个目标文本簇内的多个目标文本聚类向量进行池化处理，以得到能对该目标文本簇的语义特征进行统一表示的目标文本中心向量。

在一些实施例的步骤S105中，根据预设的分类器对目标文本中心向量进行归一化处理，得到用于表征对应目标文本簇的语义类别数据，即目标聚类标签。例如，根据如下式(3)计算得到对应于{(S₁,S₂,S₃)₁,(S₄,S₅)₂,...,(S_i,...,S_n)_k}的目标聚类标签{y¹,y²,...,y^k}。

y^k＝softmax(W·C_k)......式(3)

其中，C_k表示根据第K个目标文本簇(...)_k计算得到的目标文本中心向量，W表示预设的线性变换矩阵。

可以理解的是，由于语义特征相近的目标文本向量已被聚类为一个目标文本簇，因此，对应于每个目标文本簇的目标聚类标签的标签内容应该是不同的。例如，包括物流查询、保险咨询、保险理赔、优惠信息查询、车票信息查询等目标聚类标签。

在一些实施例的步骤S106中，将目标聚类标签与对应的目标文本簇建立映射关系，从而构建得到问题语料库。

本申请实施例提供的问题语料库构建方法，通过预设的目标文本表示模型对目标问题文本数据进行向量转换，得到能够对目标问题文本数据的语义特征进行准确表示的目标文本向量。通过目标聚类模型对目标文本向量进行文本聚类处理，得到目标文本簇。由此可知，本申请实施例避免了相关技术中直接通过文本聚类方法构建语料库的方法，本申请实施例通过目标文本向量进行文本聚类处理，能够提高文本聚类处理的准确性。因此，当根据目标文本簇中的目标文本聚类向量得到目标聚类标签，并根据聚类标签和目标文本簇构建问题语料库时，能够提高构建语料库的准确性。

参照图7，本申请实施例还提供了一种问答方法，该问答方法包括但不限于包括有步骤S701至步骤S705。

步骤S701、获取待解答文本数据；

步骤S702、将待解答文本数据与预设问题语料库中的目标文本簇进行语义匹配，得到匹配结果；其中，预设问题语料库为根据问题语料库构建方法构建得到；

步骤S703、将匹配结果表示语义匹配的目标文本簇作为关键文本簇；

步骤S704、根据关键文本簇从预设的原始答案文本簇筛选得到关键答案文本簇；

步骤S705、根据关键答案文本簇进行答复处理，得到待解答文本数据的答案文本数据。

在一些实施例的步骤S701中，通过相关API接口获取待解答文本数据。可以理解的是，当将本申请应用于不同的应用场景时，获取待解答文本数据的方式还可以进行适应性更改。例如，当应用于以文本沟通的客服场景时，可以根据AP I接口直接获取用户在对应终端上以键入、语音输入等方式生成的待解答文本数据。当应用于语音助手的场景时，获取到的是用户进行语音询问的待解答语音数据，此时根据对待解答语音数据进行语音识别得到待解答文本数据。当应用于图像识别场景时，获取到的是用户通过相关方式上传的待解答图像数据，此时根据OCR、NLP等方式对待解答图像数据进行文本识别得到待解答文本数据。当将本申请应用于金融科技中的保险场景时，待解答文本数据可以是与保险有关的问题文本数据，如可以为与保险咨询有关的问题文本数据、与保险理赔有关的问题文本数据、与保费缴纳有关的问题文本数据等。也可以是与保险无关的问题文本数据。可以理解的是，当待解答文本数据是与保险无法的问题文本数据时，由于在预设问题语料库中无对应的目标文本簇，因此可能会得到“无法解决，请询问与保险有关的问题”的结果。

在一些实施例的步骤S702中，将待解答文本数据与根据上述任一实施例所描述的问题语料库构建方法得到的目标文本簇进行语义匹配，从而确定待解答文本数据的语义类别。例如，确定待解答文本数据为保险咨询、保险理赔、保险服务投诉中的哪一个语义类别。具体地，由于问题语料库包括目标聚类标签和与目标聚类标签映射的目标文本簇，目标文本簇中包括目标文本聚类向量。因此，可以将待解答文本数据输入至目标文本表示模型进行向量转换，得到待解答文本向量。将待解答文本向量与目标文本聚类向量进行语义匹配，以确定待解答文本向量属于哪一个目标文本簇，即得到匹配结果。或者，当目标聚类标签为语义类别不相近的标签时，可以将待解答文本向量与目标聚类标签进行语义匹配，得到匹配结果。可以理解的是，语义类别不相近是指语义类别能够明显区分，例如“保险咨询”和“保险理赔”是语义类别不相近的目标聚类标签。相反地，语义类别相近是指语义类别不能明显区分，例如“保险查询”和“险种查询”是语义类别相近的目标聚类标签。

在一些实施例的步骤S703中，根据匹配结果确定待解答文本数据属于哪一个目标文本簇，将问题语料库中待解答文本数据归属的目标文本簇作为关键文本簇。

在一些实施例的步骤S704中至步骤S705，预先设置与每一个目标文本簇映射的原始答案文本簇。因此，将与关键文本簇映射的原始答案文本簇作为关键答案文本簇。根据关键答案文本簇进行答复处理，得到待解答文本数据的答案文本数据。可以理解的是，原始答案文本簇可以存储于问题语料库中，或不存储于问题语料库中。当问题语料库包括原始答案文本簇时，该原始答案文本簇可以是根据问题语料库构建方法构建得到问题语料库后，根据目标文本簇和目标聚类标签设置的。或者，原始答案文本簇是在问题语料库构建方法中构建得到的，此时为训练目标文本表示模型所获取的数据还应包括与原始问题文本数据对应的原始解答文本数据，根据该原始解答文本数据得到原始答案文本簇。

此外，还可以预先设置与问题语料库中每一个目标聚类标签存在映射关系的解答策略，根据关键文本簇的目标聚类标签调用对应的解答策略，从而实现对待解答文本数据的答复处理。对此本申请实施例不作具体限定。

本申请实施例通过上述实施例所描述的问题语料库进行答复处理，由于根据上述实施例构建得到的问题语料库的准确性较高，因此本申请实施例能够提高答复处理的准确性。

请参阅图8，本申请实施例还提供一种问答语料库构建装置，可以实现上述问答语料库构建方法，该装置包括：

数据获取模块801，用于获取目标问题文本数据；

向量转换模块802，用于根据预设的目标文本表示模型对目标问题文本数据进行向量转换，得到目标文本向量；

文本聚类模块803，用于根据预设的目标聚类模型对目标文本向量进行文本聚类处理，得到目标文本簇；其中，目标文本簇包括目标文本聚类向量；

池化模块804，用于对目标文本聚类向量进行池化处理，得到目标文本簇的目标文本中心向量；

归一化模块805，用于对目标文本中心向量进行归一化处理，得到目标文本簇的目标聚类标签；其中，目标聚类标签用于表征目标文本簇的语义类别；

语料库构建模块806，用于根据目标聚类标签和目标文本簇构建问题语料库。

该问答语料库构建装置的具体实施方式与上述问答语料库构建方法的具体实施例基本相同，在此不再赘述。

本申请实施例还提供了一种电子设备，电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述问答语料库构建方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图9，图9示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器901，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器902，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器902可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器902中，并由处理器901来调用执行本申请实施例的问答语料库构建方法；

输入/输出接口903，用于实现信息输入及输出；

通信接口904，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线905，在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息；

其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述问答语料库构建方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-On ly Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种问题语料库构建方法，其特征在于，所述方法包括：

获取目标问题文本数据；

根据所述目标聚类标签和所述目标文本簇构建问题语料库。

2.根据权利要求1所述的方法，其特征在于，在所述根据预设的目标文本表示模型对所述目标问题文本数据进行向量转换，得到目标文本向量之前，所述方法还包括训练所述目标文本表示模型，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述训练所述目标文本表示模型还包括对所述目标文本表示模型进行训练，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述聚类准确值对所述原始聚类模型进行模型参数调整，得到初始聚类模型，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据预设的原始聚类模型对所述样本文本向量进行文本聚类处理，得到样本文本簇，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述目标文本表示模型包括编码层和向量表示层；

7.一种问答方法，其特征在于，所述方法包括：

获取待解答文本数据；

将所述待解答文本数据与预设问题语料库中的目标文本簇进行语义匹配，得到匹配结果；其中，所述预设问题语料库为根据权利要求1至6任一项所述的方法构建得到；

8.一种问题语料库构建装置，其特征在于，所述装置包括：

数据获取模块，用于获取目标问题文本数据；

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的方法或实现权利要求7所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法或实现权利要求7所述的方法。