CN115563278A

CN115563278A - 一种句子文本的问题分类处理方法及装置

Info

Publication number: CN115563278A
Application number: CN202211194173.2A
Authority: CN
Inventors: 祁江楠; 雷禹; 袁玥
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2023-01-03

Abstract

本发明提供一种句子文本的问题分类处理方法及装置，涉及文本数据处理技术领域，可用于金融领域或其他技术领域。所述方法包括：对待进行问题分类的句子文本进行切分，得到各字符，并对各字符进行向量化；基于BERT模型对向量化处理结果进行识别，得到字符级别的句子向量和各字符的增强向量，并根据各字符的增强向量得到词语级别的句子向量；拼接字符级别的句子向量和词语级别的句子向量，并根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别。所述装置执行上述方法。本发明实施例提供的句子文本的问题分类处理方法及装置，能够提高句子文本的问题分类的准确性。

Description

一种句子文本的问题分类处理方法及装置

技术领域

本发明涉及文本数据处理技术领域，具体涉及一种句子文本的问题分类处理方法及装置。

背景技术

随着计算机行业的快速发展，硬件性能取得了飞跃性的提升，越来越多的人们利用其计算能力开始了机器学习的研究。在中文文本领域中，一大批人们开始研究智能问答。问答一般分为两个类别：基于开放域的知识问答和基于专业领域的问答。针对专业领域的问答，需要专业的领域知识，比如金融，银行等相关的行业，需要对应的知识数据库进行专业性问题的回答。

在问答的过程中，语句较短，口语化严重，往往需要结合上下文进行理解，另外单单用字符表示语义，忽略了文本的词语的含义，而往往在中文中，词语的含义比较重要，如果单单使用词语的含义忽略了字符本身，使得句子的问题分类结果不够准确。

发明内容

针对现有技术中的问题，本发明实施例提供一种句子文本的问题分类处理方法及装置，能够至少部分地解决现有技术中存在的问题。

一方面，本发明提出一种句子文本的问题分类处理方法，包括：

对待进行问题分类的句子文本进行切分，得到各字符，并对各字符进行向量化；

基于BERT模型对向量化处理结果进行识别，得到字符级别的句子向量和各字符的增强向量，并根据各字符的增强向量得到词语级别的句子向量；

拼接字符级别的句子向量和词语级别的句子向量，并根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别。

其中，所述根据各字符的增强向量得到词语级别的句子向量，包括：

基于多尺度CNN模型对各字符的增强向量进行局部特征提取，得到词语级别的句子向量。

其中，所述根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别，包括：

通过全连接和sigmoid函数对根据拼接结果得到的完整句子向量进行处理，得到所述待进行问题分类的句子文本的问题分类类别。

其中，在所述对待进行问题分类的句子文本进行切分的步骤之前，所述句子文本的问题分类处理方法还包括：

获取待进行专业领域识别的句子文本；

基于二分类模型对待进行专业领域识别的句子文本进行专业领域识别；

若确定专业领域识别结果为专业领域问题，则将所述待进行专业领域识别的句子文本确定为所述待进行问题分类的句子文本。

一方面，本发明提出一种句子文本的问题分类处理装置，包括：

切分单元，用于对待进行问题分类的句子文本进行切分，得到各字符，并对各字符进行向量化；

识别单元，用于基于BERT模型对向量化处理结果进行识别，得到字符级别的句子向量和各字符的增强向量，并根据各字符的增强向量得到词语级别的句子向量；

分类单元，用于拼接字符级别的句子向量和词语级别的句子向量，并根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别。

其中，所述识别单元具体用于：

其中，所述分类单元具体用于：

其中，在所述对待进行问题分类的句子文本进行切分的步骤之前，所述句子文本的问题分类处理装置还用于：

获取待进行专业领域识别的句子文本；

再一方面，本发明实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下方法：

本发明实施例提供一种计算机可读存储介质，包括：

所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如下方法：

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如下方法：

本发明实施例提供的句子文本的问题分类处理方法及装置，对待进行问题分类的句子文本进行切分，得到各字符，并对各字符进行向量化；基于BERT模型对向量化处理结果进行识别，得到字符级别的句子向量和各字符的增强向量，并根据各字符的增强向量得到词语级别的句子向量；拼接字符级别的句子向量和词语级别的句子向量，并根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别，能够提高句子文本的问题分类的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明一实施例提供的句子文本的问题分类处理方法的流程示意图。

图2是本发明另一实施例提供的句子文本的问题分类处理方法的流程示意图。

图3是本发明另一实施例提供的句子文本的问题分类处理方法的流程示意图。

图4是本发明一实施例提供的句子文本的问题分类处理装置的结构示意图。

图5为本发明实施例提供的计算机设备实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

相关专业术语说明：

多模型：为了模型的精准分类，在分类的过程中，构建了多个深度学习模型组成模型链。

字词融合：在中文文本分类的过程中，特别是针对问答过程中的问题，语句具有文本短，语义表示不完整，口语化频繁等短文本的特点，通过提取字的特征和词的特征共同完成语句的向量表示，使得语句表示在向量空间中更加准确。

图1是本发明一实施例提供的句子文本的问题分类处理方法的流程示意图，如图1所示，本发明实施例提供的句子文本的问题分类处理方法，包括：

步骤S1：对待进行问题分类的句子文本进行切分，得到各字符，并对各字符进行向量化。

步骤S2：基于BERT模型对向量化处理结果进行识别，得到字符级别的句子向量和各字符的增强向量，并根据各字符的增强向量得到词语级别的句子向量。

步骤S3：拼接字符级别的句子向量和词语级别的句子向量，并根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别。

在上述步骤S1中，装置对待进行问题分类的句子文本进行切分，得到各字符，并对各字符进行向量化。装置可以是执行该方法的计算机设备等，例如为服务器。本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。如图2所示，图2中的句子文本即是待进行问题分类的句子文本。可以将句子文本的文本数据切分成字符格式(一个字一个字的)，然后将其向量化，句子中的每一个字都对应一个向量。

如图3所示，在所述对待进行问题分类的句子文本进行切分的步骤之前，所述句子文本的问题分类处理方法还包括：

获取待进行专业领域识别的句子文本，即要实现判断待进行专业领域识别的句子文本是不是专业问题；对应图3中的“问题”。

基于二分类模型对待进行专业领域识别的句子文本进行专业领域识别；可以将专业领域识别的句子文本输入至二分类模型，将二分类模型的输出结果作为专业领域识别结果。

若确定专业领域识别结果为专业领域问题，则将所述待进行专业领域识别的句子文本确定为所述待进行问题分类的句子文本。参照图3，通过多分类模型对待进行专业领域识别的句子文本进行处理。

在上述步骤S2中，装置基于BERT模型对向量化处理结果进行识别，得到字符级别的句子向量和各字符的增强向量，并根据各字符的增强向量得到词语级别的句子向量。如图2所示，将每个字的向量形成向量组，并输入到BERT模型中，BERT模型会输出两部分，一个是句子向量(字符级别)；另一个是每个字符的增强向量表示(每个字仍然是一个向量)。

所述根据各字符的增强向量得到词语级别的句子向量，包括：

基于多尺度CNN模型对各字符的增强向量进行局部特征提取，得到词语级别的句子向量。由于CNN感受野有限，导致很难捕获全局信息，而Transformer可以捕获长距离依赖关系，因此将CNN和Transformer结合，使得网络结构能够继承CNN和Transformer的优点，并且最大程度保留全局和局部特征。

将增强的字符向量输入到多尺度CNN模型中(考虑到分类任务中某些词语的关键作用，在transformer得到的词语高级表示后采用多尺度CNN模型提取文本的局部特征)，形成词语级别的词语向量(多个词语组成一个矩阵)，经过拼接形成一个词语级别的句子向量。

在上述步骤S3中，装置拼接字符级别的句子向量和词语级别的句子向量，并根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别。

将词语级别的句子向量与BERT模型输出的句子向量进行拼接，形成一个完整的句子向量(这么做的目的就是为了让句子向量语义更加完整)。

所述根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别，包括：

如图3所示，本发明实施例提供的句子文本的问题分类处理方法可以基于模块化来实现，具体说明如下：

二分类模型：

先将问题输入到二分类模型中，由于刚开始不知问题属于哪个类别，属于杂乱无章的数据，需要使用通用性强的模型来进行，故此处采用了BERT原始模型作为二分类模型，此模型引用了BERT模型，采用CLS位作为句子的完整信息得到句子的向量表示。

在读取数据的过程中，非领域数据为负向标签，而其他标签一律为正向标签，将其映射为“0”和“1”，进行二分类，损失函数采用交叉熵损失。通过在标注的数据集上进行训练，然后对用户问题进行预测。

多分类模型：

可参照上述图2的说明，不再赘述。

本发明实施例使用多尺度CNN模型进行处理，通过不同尺度的卷积，可以得到单个词，两个词或者多个词语之间的语义关联，从而很好的得到句子的局部信息内容。

本发明实施例将采用将标签融合的方式将标签信息融入到句子中，最后通过向量概率的方式进行计算。

本发明主要是从问答系统中用户的问题出发，由于问题具有文本短，语义不充分，口语化严重等特点，首先采用了BERT模型分别提取字符的表示和句子整体语义，增强了用户问题语义的挖掘；进一步通过句子序列特征和句子的局部特征融合，丰富了句子的向量表示，从而使得下一步预测更加准确；最后采用了分步的方式进行，减少了多分类带来的不准确性。

本发明实施例提供的句子文本的问题分类处理方法，对待进行问题分类的句子文本进行切分，得到各字符，并对各字符进行向量化；基于BERT模型对向量化处理结果进行识别，得到字符级别的句子向量和各字符的增强向量，并根据各字符的增强向量得到词语级别的句子向量；拼接字符级别的句子向量和词语级别的句子向量，并根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别，能够提高句子文本的问题分类的准确性。

进一步地，所述根据各字符的增强向量得到词语级别的句子向量，包括：

基于多尺度CNN模型对各字符的增强向量进行局部特征提取，得到词语级别的句子向量。可参照上述说明，不再赘述。

进一步地，所述根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别，包括：

通过全连接和sigmoid函数对根据拼接结果得到的完整句子向量进行处理，得到所述待进行问题分类的句子文本的问题分类类别。可参照上述说明，不再赘述。

进一步地，在所述对待进行问题分类的句子文本进行切分的步骤之前，所述句子文本的问题分类处理方法还包括：

获取待进行专业领域识别的句子文本；可参照上述说明，不再赘述。

基于二分类模型对待进行专业领域识别的句子文本进行专业领域识别；可参照上述说明，不再赘述。

若确定专业领域识别结果为专业领域问题，则将所述待进行专业领域识别的句子文本确定为所述待进行问题分类的句子文本。可参照上述说明，不再赘述。

需要说明的是，本发明实施例提供的句子文本的问题分类处理方法可用于金融领域，也可用于除金融领域之外的任意技术领域，本发明实施例对句子文本的问题分类处理方法的应用领域不做限定。

图4是本发明一实施例提供的句子文本的问题分类处理装置的结构示意图，如图4所示，本发明实施例提供的句子文本的问题分类处理装置，包括切分单元401、识别单元402和分类单元403，其中：

切分单元401用于对待进行问题分类的句子文本进行切分，得到各字符，并对各字符进行向量化；识别单元402用于基于BERT模型对向量化处理结果进行识别，得到字符级别的句子向量和各字符的增强向量，并根据各字符的增强向量得到词语级别的句子向量；分类单元403用于拼接字符级别的句子向量和词语级别的句子向量，并根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别。

具体的，装置中的切分单元401用于对待进行问题分类的句子文本进行切分，得到各字符，并对各字符进行向量化；识别单元402用于基于BERT模型对向量化处理结果进行识别，得到字符级别的句子向量和各字符的增强向量，并根据各字符的增强向量得到词语级别的句子向量；分类单元403用于拼接字符级别的句子向量和词语级别的句子向量，并根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别。

本发明实施例提供的句子文本的问题分类处理装置，对待进行问题分类的句子文本进行切分，得到各字符，并对各字符进行向量化；基于BERT模型对向量化处理结果进行识别，得到字符级别的句子向量和各字符的增强向量，并根据各字符的增强向量得到词语级别的句子向量；拼接字符级别的句子向量和词语级别的句子向量，并根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别，能够提高句子文本的问题分类的准确性。

进一步地，所述识别单元402具体用于：

进一步地，所述分类单元403具体用于：

进一步地，在所述对待进行问题分类的句子文本进行切分的步骤之前，所述句子文本的问题分类处理装置还用于：

获取待进行专业领域识别的句子文本；

本发明实施例提供句子文本的问题分类处理装置的实施例具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图5为本发明实施例提供的计算机设备实体结构示意图，如图5所示，所述计算机设备包括：存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序，所述处理器502执行所述计算机程序时实现如下方法：

本实施例公开一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如下方法：

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如下方法：

本发明实施例与现有技术中的技术方案相比，对待进行问题分类的句子文本进行切分，得到各字符，并对各字符进行向量化；基于BERT模型对向量化处理结果进行识别，得到字符级别的句子向量和各字符的增强向量，并根据各字符的增强向量得到词语级别的句子向量；拼接字符级别的句子向量和词语级别的句子向量，并根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别，能够提高句子文本的问题分类的准确性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在本说明书的描述中，参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种句子文本的问题分类处理方法，其特征在于，包括：

2.根据权利要求1所述的句子文本的问题分类处理方法，其特征在于，所述根据各字符的增强向量得到词语级别的句子向量，包括：

3.根据权利要求1所述的句子文本的问题分类处理方法，其特征在于，所述根据拼接结果得到所述待进行问题分类的句子文本的问题分类类别，包括：

4.根据权利要求1所述的句子文本的问题分类处理方法，其特征在于，在所述对待进行问题分类的句子文本进行切分的步骤之前，所述句子文本的问题分类处理方法还包括：

获取待进行专业领域识别的句子文本；

5.一种句子文本的问题分类处理装置，其特征在于，包括：

6.根据权利要求5所述的句子文本的问题分类处理装置，其特征在于，所述识别单元具体用于：

7.根据权利要求5所述的句子文本的问题分类处理装置，其特征在于，所述分类单元具体用于：

8.根据权利要求5所述的句子文本的问题分类处理装置，其特征在于，在所述对待进行问题分类的句子文本进行切分的步骤之前，所述句子文本的问题分类处理装置还用于：

获取待进行专业领域识别的句子文本；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至4任一所述方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至4任一所述方法。