CN115964484A

CN115964484A - 基于多标签分类模型实现的法律多意图识别方法和装置

Info

Publication number: CN115964484A
Application number: CN202211441568.8A
Authority: CN
Inventors: 张泽龙
Original assignee: Beijing Zhipu Huazhang Technology Co ltd
Current assignee: Beijing Zhipu Huazhang Technology Co ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-04-14

Abstract

本申请提出了一种基于多标签分类模型实现的法律多意图识别方法，涉及意图识别技术领域，其中，该方法包括：获取原始法律咨询的文本数据和咨询意图，对文本数据进行预处理；将预处理后的文本数据作为输入，将文本数据对应的咨询意图作为标签对GLM模型进行微调训练，得到多分类意图识别模型；获取待识别文本数据，对待识别文本数据进行预处理；将待识别文本数据输入多分类意图识别模型，生成待识别文本数据对应的多个意图。本申请通过模型学习能够在法律意图识别中更加客观准确的分析咨询者的意图，提升了识别效率、准确率和全面性。

Description

基于多标签分类模型实现的法律多意图识别方法和装置

技术领域

本申请涉及意图识别技术领域，尤其涉及一种基于多标签分类模型实现的法律多意图识别方法和装置。

背景技术

目前对于法律领域，问答系统的实际使用较少。在实际生活中，法律咨询应用非常广泛，对咨询者问题的解答，处理对当前问题的理解，也需要结合实际的咨询者的情况，分析出咨询者的意图，进行解答。

法律咨询场景和一般问答场景相比，其意图划分更加精细，并且问答方式需要融入法律领域的相关能力模型，为了达到这个目的，需要通过把机器学习模型嵌入系统来实现。难点在于，由于法律领域信息很广，意图类别非常精细，同一条文本在不同场景下可能对应不同的意图，或者同时对应多个意图。如何结合对话识别出咨询者当前场景下，准确的，完整的意图，直接对当前法律FAQ问答系统的准确率产生影响。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种基于多标签分类模型实现的法律多意图识别方法，解决了现有意图识别方法难以准确完整的识别咨询者的意图的技术问题，通过使用少量数据对模型进行训练，使得模型能够在法律意图识别中更加客观准确的分析咨询者的意图，提升了识别效率、准确率和全面性。

本申请的第二个目的在于提出一种基于多标签分类模型实现的法律多意图识别装置。

本申请的第三个目的在于提出一种计算机设备。

本申请的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种基于多标签分类模型实现的法律多意图识别方法，包括：获取原始法律咨询的文本数据和咨询意图，对文本数据进行预处理；将预处理后的文本数据作为输入，将文本数据对应的咨询意图作为标签对GLM模型进行微调训练，得到多分类意图识别模型；获取待识别文本数据，对待识别文本数据进行预处理；将待识别文本数据输入多分类意图识别模型，生成待识别文本数据对应的多个意图。

可选地，在本申请的一个实施例中，对文本数据进行预处理，包括：

使用文本改写模型将文本数据改写为书面文本数据；

通过指代消解模型对书面文本数据进行指代消解，消除歧义文本；

去除经过指代消解的书面文本数据的停用词；

分别对所述去除停用词的书面文本数据提取关键词和文本摘要，得到关键词和文本摘要。

可选地，在本申请的一个实施例中，在使用文本改写模型将文本数据改写为书面文本数据之前，包括：

获取法律口语化文本及其对应语意的书面文本作为训练数据；

将口语化文本作为输入，将书面文本作为标签，对文本改写模型进行训练。

可选地，在本申请的一个实施例中，通过指代消解模型对书面文本数据进行指代消解，消除歧义文本，包括：

使用BERT模型提取实体的嵌入表示；

根据嵌入表示进行实体指代关系预测；

根据实体指代关系的预测结果，对书面文本数据进行指代消解预测，从而得到经过指代消解的书面文本数据。

可选地，在本申请的一个实施例中，在通过指代消解模型对书面文本数据进行指代消解，消除歧义文本之前，包括：

获取对话数据；

通过对对话数据进行实体指代和指代关系标注，构建训练数据集；

利用训练数据集对指代消解模型进行训练。

可选地，在本申请的一个实施例中，将待识别文本数据输入多分类意图识别模型，生成待识别文本数据对应的多个意图，包括：

将待识别文本数据输入多分类意图识别模型，多分类意图识别模型自动识别意图数量和意图类别，并依次输出识别得到的多个意图。

为达上述目的，本发明第二方面实施例提出了一种基于多标签分类模型实现的法律多意图识别装置，包括：

第一获取模块，用于获取原始法律咨询的文本数据和咨询意图，对文本数据进行预处理；

训练模块，用于将预处理后的文本数据作为输入，将文本数据对应的咨询意图作为标签对GLM模型进行微调训练，得到多分类意图识别模型；

第二获取模块，用于获取待识别文本数据，对待识别文本数据进行预处理；

生成模块，用于将待识别文本数据输入多分类意图识别模型，生成待识别文本数据对应的多个意图。

使用文本改写模型将文本数据改写为书面文本数据；

去除经过指代消解的书面文本数据的停用词；

分别对去除停用词的书面文本数据提取关键词和文本摘要，得到关键词和文本摘要。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现上述施例所述的基于多标签分类模型实现的法律多意图识别方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，能够执行一种基于多标签分类模型实现的法律多意图识别方法。

本申请基于多标签分类模型实现的法律多意图识别方法、装置、计算机设备和非临时性计算机可读存储介质，解决了现有意图识别方法难以准确完整的识别咨询者的意图的技术问题，通过使用少量数据对模型进行训练，使得模型能够在法律意图识别中更加客观准确的分析咨询者的意图，提升了识别效率、准确率和全面性。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的一种基于多标签分类模型实现的法律多意图识别方法的流程图；

图2为本申请实施例的基于多标签分类模型实现的法律多意图识别方法的另一个流程图；

图3为本申请实施例二所提供的一种基于多标签分类模型实现的法律多意图识别装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

随着人工智能的发展，人工智能模型经过了非神经网络的完全监督学习，基于神经网络的完全监督学习，预训练模型&微调。前两种任务，需要通过大量的数据针对每一个任务进行模型训练，训练出的模型只能应用于当前任务，迁移性较差。预训练模型可以通过海量数据对模型上游任务进行预训练，然后根据具体场景的少量数据对其下游任务进行微调，使其能处理特定任务。通过不同的预料数据进行微调，使得模型能在处理特定任务的情况下获得更好的结果。因此，基于法律方面的数据，可以训练出包含法律文本意图识别等专业技能的模型。

由于一条法律文本可能包含多种不同的标签，即意图，因此需要对其进行准确的不定意图数量的意图识别。对于多标签分类问题的实现方法有很多种。例如之前提到的监督学习，可以将多个标签问题理解为多分类问题，从而使用多个分类器获取多标签的结果。再比如基于T5模型，通过预训练模型直接输出结果。

通过多个分类器的方式，需要根据行业经验统计出总的类别数量n，针对这n个类别分别训练n个分类器。每一个分类器只需要负责判断该条数据是否具有对应的标签。而通过多个分类器，则可以实现对于多标签问题的处理。缺点是需要大量的标注数据训练，模型很大并且只能对已统计出的n个类别进行分类，无法对n个类别之外的识别。

目前在行业中对于多意图识别大多数采用的是基于大量数据，统计总类别数量，针对性的训练出多个分类器分别进行意图识别；也有通过bert模型做上游文本嵌入任务，下游通过多个分类器进行多个意图识别任务。现有方法只能通过有监督学习进行单独类别的预测，并且需要大量训练数据；同时，现有模型预测的类别固定、有局限性，且只能针对已有的固定的类别进行预测。

本申请通过文本生成的方式，将多标签的结果字符串直接转化为模型的输出。这种方式的优点在于可以通过一个模型把几乎所有的深度学习任务转化为文本生成任务。因此可以通过文本生成的方式，输出多标签问题的结果，可以使用更少的数据集达到更好的效果，能够预测得到更广泛，更准确的类别预测结果。

下面参考附图描述本申请实施例的基于多标签分类模型实现的法律多意图识别方法和装置。

图1为本申请实施例一所提供的一种基于多标签分类模型实现的法律多意图识别方法的流程示意图。

如图1所示，该基于多标签分类模型实现的法律多意图识别方法包括以下步骤：

步骤101，获取原始法律咨询的文本数据和咨询意图，对文本数据进行预处理；

步骤102，将预处理后的文本数据作为输入，将文本数据对应的咨询意图作为标签对 GLM模型进行微调训练，得到多分类意图识别模型；

步骤103，获取待识别文本数据，对待识别文本数据进行预处理；

步骤104，将待识别文本数据输入多分类意图识别模型，生成待识别文本数据对应的多个意图。

本申请实施例的基于多标签分类模型实现的法律多意图识别方法，通过获取原始法律咨询的文本数据和咨询意图，对文本数据进行预处理；将预处理后的文本数据作为输入，将文本数据对应的咨询意图作为标签对GLM模型进行微调训练，得到多分类意图识别模型；获取待识别文本数据，对待识别文本数据进行预处理；将待识别文本数据输入多分类意图识别模型，生成待识别文本数据对应的多个意图。由此，能够解决现有意图识别方法难以准确完整的识别咨询者的意图的技术问题，通过使用少量数据对模型进行训练，使得模型能够在法律意图识别中更加客观准确的分析咨询者的意图，提升了识别效率、准确率和全面性。

本申请通过模型学习和掌握法律文本的语意并且分析意图，使得模型在法律意图识别中能更将客观准确的分析出咨询者的意图。本申请使用已有预训练模型，通过少量数据即可以对模型进行训练。相对于多分类器的有监督学习模型，本申请通过一个模型同时获得全部的意图，提升了识别效率；对于分类器不能识别的意图，本模型也具有识别能力，提升了准确率和全面性。

进一步地，在本申请实施例中，对文本数据进行预处理，包括：

使用文本改写模型将文本数据改写为书面文本数据；

去除经过指代消解的书面文本数据的停用词；

本申请对文本数据进行预处理，包括：

文本改写：将输入的口语化文本改写为书面文本；其中，通过文本改写模型，即T5模型对输入文本进行一对一改写。

指代消解：将输入的文本和前后文进行指代消解，消除歧义文本(比如，它，这个，那个等)，其中，指代消解是采用pipeline方式，使用Bert提取实体的嵌入表示，首先进行实体指代关系预测，然后进行指代消解预测。

去除停用词：去除无意义的词语。

提取关键词文本：采用TF-IDF模型从对话内容中提取关键词。

本申请的IDF部分的计算采用咨询ASR语料数据，以每一次咨询为单位，将文本进行内容切分，从而计算IDF，获取关键词提取模型。

提取摘要：摘要提取采用TextRank从对话内容中提取摘要。

本申请对输入的口语化文本进行改写和指代消解，尽可能减少预训练模型的输入，同时又能够尽可能保留能够分析出咨询者讲话的法律意图。

进一步地，在本申请实施例中，在使用文本改写模型将文本数据改写为书面文本数据之前，包括：

本申请训练数据的输入文本为法律口语化文本，标签为对应语意的书面话文本，对文本改写模型进行训练。

进一步地，在本申请实施例中，通过指代消解模型对书面文本数据进行指代消解，消除歧义文本，包括：

使用BERT模型提取实体的嵌入表示；

根据嵌入表示进行实体指代关系预测；

本申请的指代消解是将输入的文本和前后文进行指代消解，消除歧义文本(比如，它，这个，那个等)，其中，指代消解是采用pipeline方式，使用Bert提取实体的嵌入表示，首先进行实体指代关系预测，然后进行指代消解预测。

进一步地，在本申请实施例中，在通过指代消解模型对书面文本数据进行指代消解，消除歧义文本之前，包括：

获取对话数据；

利用训练数据集对指代消解模型进行训练。

本申请对实际对话数据进行实体指代和指代关系标注，构建数据集进行训练，得到指代消解模型。

进一步地，在本申请实施例中，将待识别文本数据输入多分类意图识别模型，生成待识别文本数据对应的多个意图，包括：

本申请中GLM的微调采用预处理后的语料数据和人工标注后的标签。其中，语料数据部分采用原始的咨询场景ASR后的文本内容，实际的咨询意图进行标签标注。

本申请使用微调后的GLM模型进行生成。输入文本，GLM自动识别意图数量，和意图类别，然后对多个意图依次输出。将GLM生成模型转变为多分类意图识别模型。

图2为本申请实施例的基于多标签分类模型实现的法律多意图识别方法的另一个流程图。

如图2所示，该基于多标签分类模型实现的法律多意图识别方法，输入法律咨询文本；对文本进行预处理，其中，文本预处理包括文本改写、指代消解、去除停用词、提取文本关键词和提取摘要；将预处理后的文本输入微调后的预训练模型，通过生成任务对意图进行生成；输出文本对应的多个意图。

图3为本申请实施例二所提供的一种基于多标签分类模型实现的法律多意图识别装置的结构示意图

如图3所示，该基于多标签分类模型实现的法律多意图识别装置，包括：

第一获取模块10，用于获取原始法律咨询的文本数据和咨询意图，对文本数据进行预处理；

训练模块20，用于将预处理后的文本数据作为输入，将文本数据对应的咨询意图作为标签对GLM模型进行微调训练，得到多分类意图识别模型；

第二获取模块30，用于获取待识别文本数据，对待识别文本数据进行预处理；

生成模块40，用于将待识别文本数据输入多分类意图识别模型，生成待识别文本数据对应的多个意图。

本申请实施例的基于多标签分类模型实现的法律多意图识别装置，包括：第一获取模块，用于获取原始法律咨询的文本数据和咨询意图，对文本数据进行预处理；训练模块，用于将预处理后的文本数据作为输入，将文本数据对应的咨询意图作为标签对GLM模型进行微调训练，得到多分类意图识别模型；第二获取模块，用于获取待识别文本数据，对待识别文本数据进行预处理；生成模块，用于将待识别文本数据输入多分类意图识别模型，生成待识别文本数据对应的多个意图。由此，能够解决现有意图识别方法难以准确完整的识别咨询者的意图的技术问题，通过使用少量数据对模型进行训练，使得模型能够在法律意图识别中更加客观准确的分析咨询者的意图，提升了识别效率、准确率和全面性。

使用文本改写模型将文本数据改写为书面文本数据；

去除经过指代消解的书面文本数据的停用词；

为了实现上述实施例，本发明还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现上述施例所述的基于多标签分类模型实现的法律多意图识别方法。

为了实现上述实施例，本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的基于多标签分类模型实现的法律多意图识别方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于多标签分类模型实现的法律多意图识别方法，其特征在于，包括以下步骤：

获取原始法律咨询的文本数据和咨询意图，对所述文本数据进行预处理；

将所述预处理后的文本数据作为输入，将所述文本数据对应的咨询意图作为标签对GLM模型进行微调训练，得到多分类意图识别模型；

获取待识别文本数据，对所述待识别文本数据进行预处理；

将所述待识别文本数据输入多分类意图识别模型，生成所述待识别文本数据对应的多个意图。

2.如权利要求1所述的方法，其特征在于，对所述文本数据进行预处理，包括：

使用文本改写模型将所述文本数据改写为书面文本数据；

通过指代消解模型对所述书面文本数据进行指代消解，消除歧义文本；

去除经过指代消解的书面文本数据的停用词；

3.如权利要求2所述的方法，其特征在于，在所述使用文本改写模型将所述文本数据改写为书面文本数据之前，包括：

将所述口语化文本作为输入，将所述书面文本作为标签，对所述文本改写模型进行训练。

4.如权利要求2所述的方法，其特征在于，所述通过指代消解模型对所述书面文本数据进行指代消解，消除歧义文本，包括：

使用BERT模型提取实体的嵌入表示；

根据所述嵌入表示进行实体指代关系预测；

根据所述实体指代关系的预测结果，对所述书面文本数据进行指代消解预测，从而得到经过指代消解的书面文本数据。

5.如权利要求4所述的方法，其特征在于，在所述通过指代消解模型对所述书面文本数据进行指代消解，消除歧义文本之前，包括：

获取对话数据；

通过对所述对话数据进行实体指代和指代关系标注，构建训练数据集；

利用所述训练数据集对所述指代消解模型进行训练。

6.如权利要求1所述的方法，其特征在于，所述将所述待识别文本数据输入多分类意图识别模型，生成所述待识别文本数据对应的多个意图，包括：

将所述待识别文本数据输入多分类意图识别模型，所述多分类意图识别模型自动识别意图数量和意图类别，并依次输出识别得到的多个意图。

7.一种基于多标签分类模型实现的法律多意图识别装置，其特征在于，包括：

第一获取模块，用于获取原始法律咨询的文本数据和咨询意图，对所述文本数据进行预处理；

训练模块，用于将所述预处理后的文本数据作为输入，将所述文本数据对应的咨询意图作为标签对GLM模型进行微调训练，得到多分类意图识别模型；

第二获取模块，用于获取待识别文本数据，对所述待识别文本数据进行预处理；

生成模块，用于将所述待识别文本数据输入多分类意图识别模型，生成所述待识别文本数据对应的多个意图。

8.如权利要求7所述的装置，其特征在于，对所述文本数据进行预处理，包括：

使用文本改写模型将所述文本数据改写为书面文本数据；

去除经过指代消解的书面文本数据的停用词；

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-6中任一所述的方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。