CN115878793B

CN115878793B - 多标签文档分类方法、装置、电子设备及介质

Info

Publication number: CN115878793B
Application number: CN202210583304.XA
Authority: CN
Inventors: 贾敬伍; 蒋宁; 周长安
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2023-08-25
Anticipated expiration: 2042-05-25
Also published as: CN115878793A

Abstract

本申请公开了一种多标签文档分类方法、装置、电子设备及介质。其中方法包括：确定待标注的初始文档；基于若干种目标文档类别，确定初始文档所属目标文档类别的第一类别标签；基于预构建的文本类别识别模型，确定初始文档所属的文本类别第二类别标签；对第一类别标签和第二类别标签进行融合，得到融合标签；依据融合标签对初始文档进行标注，得到带有融合标签的目标文档。本申请解决相关多标签分类技术中存在长尾分布的问题，同时实现了利用机器学习技术实现文档分类的自动化、智能化识别的目的，进而通过两种类别标签的融合，不仅实现了均衡文档分类，避免某些文本类别数量过多或多差的问题，还提高了文档分类的质量。

Description

多标签文档分类方法、装置、电子设备及介质

技术领域

本申请涉及图像识别技术领域，具体而言，本申请涉及一种多标签文档分类方法、装置、电子设备及介质。

背景技术

文本分类是自然语言处理的一个基本任务，试图推断出给定的文本(句子、文档等)的标签或标签集合。通常情况下，一个文档对应一个主题或标签，但有时也会对应多个，即“多标签分类”，尤其是在专业领域，当文档数量较大时，单纯依靠人工梳理，效率低下而成本高，而基于分类模型的自动化分类，则不同类别对应的文档可能存在长尾分布，即样本量过小的类别，模型分类的准确率低。

发明内容

本申请提供了一种多标签文档分类方法、装置、电子设备及计算机可读存储介质，可以解决上述问题。所述技术方案如下：

第一方面，提供了一种多标签文档分类方法，该方法包括：

确定待标注的初始文档；

在预设的多种文本类别中，确定待强化的若干种目标文档类别；

基于若干种目标文档类别，确定初始文档所属目标文档类别的第一类别标签；

基于预构建的文本类别识别模型，确定初始文档所属的文本类别第二类别标签；

对第一类别标签和第二类别标签进行融合，得到融合标签；

依据融合标签对初始文档进行标注，得到带有融合标签的目标文档。

第二方面，提供了一种多标签文档分类装置，该装置包括：

未标注文档确定模块，用于确定待标注的初始文档；

强化类别确定模块，用于在预设的多种文本类别中，确定待强化的若干种目标文档类别；

第一标签确定模块，用于基于若干种目标文档类别，确定初始文档所属目标文档类别的第一类别标签；

第二标签确定模块，用于基于预构建的文本类别识别模型，确定初始文档所属的文本类别第二类别标签；

多标签融合处理模块，用于对第一类别标签和第二类别标签进行融合，得到融合标签；

融合标签标注模块，用于依据融合标签对初始文档进行标注，得到带有融合标签的目标文档。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行上述多标签文档分类方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述多标签文档分类方法。

本申请实施例确定待标注的初始文档，在预设的多种文本类别中，确定待强化的若干种目标文档类别，基于若干种目标文档类别，确定初始文档所属目标文档类别的第一类别标签，基于预构建的文本类别识别模型，确定初始文档所属的文本类别第二类别标签，从而对第一类别标签和第二类别标签进行融合，得到融合标签，并依据融合标签对初始文档进行标注，得到带有融合标签的目标文档，这种通过在预设的多种文本类别中筛选待强化的目标文档类别来识别初始文档的第一类别标签的方式，起到了解决相关多标签分类技术中存在长尾分布的问题，而文本类别识别模型的设置则起到了识别初始文档的第二类别标签的效果，达到了利用机器学习技术实现文档分类的自动化、智能化识别的目的，进而通过两种类别标签的融合，不仅实现了均衡文档分类，避免某些文本类别数量过多或多差的问题，还提高了文档分类的质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种多标签文档分类方法的流程示意图；

图2为本申请实施例提供的一种多标签文档分类方法的应用流程示意图；

图3为本申请实施例提供的一种多标签文档分类方法中分布统计结果示意图；以及

图4为本申请实施例提供的一种多标签文档分类装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种多标签文档分类方法，如图1所示，该方法包括：步骤S101至步骤S106。

步骤S101、确定待标注的初始文档。

具体地，可以通过对指定存储空间的读取来确定待标注的初始文档；或者通过预设接口实时获取到的待标注的初始文档。

本申请实施例中，初始文档用于表征未携带有业务类别的文本。

步骤S102、在预设的多种文本类别中，确定待强化的若干种目标文档类别。

具体地，可以根据业务场景来配置文本类别。例如，假设业务场景为与资金业务有关的贷款，那么针对贷款的文本类别可以包括个人贷款、企业贷款、房地产贷款、汽车贷款等。

由于同一个文档可以对应多个文本类别，即存在同一个文档属于多个文档类别的情形，这就使得不同文档类别各自对应的文档的数量不同，存在长尾分布的问题。为了解决这个问题，本申请通过对多种文本类别的筛选，得到文档数量较少的文档类别，即待强化的若干种目标文档类别。例如，假设属于个人贷款的文档数量为10万个、属于企业贷款的文档数量为9万个，属于房地产贷款的文档数量为1000个，属于汽车贷款的文档数量为999个，那么待强化的目标文档类别为房地产贷款和汽车贷款。

步骤S103、基于若干种目标文档类别，确定初始文档所属目标文档类别的第一类别标签。

具体地，可以通过不同目标文档类别各自的预设规则(如关键词)对初始文档进行识别，并依据初始文档包括的全部关键词所落入的目标文档类别，来确定第一类别标签。

具体地，第一类别标签的数量可以为1，或大于1的其他数值，即初始文档满足至少一种目标文档类别。例如，初始文档可以符合汽车贷款这一文档类别，也符合房地产贷款这一文档类别。

步骤S104、基于预构建的文本类别识别模型，确定初始文档所属的文本类别第二类别标签。

具体地，文本类别识别可以为采用卷积神经网络CNN、支持向量机SVM等。应用时，可以直接将初始文档作为文本类别识别模型的输入，也可以先对初始文档进行关键词提取，再将提取到的关键词作为文本类别识别模型的输入。

具体地，第二类别标签的数量可以为1，或大于1的其他数值，即初始文档满足同时满足多个文档类别。

步骤S105、对第一类别标签和第二类别标签进行融合，得到融合标签。

具体地，第一类别标签和第二类别标签的数量均可以为1，也可以为大于1的其他数值。应用时，可以第一类别标签和第二类别标签共同作为融合标签。例如，若第一类别标签为T1，第二类别标签为T2，那么融合标签可以为(T1+T2)。

步骤S106、依据融合标签对初始文档进行标注，得到带有融合标签的目标文档。

在一些实施例中，步骤S102进一步包括：

步骤S1021(图中未示出)、对预存储的文本数据库进行数量统计，得到多种文本类别分别对应的文档数量，其中，文本数据库包括若干文本，以及若干文本各自所属的文本类别；

步骤S1022(图中未示出)、依据多种文本类别分别对应的文档数量，确定文档数量排名最后的预定数值个文本类别作为待强化的目标文档类别。

具体地，预定数值可以是预先配置的，也可以根据业务需要进行动态调整。

具体地，预定数值可以表征排名顺序，排名靠后的比例等。例如，若该参数表征排名靠后的比例，那么直接将文档数量排名最后的K％的文档类别，作为目标文档类别；若该参数表征排名顺序，那么直接将文档数量排名最后的K个文档类别作为目标文档类别。

本申请实施例通过对文本数据库中各类文本类别进行数量统计，得到不同文本类别各自对应的文本数量，从而达到了对文本数据库进行长短分布统计的目的，进而为待强化目标的筛选提供的数据支持。

在一些实施例中，步骤S1022进一步包括：

基于预设的多种业务场景，确定所选定的目标业务场景；

依据目标业务场景，确定预定数值。

具体地，不同业务场景对应不同的预定数量。

在一些实施例中，该方法还包括：

将目标文档存储至针对目标业务场景的数据库。

应用时，可以根据业务景来确定用于存储的数据库，也可以根据目标文档所标注的融合标签来确定。

在一些实施例中，步骤S104基于预构建的文本标签模型，确定所述初始文档的第二类别标签之前，该方法还包括：

获取具有类别标签的若干文本；

利用具有类别标签的若干文本对预设的初始模型进行训练，得到训练好的文本标签模型。

应用前，可以将具有类别标签的若干文本划分为训练集和验证集，通过训练集和验证集来对初始模型进行训练。训练过程中，根据训练结果来对该模型的参数进行调整，直至确定参数后的模型的准确率达到阈值，得到训练好的文本标签模型。

在一些实施例中，步骤S103进一步包括：

确定初始文档的各个关键词；

将初始文档的各个关键词分别与若干种目标文档类别各自对应的若干关键词进行匹配；

依据匹配结果，确定初始文档所属的目标文档类别的第一类别标签。

应用时，可以利用预配置的分词算法来对初始文档进行分词，从而根据分词结果来得到初始文档的关键词；或者利用预设接口调用第三方提供的分词算法来进行分词，从而得到第三方分词算法返回的关键词。

应用时，若初始文档的全部关键词落入同一目标文档类别对应的关键词组中，那么将该同一目标文档类别的类别标签确定为初始文档的类别标签。

在一些实施例中，步骤S105进一步包括：

将第一类别标签和第二类别标签的合集作为融合标签。

应用时，若第一类别标签和第二类别标签不同，那么可以第一类别标签和第二类别标签的合集作为融合标签。例如，若第一类别标签为T1、T2和T3，第二类别标签为T2、T3和T4，那么融合标签为T1、T2、T3和T4。

为了进一步说明本申请实施例提供的方法，下面结合图2进行详细说明。

对未标注数据分类进行分类前，机器学习模型利用标注数据进行训练学习，得到训练好的文本类别识别模型；同时，参照步骤S1021和步骤S1022对标注数据进行分布统计，并根据分布统计结果进行强化目标选取。例如，假设通过分布统计的结果为图3，即：个人贷款的文档数量为10万个，企业贷款的文档数量为1000个，房地产贷款的文档数量为500个，汽车贷款的文档数量为40个，强化目标选取的结果为汽车贷款这一文本类别。对未标注数据进行分类的过程为：首先利用规则匹配引擎提供的预设规则确定出强化目标的规则，得到图2所示的汽车贷款这一强化目标所对应的关键词组，利用该关键词组对未标注数据进行识别，得到规则匹配引擎输出的第一类别标签。应用时，若该未标注数据包括该关键词组的各个关键词，则规则匹配引擎输出的第一类别标签为汽车贷款，否则为空；同时，利用图2中通过训练学习训练好的机器学习模型对未标注数据进行标签预测，得到机器学习模型输出的第二类别标签；然后，对机器学习模型输出的第二类别标签和规则匹配引擎输出的第一类别标签进行标签融合处理，得到融合标签，从而根据该融合标签对初始文档进行标注处理，得到最终的目标文档。

本申请的又一实施例提供了一种多标签文档分类装置，如图4所示，该装置40包括：未标注文档确定模块401、强化类别确定模块402、第一标签确定模块403、第二标签确定模块404、多标签融合处理模块405以及融合标签标注模块406。

未标注文档确定模块401，用于确定待标注的初始文档；

强化类别确定模块402，用于在预设的多种文本类别中，确定待强化的若干种目标文档类别；

第一标签确定模块403，用于基于若干种目标文档类别，确定所述初始文档所属目标文档类别的第一类别标签；

第二标签确定模块404，用于基于预构建的文本类别识别模型，确定所述初始文档所属的文本类别第二类别标签；

多标签融合处理模块405，用于对所述第一类别标签和所述第二类别标签进行融合，得到融合标签；

融合标签标注模块406，用于依据所述融合标签对所述初始文档进行标注，得到带有融合标签的目标文档。

进一步地，强化类别确定模块包括：

文本分布统计子模块，用于对预存储的文本数据库进行数量统计，得到多种文本类别分别对应的文档数量，其中，所述文本数据库包括若干文本，以及若干文本各自所属的文本类别；

强化目标选取子模块，用于依据多种文本类别分别对应的文档数量，确定文档数量排名最后的预定数值个文本类别作为待强化的所述目标文档类别。

更进一步地，强化目标选取子模块包括：

场景确定单元，用于基于预设的多种业务场景，确定所选定的目标业务场景；

数值确定单元，用于依据所述目标业务场景，确定所述预定数值。

进一步地，融合标签标注模块还包括：

文档存储子模块，用于将所述目标文档存储至针对所述目标业务场景的数据库。

进一步地，第二标签确定模块基于预构建的文本标签模型，确定所述初始文档的第二类别标签之前，还包括：

样本获取子模块，用于获取具有类别标签的若干文本；

模型训练子模块，用于利用具有类别标签的若干文本对预设的初始模型进行训练，得到训练好的文本标签模型。

进一步地，第一标签确定模块包括：

关键词确定子模块，用于确定所述初始文档的各个关键词；

关键词匹配子模块，用于将所述初始文档的各个关键词分别与若干种目标文档类别各自对应的若干关键词进行匹配；

第一标签确定子模块，用于依据匹配结果，确定所述初始文档所属的目标文档类别的第一类别标签。

进一步地，多标签融合处理模块包括：

融合标签确定子模块，用于将所述第一类别标签和所述第二类别标签的合集作为融合标签。

本实施例的多标签文档分类装置可执行本申请实施例一所示的多标签文档分类方法，其实现原理相类似，此处不再赘述。

本申请又一实施例提供了一种终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行计算机程序时以实现上述多标签文档分类方法。

具体地，处理器可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

具体地，处理器通过总线与存储器连接，总线可包括一通路，以用于传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。

存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

可选的，存储器用于存储执行本申请方案的计算机程序的代码，并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码，以实现上述实施例提供的多标签文档分类装置的动作。

本申请又一实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述多标签文档分类方法。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种多标签文档分类方法，其特征在于，包括：

确定待标注的初始文档；

基于若干种目标文档类别，确定所述初始文档所属目标文档类别的第一类别标签；

基于预构建的文本类别识别模型，确定所述初始文档所属的文本类别第二类别标签；

对所述第一类别标签和所述第二类别标签进行融合，得到融合标签；

依据所述融合标签对所述初始文档进行标注，得到带有融合标签的目标文档；

所述在预设的多种文本类别中，确定待强化的若干种目标文档类别的步骤，包括：

对预存储的文本数据库进行数量统计，得到多种文本类别分别对应的文档数量，其中，所述文本数据库包括若干文本，以及若干文本各自所属的文本类别；

依据多种文本类别分别对应的文档数量，确定文档数量排名最后的预定数值个文本类别作为待强化的所述目标文档类别；

所述基于若干种目标文档类别，确定所述初始文档所属目标文档类别的第一类别标签的步骤，包括：

确定所述初始文档的各个关键词；

将所述初始文档的各个关键词分别与若干种目标文档类别各自对应的若干关键词进行匹配；

依据匹配结果，确定所述初始文档所属的目标文档类别的第一类别标签。

2.根据权利要求1所述的方法，其特征在于，所述依据多种文本类别分别对应的文档数量，确定文档数量排名最后的若干种文本类别作为待强化的若干种所述目标文档类别的步骤，包括：

基于预设的多种业务场景，确定所选定的目标业务场景；

依据所述目标业务场景，确定所述预定数值个。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述目标文档存储至针对所述目标业务场景的数据库。

4.根据权利要求1所述的方法，其特征在于，所述基于预构建的文本标签模型，确定所述初始文档的第二类别标签的步骤之前，所述方法还包括：

获取具有类别标签的若干文本；

5.根据权利要求1所述的方法，其特征在于，所述对所述第一类别标签和所述第二类别标签进行融合，得到融合标签的步骤，包括：

将所述第一类别标签和所述第二类别标签的合集作为融合标签。

6.一种多标签文档分类装置，其特征在于，包括：

未标注文档确定模块，用于确定待标注的初始文档；

第一标签确定模块，用于基于若干种目标文档类别，确定所述初始文档所属目标文档类别的第一类别标签；

第二标签确定模块，用于基于预构建的文本类别识别模型，确定所述初始文档所属的文本类别第二类别标签；

多标签融合处理模块，用于对所述第一类别标签和所述第二类别标签进行融合，得到融合标签；

融合标签标注模块，用于依据所述融合标签对所述初始文档进行标注，得到带有融合标签的目标文档；

所述强化类别确定模块包括：

强化目标选取子模块，用于依据多种文本类别分别对应的文档数量，确定文档数量排名最后的预定数值个文本类别作为待强化的所述目标文档类别；

所述第一标签确定模块包括：

关键词确定子模块，用于确定所述初始文档的各个关键词；

7.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5任一项所述的方法。