CN113377954A

CN113377954A - 一种文本的分类方法、装置、电子设备以及计算机可读介质

Info

Publication number: CN113377954A
Application number: CN202110604318.0A
Authority: CN
Inventors: 黄卫航; 江敏; 赵东辉; 张子澈
Original assignee: Hangzhou Dtwave Technology Co ltd
Current assignee: Hangzhou Dtwave Technology Co ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-10

Abstract

本申请公开了一种文本的分类方法、装置、电子设备以及计算机可读介质。先将文本输入多分类模型，以将所述文本归入第一类目；如果所述文本符合给定规则集合中的一项规则并且该项规则对应于不同于所述第一类目的第二类目，则将所述文本归入到所述第二类目。从而可以实现文本和类目之间的更精准的匹配。

Description

一种文本的分类方法、装置、电子设备以及计算机可读介质

技术领域

本申请涉及计算机技术，特别地涉及一种文本的分类方法、系统、电子设备以及存储介质。

背景技术

在例如地产开发等服务型行业，在房屋设计、建造、购买以及后续物业服务等过程中，客户都可能产生对于服务的反馈及投诉诉求。地产商收集到客户针对各种问题的投诉数据后，需要对投诉数据进行及时处理，并准确地挖掘出海量投诉数据所指向的待改善的问题；

现有技术主要依赖人工判断客户投诉反馈的问题。人工处理的方式效率较为低下，且很难找到客户的实际投诉痛点，

发明内容

依据本申请的第一方面，提供了一种文本的分类方法，包括：

将文本输入多分类模型，以将所述文本归入第一类目；

如果所述文本符合给定规则集合中的一项规则并且该项规则对应于不同于所述第一类目的第二类目，则将所述文本归入到所述第二类目。

依据本申请的第二方面，提供了一种文本的分类装置，包括：

第一分类模块，用于将文本输入多分类模型，以将所述文本归入第一类目；

第二分类模块，用于如果所述文本符合给定规则集合中的一项规则并且该项规则对应于不同于所述第一类目的第二类目，则将所述文本归入到所述第二类目。

依据本申请的第三方面，提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为能够执行所述指令，以实现如第一方面所述的方法。

依据本申请的第四方面，提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令被计算机执行时能够执行如第一方面所述的方法。

本申请公开了一种文本的分类方法、装置、电子设备以及计算机可读介质。先将文本输入多分类模型，以将所述文本归入第一类目；如果所述文本符合给定规则集合中的一项规则并且该项规则对应于不同于所述第一类目的第二类目，则将所述文本归入到所述第二类目。在利用多分类模型得到文本的初始分类类目之后，进一步使用业务规则进行二次分类。从而可以实现文本和类目之间的更精准的匹配。

附图说明

图1是本申请一示例性实施例示出文本分类方法的一种流程图；

图2是本申请一示例性实施例示出类目划分方式的一种示意图；

图3是本申请一示例性实施例示出多分类模型训练方法的一种示意图；

图4是本申请一示例性实施例示出文本分类方法的另一种流程图；

图5是本申请一示例性实施例示出文本分类装置的一种示意图。

具体实施方式

现在将参照若干示例性实施例来论述本申请的内容。应当理解，论述了这些实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本申请的内容，而不是暗示对本申请的范围的任何限制。

如本文中所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。如本文中所使用的，术语“任务”可以指任何一种可执行单元，包括但不限于进程、线程、模块或其集合。

本申请的实施例提供了文本的分类方法。参见图1，是根据一示例性实施例示出了一种文本的分类方法的示意图，包括以下步骤S101～步骤S102。

在步骤S101中，将文本输入多分类模型，以将所述文本归入第一类目；

在步骤S102中，如果所述文本符合所述规则集合中的一项规则并且该项规则对应于不同于所述第一类目的第二类目，则将所述文本归入到所述第二类目。

本实施例中，规则集合中的规则可以是关键词规则，例如，某项规则指定了某些关键词，并指定了与这些关键词对应的类目。当某投诉文本中包含这些关键词中一个或多个时，判定该投诉文本符合这项规则。

在一些实施例中，在判定所述文本是否符合所述规则集合中的一项规则所指定的关键词时，可以基于该规则指定的关键词设定正则表达式。使用该正则表达式对该文本进行字符串匹配，若匹配成功，则判定该文本包括所述规则指定的关键词。

本实施例中，首先利用预先训练的多分类模型对文本进行分类，得到多分类模型输出的文本的所属类目(即文本被归入的第一类目)。所涉及的文本例如可以是用户上传的待分类的投诉文本。然后继续使用规则集合中的规则对文本与类目进行精准重匹配，从而优化分类结果，实现精准分类。

以文本是地产行业的投诉文本为例，说明规则集合中可以包括的几类规则，其中，该地产行业的类目按照一级-二级-三级树状从上级向下级细分，最终得到若干三级类目：

1，对于纯报修报事，咨询类，表扬类的投诉问题，应归属为“其他”这个类目。具体而言：如果检测到投诉文本中出现“咨询”，“表扬”，“点赞”等关键词，则判定该投诉文本符合对应于“其他”类目的规则。强制将该文本归为“其他”这个类目内。

2，对于若干容易混淆的类目，分别设定相应的规则来进行二次判定，此处可以基于业务专家的实际业务经验，确定容易混淆的若干类目，并为这些容易混淆的类目设定对应的关键词作为规则。

在一些实施例中，可以将全部投诉文本通过多分类模型进行分类后，再使用规则对被归于易混淆的类目下的投诉文本进行校验。或者，也可以逐条处理投诉文本，在将一条投诉文本通过多分类模型进行分类后，若该投诉文本被归入易混淆类目，则使用规则对该投诉文本进行校验。

比如对于类目“管家_收费”、“二手房销售_收费”、“美居服务_收费”、“收费_合法合规”、“收费_公开透明”、“认购服务_乱收费用”等若干个类目，都是费用相关的类目，较容易产生混淆，需要为这些类目分别设定规则，并使用所设定的规则校验经模型分类后归入这些类目的文本。

又比如对于二级类目“室内保修”和“有偿维修”，其下面均包含三个三级类目，二级类目之间亦容易混淆，利用多分类模型进行分类后依然会有很大一部分投诉文本出现分类错误的情形，需要设定规则来进一步判定。例如：若投诉文本中出现像“灯泡”之类的维修关键词，则将该投诉文本强制归入“有偿维修”下相应类目。

3，某些二级类目下有若干个三级类目，这些三级类目所反映的投诉情况较为类似，但又有相应的区分度。在模型无法分辨的情况下，亦应通过相应的规则去做区分。

在优化文本分类结果时，除了设定规则进行精准重匹配之外，还可通过数据回标与模型优化的方式进一步得到分类更为精准的多分类模型。具体而言，可以人工检查部分类目的预测结果，对于显著分类错误的文本，进行二次回标，更新原始训练集，并重新训练模型，重复迭代该过程，从而实现模型层面的优化。

下面以地产行业的投诉问题分类为例，说明本申请方案在实际场景中的实施方式。包括以下步骤S201到步骤S204。

在步骤S201中，构建数据类目分类标准。

在此步骤中，综合地产行业在设计、施工建造、销售、物业服务等全生命周期的各个阶段的不同特点，并基于地产业务专家的业务经验，构建出基于地产行业服务问题的投诉数据的类目标准。

从整个地产开发的全周期的角度来看，可以将全周期分为两大阶段：第一阶段是地产开发与销售服务阶段，第二阶段则是物业服务阶段。

目前房地产行业基本是期房销售的模式，故地产开发与销售服务阶段主要是包括销售服务、售后服务、设计建造及工开交付等过程。因此地产开发与销售服务阶段分为销售服务，售后服务，设计建造，工开交付等四个一级类目。

物业服务阶段则是主要包括在房屋整体交付之后两年后的开发商自有物业等为客户提供物业全服务的阶段。物业服务阶段主要分为环境服务，秩序维护类，维修服务，客服人员，社区生活，合同履约等六个一级类目。

两个阶段的各个一级类目下又分别包含若干个二级类目，同时，每个二级类目下面又可以包含若干个三级类目。通过层层向下细分形成多叉树，最终细分出整套N级(例如三级)类目的分类标准。如图2，是该分类标准的一种具体类目划分方式的示意图。

在步骤S202中，构建多分类模型的训练数据。

此步骤中，提取已有的投诉文本，并将提取出的投诉文本构建成多分类模型的训练数据。这些已有的投诉文本可以是累积收集的实际投诉文本。

首先按照前述所构建的投诉文本分类标准确定训练文本的数据量的大小。例如：所构建的分类标准是按照一二三级向下划分的树状类目体系，最上层是一级类目，最下层是三级类目，共细分出115个三级类目。将每个三级类目所对应的训练文本的数据量设置为指定条数，例如1000条。那么最终可以应用于机器学习模型训练和验证的训练文本的数据量将被设置为11.5万条左右。

以其中一个三级类目L进行举例说明，需要提取1000条归属于类目L的投诉文本并置入训练数据集，该训练数据集用于训练多分类模型，使得多分类模型能够学习到归属于类目L的投诉文本的特征。

现有的投诉文本没有区分归属类目，在提取能够被归入类目L的投诉文本时，可以基于该类目L本身所蕴含的内在数据含义及特点确定相应的关键词，然后结合正则表达式，利用SQL查询的方式，在地产商的数据仓库和/或大数据平台的数据中台中提取包括该关键词的投诉文本，组成类目L的候选训练数据集。

在提取出候选训练数据集后，可以使用人工验证等方式确认候选数据集中的投诉文本的方式，验证根据该关键词提取出的投诉文本是否能够正确反映该三级类目L的实际含义。根据验证结果相应调整关键词，然后根据调整后的关键词再次提取候选训练数据集…如此反复迭代后，得到合适的类目L的训练数据集D。

在一些实施例中，在获取到训练数据集D后，还可以进一步对该训练数据集D中的文本进行筛选，以去除数据集D中混杂的应被归属于其他三级类目L2的文本。

在得到所有三级类目对应的训练数据集后，最终可以得到由所有三级类目的训练数据集所组成的最终的训练数据集S。

在一些实施例中，可以对训练数据集S进行数据清洗处理。对部分数据量较小的类目做数据增强处理。例如，针对任一类目，若提取出的包含了该类目对应的关键词的投诉文本的数量不满足预定条件(例如提取出的投诉文本不够1000条)，则构造出填充文本与该提取出的投诉文本合并，使合并后的文本的数量满足预定条件。

在步骤S203中，构建地产数据的多分类模型。

此步骤中，基于上述获取的训练数据集S，构建出其中的每个投诉文本相对应的词向量，或者利用现有开源的已构建好的词向量(例如基于中文的word2vec、glove或bert预训练模型)。

不同投诉文本的长度不一致，在一些实施例中，可以将所有的投诉文本处理成统一的长度，以便于进行批处理等操作。例如，可以将投诉文本的长度限制为统一的512个词。若某条投诉文本的长度超过512，则将该投诉文本中超过512长度后的词丢弃。若某条投诉文本长度小于512，则使用零向量(即每个维度都是数值0的向量)将该条投诉文本的长度补齐至512。例如，若某条投诉文本的长度为400，即只有400个词，则会在第401个词开始补充112个零向量。

参考图3和图4，针对每条投诉文本，先从训练的词向量模型中读取词向量，并作为初始化值输入到模型之中，再进行相应的positional encoding处理，加入相关的位置编码信息，然后经过transformer encoding处理后，得到对应的特征向量。将最终提取到的丰富的特征集，输入至softmax函数中，构成深度学习多分类网络结构，此时基于深度学习的多分类模型构建完毕。

在步骤S204中，构建业务规则辅助实现精准的数据分类校验及优化。

在多分类模型被构建完毕后，可以基于该多分类模型和规则将待识别的投诉文本进行分类。具体过程可参考图1所示的实施例。

本申请实施例基于行业的业务特点设定文本的类目分类标准，并根据所设定的类目构建多分类模型。在利用多分类模型得到文本的初始分类类目之后，进一步使用业务规则进行二次分类。从而可以实现文本和类目之间的更精准的匹配。

相应于上述方法实施例，本申请实施例还提供一种装置，参见图5所示，所述装置可以包括：

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请实施例还提供一种电子设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述文本的分类方法，所述方法包括：

将文本输入多分类模型，以将所述文本归入第一类目；

本申请实施例还提供一种计算机可读介质，其上存储有计算机可读指令，所述指令被执行时可实施本申请各实施例的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现文本存储。文本可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁存储设备存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的文本。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

根据需要，本申请各实施例的系统、方法和装置可以实现为纯粹的软件(例如用Java和SQL来编写的软件程序)，也可以根据需要实现为纯粹的硬件(例如专用ASIC芯片或FPGA芯片)，还可以实现为结合了软件和硬件的系统(例如存储有固定代码的固件系统或者带有通用存储器和处理器的系统)。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

以上所述仅是本申请实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请实施例的保护范围。

Claims

1.一种文本的分类方法，包括：

将文本输入多分类模型，以将所述文本归入第一类目；

2.如权利要求1所述的方法，所述方法包括：

若所述文本被归入的第一类目是所指定的易混淆类目，则获取所述易混淆类目对应的规则，并判定所述文本是否符合所获取到的规则。

3.如权利要求1所述的方法，确定所述文本符合给定规则集合中的一项规则的方式，包括：确定所述文本包含给定规则集合中的一项规则所指定的关键词。

4.如权利要求3所述的方法，所述判定所述文本包含给定规则集合中的一项规则所指定的关键词的方式，包括：

针对给定规则集合中的一项规则，获取基于所述规则指定的关键词所设定的正则表达式；

使用所述正则表达式对所述文本进行字符串匹配，若匹配成功，则判定所述文本包含所述规则指定的关键词。

5.如权利要求1所述的方法，所述多分类模型的训练方式，包括：

确定文本能够被归属的多个类目，并确定所述多个类目中的每个类目所对应的关键词；

针对所述多个类目中的任一类目，提取包含了所述类目对应的关键词的文本，置入用于模型训练的文本集合中；

处理所述文本集合中的每条文本以得到其对应的特征向量，将所述文本集合所对应的特征向量集合输入至softmax函数中，以训练出多分类模型。

6.如权利要求5所述的方法，所述提取包含了所述类目对应的关键词的文本，包括：

获取基于所述类目对应的关键词所设定的正则表达式；

利用SQL查询功能在数据库查询符合所述正则表达式的文本，并提取出所述文本。

7.如权利要求5所述的方法，还包括：

提取出包含了所述类目对应的关键词的文本后，验证所述文本的内容与所述类目的匹配度，并根据验证结果调整所述类目对应的关键词。

8.如权利要求5所述的方法，还包括：

针对任一类目，若提取出的包含了所述类目对应的关键词的文本的数量不满足预定条件，则构造出填充文本与该提取出的文本合并，使合并后的文本的数量满足所述预定条件。

9.如权利要求5所述的方法，还包括：

针对所述文本集合中的每条文本，若所述文本的长度超过预定长度，则丢弃所述文本在所述预定长度后的内容，若所述文本的长度未达到所述预定长度，则使用零向量将所述文本补齐至所述预定长度。

10.一种文本的分类装置，包括：

11.如权利要求10所述的装置，所述第二分类模块，用于：

12.如权利要求10所述的装置，所述第一分类模块，在确定所述文本符合给定规则集合中的一项规则的方式时，用于：确定所述文本包含给定规则集合中的一项规则所指定的关键词。

13.如权利要求12所述的装置，所述第一分类模块，在判定所述文本包含给定规则集合中的一项规则所指定的关键词的方式时，用于：

14.如权利要求10所述的装置，所述装置还包括模型训练模块，用于：

15.如权利要求14所述的装置，所述模型训练模块，在提取包含了所述类目对应的关键词的文本时，用于：

获取基于所述类目对应的关键词所设定的正则表达式；

16.如权利要求14所述的装置，所述模型训练模块，还用于：

17.如权利要求14所述的装置，所述模型训练模块，还用于：

18.如权利要求14所述的装置，所述模型训练模块，还用于：

19.一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为能够执行所述指令，以实现如权利要求1-9任一项所述的方法。

20.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令被计算机执行时能够执行如权利要求1-9任一项所述的方法。