CN111708884A

CN111708884A - 文本分类方法、装置及电子设备

Info

Publication number: CN111708884A
Application number: CN202010492262.XA
Authority: CN
Inventors: 王传鹏; 陈春梅; 李匡宇
Original assignee: Shanghai Hard Link Network Technology Co ltd
Current assignee: Shanghai Hard Link Network Technology Co ltd
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-09-25

Abstract

本申请公开了一种文本分类方法、装置及电子设备，所述方法包括：获取输入文本，对输入文本进行预处理，提取输入文本的第一词条和第一句向量；将第一词条与根据各第一文本类生成的各词集进行相似度运算，根据第一词条与各词集的各第一相似度，确定输入文本所属的第一文本类，以及，将第一句向量与根据第二文本类生成的各第二句向量进行相似度运算，根据第一句向量与各第二句向量的各第二相似度，判断输入文本是否属于第二文本类；其中，词集由在第一文本类中出现的频次超过预设频次的多个特征词组成，第二文本类由非第一文本类的各目标文本组成，第二句向量由第二文本类中的目标文本生成；将输入文本归入对应的文本类型中。

Description

文本分类方法、装置及电子设备

技术领域

本申请涉及文本分类技术领域，特别涉及一种文本分类方法、装置及电子设备。

背景技术

文本分类，是指按照预先定义的主题类别，根据信息内容将不同的信息划分到与其相关的类别中。现有的文本分类方法，通常采用knn算法进行文本分类。该种方法中，根据训练数据集合与待分类文本数据距离最近(最相似)的K个数据的类别来判断待分类文本所属的类别，是准确度较高的一种文本分类方法。但是，这种方法需要通过遍历的方式将输入文本与文本集中的每个目标文本进行相似度计算，在面对数目较大的文本集时，计算量大，内存开销大，导致需要消耗服务器大量的性能，并且计算速度较慢，且当每个类别中目标文本的容量差距过大，如某个类别中的目标文本容量过多，其他类别的目标文本容量过小时，会导致分类结果不准确。

为解决上述问题，现有技术中，是将各个类划分为n+1个区域，每个区域以中心向量和球半径表示，所有没有被划分的目标文本单独划分为一个独立区域，在分类的过程中，先判断输入文本是否落入球型区域，若是则根据球型区域确定输入文本的类别，否则，将输入文本与独立区域的目标文本做knn运算，判断类别。但是采用这种方法进行游戏领域的文本分类时，发现由于游戏领域的文本类别划分一般是以特定文本和常规文本进行划分的，其划分规则是将一款游戏划分为一个类，此类别下的目标文本是关于该款游戏的特定文本，如涉及改款游戏攻略问题的相关文本，这种类别可称为第一文本类，然后将除特定文本外的其余目标文本视为常规文本，如涉及充值问题的相关文本，并将这些常规文本划分为一个类，可称为第二文本类。由于这些常规文本的共性不强，无法形成球型区，因此采用上述方式进行文本分类时，这些常规文本只能作为离散点待后续进行knn运算，而由于根据特定文本形成的特定文本类也并非球型类族，因此进行文本分类时，也只有一小部分被球形区代替，多数的特定文本会替换成离散点一同进行knn运算，导致离散点过多，分类速度下降，同时也会造成离散点中存在某个文本类别的容量过多，其他类别的目标文本容量过小的问题，导致分类结果不准确，影响后续的文本匹配。此外，用户的输入文本可能同时涉及特定文本和常规文本，而现有的分类方法由于是将涉及第一文本类和第二文本类的离散点一同进行KNN运算的，因此无法很好的确定输入文本是否同时涉及特定文本和常规文本，影响分类效果。

发明内容

本申请的目的在于至少解决现有技术中存在的技术问题之一，提供一种文本分类方法、装置、计算机可读存储介质以及电子设备，在减少计算开销的同时，提高分类效果。

本申请实施例提供一种文本分类方法，包括：

获取输入文本，对所述输入文本进行预处理，提取所述输入文本的第一词条和第一句向量；

将所述第一词条与根据各第一文本类生成的各词集进行相似度运算，根据所述第一词条与各所述词集的各第一相似度，确定所述输入文本所属的第一文本类，以及，将所述第一句向量与根据第二文本类生成的各第二句向量进行相似度运算，根据所述第一句向量与各所述第二句向量的各第二相似度，判断所述输入文本是否属于第二文本类；其中，所述词集由在所述第一文本类中出现的频次超过预设频次的多个特征词组成，所述第二文本类由非第一文本类的各目标文本组成，所述第二句向量由所述第二文本类中的目标文本生成；

将所述输入文本归入对应的文本类型中。

进一步的，所述将所述第一词条与根据各第一文本类生成的各词集进行相似度运算，根据所述第一词条与各所述词集的各第一相似度，确定所述输入文本所属的第一文本类，包括：

获取用户历史操作记录所属的第一文本类，将所述第一词条与所述历史操作记录的第一文本类的词集做相似度运算，获取与所述历史操作记录对应的第一文本类的第一相似度；

检测所述历史操作记录对应的第一文本类的第一相似度是否大于第一预设阈值，若是，将所述历史操作记录对应的第一文本类确定为所述输入文本的文本类型，否则，将所述第一词条与根据各第一文本类生成的各词集进行相似度运算，根据所述第一词条与各所述词集的各第一相似度，确定所述输入文本所属的第一文本类。

进一步的，所述第一词条与各所述词集的各第一相似度，确定所述输入文本所属的第一文本类，包括：

检测相似度最高的第一相似度是否超过所述第一预设阈值；其中，若是，则根据相似度最高的词集对应的文本类型，确定所述输入文本的文本类型；

否则，判断所述输入文本不属于所述第一文本类。

进一步的，所述根据所述各第二相似度判断所述输入文本是否属于第二文本类，包括：

检测相似度最高的第二相似度是否超过第二预设阈值，并在所述相似度最高的第二相似度超过第二预设阈值时，判断所述输入文本属于所述第二文本类。

进一步的，所述第一句向量是根据doc2vec模型对所述输入文本进行n次向量转换，获取n个第一初始向量后，对所述n个第一初始向量进行加权平均后生成。

进一步的，所述第二句向量是根据doc2vec模型对所述第二文本类的目标文本进行n次向量转换，获取n个第二初始向量后，对所述n个第二初始向量进行加权平均后生成。

进一步的，所述相似度运算采用KNN算法。

进一步的，本申请实施例提供一种文本分类装置，包括：

文本处理模块，用于获取输入文本，对所述输入文本进行预处理，提取所述输入文本的第一词条和第一句向量；

文本分类模块，用于将所述第一词条与根据各第一文本类生成的各词集进行相似度运算，根据所述第一词条与各所述词集的各第一相似度，确定所述输入文本所属的第一文本类，以及，将所述第一句向量与根据第二文本类生成的各第二句向量进行相似度运算，根据所述第一句向量与各所述第二句向量的各第二相似度，判断所述输入文本是否属于第二文本类；其中，所述词集由在所述第一文本类中出现的频次超过预设频次的多个特征词组成，所述第二文本类由非第一文本类的各目标文本组成，所述第二句向量由所述第二文本类中的目标文本生成；

文本输出模块，用于将所述输入文本归入对应的文本类型中。

进一步的，所述文本分类模块还用于：

进一步的，本申请实施例提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例所述的文本分类方法。

进一步的，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述实施例所述的文本分类方法。

相比于现有技术，上述实施例将第一文本类中的目标文本简化为多个特征词与输入文本的词条进行相似度运算，从而不会由于区域划分导致离散文本过多而造成计算开销过大，同时避免由于离散文本的文本容量的容量差造成匹配结果不准确，进而提高分类速度和精度，同时通过生成句向量对第二文本类的目标文本单独进行相似度运算，从而能够确定输入文本是否同时涉及第一文本类和第二文本类，进而提高分类效果。

附图说明

下面结合附图和实施例对本申请进一步地说明；

图1为一个实施例中文本分类方法的应用环境图；

图2为其中一个实施例中文本分类方法的流程示意图；

图3为一个实施例中文本分类装置的结构框图；

图4为一个实施例中计算机设备的结构框图。

具体实施方式

本部分将详细描述本申请的具体实施例，本申请之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本申请的每个技术特征和整体技术方案，但其不能理解为对本申请保护范围的限制。

现有文本分类方法，是将各个类划分为n+1个区域，每个区域以中心向量和球半径表示，所有没有被划分的目标文本单独划分为一个独立区域，在分类的过程中，先判断输入文本是否落入球型区域，若是则根据球型区域确定输入文本的类别，否则，将输入文本与独立区域的目标文本做knn运算，判断类别。但是由于游戏领域的文本类别划分一般是以特定文本和常规文本进行划分的，其划分规则是将一款游戏划分为一个类，此类别下的目标文本是关于该款游戏的特定文本，如涉及改款游戏攻略问题的相关文本，这种类别可称为第一文本类，然后将除特定文本外的其余目标文本视为常规文本，如涉及充值问题的相关文本，并将这些常规文本划分为一个类，可称为第二文本类。由于这些常规文本的共性不强，无法形成球型区，因此采用现有方式进行文本分类时，这些常规文本只能作为离散点待后续进行knn运算，而由于根据特定文本形成的特定文本类也并非球型类族，因此进行文本分类时，也只有一小部分被球形区代替，多数的特定文本会替换成离散点一同进行knn运算，导致离散点过多，分类速度下降，同时也会造成离散点中存在某个文本类别的容量过多，其他类别的目标文本容量过小的问题，导致分类结果不准确，影响后续的文本匹配。此外，用户的输入文本可能同时涉及特定文本和常规文本，而现有的分类方法由于是将涉及第一文本类和第二文本类的离散点一同进行KNN运算的，因此无法很好的确定输入文本是否同时涉及特定文本和常规文本，影响分类效果。

为解决上述问题，如图1所示，是一个实施例中文本分类方法的应用环境图。参照图1，该文本分类方法应用于智能客服系统，具体可以是游戏领域的只能客服系统。该文本分类系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端110或移动终端110，移动终端110具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器120或者是多个服务器120组成的服务器120集群来实现。其中，用户通过终端110向智能客服系统提供输入文本，服务器120获取用户提供的输入文本后，提取输入文本的第一词条和第一句向量，在将第一词条与各第一文本类生成的各词集进行相似度运算，确定输入文本在第一文本类中的文本类型，同时，将第一句向量与根据第二文本类生成的各第二句向量进行相似度运算，判断输入文本是否属于第二文本类。当输入文本在各第一文本类中存在对应的文本类型时，服务器120将输入文本归入到该文本类别下，同时，当输入文本属于第二文本类时，将输入文本也归入第二文本类中，以便后续进行文本匹配。

通过上述方式，使得不会由于区域划分导致离散文本过多而造成计算开销过大，同时避免由于离散文本的文本容量的容量差造成匹配结果不准确，进而提高分类速度和精度，同时通过生成句向量对第二文本类的目标文本单独进行相似度运算，从而能够确定输入文本是否同时涉及第一文本类和第二文本类，进而提高分类效果。

可以理解的是，本申请实施例提供的文本分类方法不限于应用游戏领域的智能客服系统中，还可以应用在同样以第一文本类和第二文本类进行文本类型划分的领域中，包括天气查询领域、医疗咨询领域、政务咨询领域、保险咨询领域等不同的领域，在所述技术领域普通技术人员所具备的知识范围内，本申请实施例提供的文本分类方法可以根据本领域技术人员的具体业务需求应用在不同领域的智能客服系统中。

下面，将通过几个具体的实施例对本申请实施例提供的文本分类方法进行详细介绍和说明。

如图2所示，在一个实施例中，提供了一种文本分类方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以是上述图1中的服务器120。

参照图2，该文本分类方法具体包括如下步骤：

步骤S11，获取输入文本，对输入文本进行预处理，提取输入文本的第一词条和第一句向量。

在一实施例中，输入文本可以是通过如手机、笔记本电脑和平板电脑等终端设备获得。输入文本可以是包含可提取词条的句子的文本，通过对输入文本进行解析，可提取得到输入文本的词条，具体地，可通过Hadoop平台或实时Storm平台，对输入文本进行解析，提取出可用于对输入文本进行准确定性和分类的词条。同时，通过doc2vec模型，可以获取输入文本的第一句向量。

由于doc2vec种子的随机性会造成每次生成的句子向量的差异性，进而影响分类效果，因此在一实施例中，将输入文本多次通过doc2vec进行向量转换，生成n个第一初始向量，每次转换均会生成一个第一初始向量，再对n个第一初始向量进行加权平均，得到第一句向量。而为了保证后续分类的准确度，因此生成的第一初始向量不能过少，但由于每次转换均需要耗费一定时长，若需求的第一初始向量过多，则会导致耗时过长。所以，为平衡匹配精度和计算时长，n的取值范围被确定为10～20。优选的，通过实测，n的取值为11。

由于算数平均数受抽样的影响较小，而通过doc2vec生成n个第一初始向量可以看成一种抽样方式，因此利用算术平均的思想，使根据n个第一初始向量得到的第一句向量在大多数情况下是可信的，可以较好的进行输入文本的特征表达。

步骤S12，将第一词条与根据各第一文本类生成的各词集进行相似度运算，根据第一词条与各词集的各第一相似度，确定输入文本所属的第一文本类，以及，将第一句向量与根据第二文本类生成的各第二句向量进行相似度运算，根据第一句向量与各第二句向量的各第二相似度，判断输入文本是否属于第二文本类。

其中，词集由在第一文本类中出现的频次超过预设频次的多个特征词组成，第二文本类由非第一文本类的各目标文本组成，第二句向量由第二文本类中的目标文本生成，相似度运算均采用KNN算法。

第一文本类是有涉及一款游戏的特定文本组成，如每个游戏属于一个第一文本类，该类别下存储了关于该游戏的攻略问题、游戏角色问题和游戏更新问题等相关特定文本，这些特定文本是仅针对该款游戏的文本，如游戏“暗黑大天使”被划分为一个第一文本类，该文本类下存储了关于“暗黑大天使”的攻略问题和游戏角色问题等特定文本，而第二文本类是除这些特定文本外的常规文本，该类别下存储了关于游戏充值问题、游戏注册问题等相关常规文本，这些通用文本是不针对每款游戏的具体情况的，属于通用文本。第一文本类和第二文本类中的各文本可以由人工进行事先归类。

在一实施例中，从每个第一文本类中均提取超过预设频次的多个特征词，来组成特征词库后，将特征词库的所有特征词与第一词条做knn运算，确定输入文本在第一文本类中的文本类型，从而无需将每个第一文本类中的文本都进行knn运算，大大减小计算开销，且通过特征词的形式进行匹配，也不会出现由于采用球型区域划分的方式导致部分文本被排除在球型区域外，造成后续分类计算量加大以及影响分类结果的问题。

为进一步提高匹配效率，在一实施例中，在确定输入文本在各第一文本类中的文本类型时，会先获取用户历史操作记录所属的第一文本类，将第一词条与历史操作记录对应的第一文本类的词集做相似度运算，获取对应的相似度后，检测该相似度是否大于第一预设阈值，若是，则将历史操作记录对应的第一文本类确定为输入文本的文本类型，否则，将第一词条与根据各第一文本类生成的各词集进行相似度运算，根据第一词条与各词集的各第一相似度，确定输入文本所属的第一文本类。

作为本实施例的一个举例，其中，用户操作记录包括用户终端的下载记录和用户的访问记录等，当检测到用户终端最近一次的历史操作记录是登录某款游戏，则优先将输入文本与属于该款游戏的第一文本类进行匹配，若匹配结果超过第一预设阈值，则将输入文本确定为该第一文本类的文本类型。由于用户的近期活动可能大概率与输入文本有关联，因此将输入文本优先与历史记录相关的文本类型进行匹配，大概率能够直接确定输入文本在各第一文本类中的文本类型，从而通过在与各第一文本类的词集进行相似度运算之前，优先与历史记录对应的第一文本类进行匹配，若匹配成功，则可直接确定输入文本的第一文本类，无需进行后续多个第一文本类的匹配，大大提高文本分类的效率，而即使未匹配成功，整体上也只是多进行了一次运算，不会对分类效率造成影响。

在一实施例中，为提高匹配的准确度，在判断输入文本是否输入第二文本类时，第二句向量是根据doc2vec模型对所述第二文本类的目标文本进行n次向量转换，获取n个第二初始向量后，对所述n个第二初始向量进行加权平均后生成。

在一实施例中，判断输入文本是否输入第二文本类是通过检测相似度最高的第二相似度是否超过第二预设阈值，并在相似度最高的第二相似度超过第二预设阈值时，判断输入文本属于第二文本类。需要说明的是，第二预设阈值可与上述的第一预设阈值相同。

通过将输入文本同时进行第一文本类和第二文本类的匹配，使得当输入文本同时涉及第一文本类和第二文本类时，不会在分类时出现错漏。

步骤S13，将输入文本归入对应的文本类型中。

在另一个实施例中，如图3所示，提供了一种文本分类装置，包括：

文本处理模块101，用于获取输入文本，对输入文本进行预处理，提取输入文本的第一词条和第一句向量。

其中，第一句向量是根据doc2vec模型对输入文本进行n次向量转换，获取n个第一初始向量后，对n个第一初始向量进行加权平均后生成。

文本分类模块102，用于将第一词条与根据各第一文本类生成的各词集进行相似度运算，根据第一词条与各词集的各第一相似度，确定输入文本所属的第一文本类，以及，将第一句向量与根据第二文本类生成的各第二句向量进行相似度运算，根据第一句向量与各第二句向量的各第二相似度，判断输入文本是否属于第二文本类。

其中，词集由在第一文本类中出现的频次超过预设频次的多个特征词组成，第二文本类由非第一文本类的各目标文本组成，相似度运算采用knn算法。第二句向量由第二文本类中的目标文本生成，具体的，第二句向量是根据doc2vec模型对所述第二文本类的目标文本进行n次向量转换，获取n个第二初始向量后，对所述n个第二初始向量进行加权平均后生成。

在一实施例中，文本分类模块102还用于，获取用户历史操作记录所属的第一文本类，将第一词条与历史操作记录的第一文本类的词集做相似度运算，获取与历史操作记录对应的第一文本类的第一相似度，检测历史操作记录对应的第一文本类的第一相似度是否大于第一预设阈值，若是，将历史操作记录对应的第一文本类确定为输入文本的文本类型，否则，将第一词条与根据各第一文本类生成的各词集进行相似度运算，根据第一词条与各词集的各第一相似度，确定输入文本所属的第一文本类。

在一实施例中，文本分类模块102还用于，检测各第一相似度中相似度最高的第一相似度是否超过第一预设阈值，并在相似度最高的第一相似度超过预设阈值时，根据相似度最高的词集对应的第一文本类，确定输入文本的第一文本类。

在一实施例中，文本分类模块102还用于，检测相似度最高的第二相似度是否超过第二预设阈值，并在相似度最高的第二相似度超过第二预设阈值时，判断输入文本属于第二文本类。

文本输出模块103，用于将输入文本归入对应的文本类型中。

在一个实施例中，提供了一种计算机设备，如图4所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现文本分类方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行文本分类方法。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的文本分类装置可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本分类装置的各个程序模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本分类方法中的步骤。

在一个实施例中，提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时执行上述文本分类方法的步骤。此处文本分类方法的步骤可以是上述各个实施例的文本分类方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述文本分类方法的步骤。此处文本分类方法的步骤可以是上述各个实施例的文本分类方法中的步骤。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本申请的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种文本分类方法，其特征在于，包括：

将所述输入文本归入对应的文本类型中。

2.根据权利要求1所述的一种文本分类方法，其特征在于，所述将所述第一词条与根据各第一文本类生成的各词集进行相似度运算，根据所述第一词条与各所述词集的各第一相似度，确定所述输入文本所属的第一文本类，包括：

3.根据权利要求2所述的一种文本分类方法，其特征在于，所述第一词条与各所述词集的各第一相似度，确定所述输入文本所属的第一文本类，包括：

检测所述各第一相似度中相似度最高的第一相似度是否超过所述第一预设阈值，并在所述相似度最高的第一相似度超过预设阈值时，根据相似度最高的词集对应的第一文本类，确定所述输入文本的第一文本类。

4.根据权利要求1所述的一种文本分类方法，其特征在于，所述根据所述各第二相似度判断所述输入文本是否属于第二文本类，包括：

5.根据权利要求1所述的一种文本分类方法，其特征在于，所述第一句向量是根据doc2vec模型对所述输入文本进行n次向量转换，获取n个第一初始向量后，对所述n个第一初始向量进行加权平均后生成。

6.根据权利要求1所述的一种文本分类方法，其特征在于，所述第二句向量是根据doc2vec模型对所述第二文本类的目标文本进行n次向量转换，获取n个第二初始向量后，对所述n个第二初始向量进行加权平均后生成。

7.根据权利要求1-6任意一项所述的一种文本分类方法，其特征在于，所述相似度运算采用KNN算法。

8.一种文本分类装置，其特征在于，包括：

9.根据权利要求8所述的文本分类装置，其特征在于，所述文本分类模块还用于：

10.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的文本分类方法。