CN113656579A

CN113656579A - 文本分类方法、装置、设备及介质

Info

Publication number: CN113656579A
Application number: CN202110838983.6A
Authority: CN
Inventors: 余经先; 王彬; 宋建锋
Original assignee: Beijing Euronet Alliance Technology Co ltd
Current assignee: Beijing Euronet Alliance Technology Co ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-11-16
Anticipated expiration: 2041-07-23
Also published as: CN113656579B

Abstract

本申请公开了一种文本分类方法、装置、设备及存储介质，该方法包括：获取待分类的文本集合，建立文本列表；基于预设参数及标签体系定义规则，建立一级领域标签列表；对文本列表中的文本进行预处理，建立词语集合列表，词语集合列表中包括与每个文本对应的词语集合；基于知识图谱和所述词语集合列表进行路径检索，确定文本列表中所有文本对应的候选一级领域标签；通过第一指针遍历一级领域标签列表的所有一级领域标签，基于文本列表中所有文本的候选一级标签，确定文本列表的文本分类结果。该技术方案避免了标注数据所花费的高昂人工成本，提高了文本分类的准确度，进一步很大程度上提高了用户体验。

Description

文本分类方法、装置、设备及介质

技术领域

本发明一般涉及自然语言处理技术领域，具体涉及一种文本分类方法、装置、设备及介质。

背景技术

随着互联网和电子技术的不断发展，互联网上在线文本资讯信息数量急剧增加，在实际业务运用中，为了使得用户根据所属领域类别从海量信息资讯中获取用户所需类别资讯，需要对文本资讯信息进行处理，其中，文本分类是处理较大规模文本资讯信息的关键技术，在信息处理中起着至关重要的作用。文本分类是对文本数据按照一定的分类体系或标准进行自动分类，得到一个或多个对应的标签。

目前，对于具有明确特征的文本或所属领域类别体系简单时，相关技术中通过采用深度学习训练模型的方式进行文本分类，该模型例如可以是CNN、LSTM、BERT模型等。然而采用该方案只能增加训练样本或对分类结果进行人工干预的方式提升模型整体的分类准确度，需要高质量的人工标注数据和高性能的计算机，在实际业务应用中，面对复杂标签体系时带来高昂的人工标注数据的成本。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种文本分类方法、装置、设备及介质。

第一方面，本发明提供了一种文本分类方法，该方法包括：

获取待分类的文本集合，建立文本列表；

基于预设参数及标签体系定义规则，建立一级领域标签列表；

对所述文本列表中的文本进行预处理，建立词语集合列表，所述词语集合列表中包括与每个所述文本对应的词语集合；

基于知识图谱和所述词语集合列表进行路径检索，确定所述文本列表中所有文本对应的候选一级领域标签；

通过第一指针遍历所述一级领域标签列表的所有一级领域标签，基于所述文本列表中所有文本的候选一级标签，确定所述文本列表的文本分类结果。

在其中一个实施例中，基于知识图谱和所述词语集合列表进行路径检索，确定所述文本列表中所有文本的候选一级领域标签，包括：

对于所述文本列表中的每个文本，执行第一指定操作，得到所述文本列表中所有文本的候选一级领域标签；

所述第一指定操作包括：

基于知识图谱进行路径检索，统计所述文本中词语集合指向所述一级领域标签列表中各一级领域标签的次数；

将所述次数与预设次数阈值进行比对，所述预设次数阈值为最大次数与预设系数的乘积；

将所述次数大于或等于所述预设次数阈值对应的标签作为所述词语集合对应的所述文本的候选一级领域标签。

在其中一个实施例中，通过第一指针遍历所述一级领域标签列表的所有一级领域标签，基于所述文本列表中所有文本的候选一级标签，确定所述文本列表的文本分类结果，包括：

获取所述一级领域标签列表中的所有一级领域标签；

循环执行第二指定操作，直至所述第一指针指向所述一级领域标签列表的尾部为止；

所述第二指定操作包括：

确定所述一级领域标签列表的当前一级领域标签，将所述第一指针指向所述当前一级领域标签，并判断所述当前一级领域标签是否遍历完成，所述第二指定操作第一次执行时，所述当前一级领域标签为所述一级领域标签列表的第一个一级领域标签，所述第二指定操作非第一次执行时，所述当前一级领域标签为所述第二指定操作执行时对应的标签的下个一级领域标签；

当所述当前一级领域标签遍历完成时，则控制进入下一次所述第二指定操作；

当所述当前一级领域标签未遍历完成时，则根据所述当前一级领域标签和所述文本列表中所有文本的候选一级标签，确定所述文本列表的文本分类结果。

在其中一个实施例中，根据所述当前一级领域标签和所述文本列表中所有文本的候选一级标签，确定所述文本列表的文本分类结果，包括：

获取所述文本列表中的所有文本；

循环执行第三指定操作，直至所述第二指针指向所述文本列表的尾部为止；

所述第三指定操作包括：

确定所述文本列表中的当前文本，将所述第二指针指向所述当前文本，并判断所述当前文本的候选一级领域标签中是否包含所述当前一级领域标签，所述第三指定操作第一次执行时，所述当前文本为所述文本列表的第一个文本，所述第三指定操作非第一次执行时，所述当前文本为所述第三指定操作执行时对应的文本的下个文本；

当所述当前文本的候选一级领域标签中不包含所述当前一级领域标签时，则控制进入下一次所述第三指定操作；

当所述当前文本的候选一级领域标签中包含所述当前一级领域标签时，则基于所述当前一级领域标签，确定当前文本的文本分类结果。

在其中一个实施例中，基于所述当前一级领域标签，确定当前文本的文本分类结果，包括：

基于所述当前一级领域标签，确定所述当前文本的当前分类结果；

将所述当前分类结果与历史分类结果进行比对；

将权重得分较高的分类结果作为所述当前文本的文本分类结果。

在其中一个实施例中，基于所述当前一级领域标签，确定所述当前文本的当前分类结果，包括：

采用文本特征提取算法从所述当前文本中的词语集合中抽取特征词语；

将所述特征词语转化为特征向量，并对所述特征向量进行加权求和处理，得到所述当前文本的特征向量；

基于当前一级领域标签对应的词向量模型，计算所述当前文本的特征向量与所述当前一级领域标签中所有标签及其所有子标签的关联度，确定权重得分；

将所述权重得分最高且超过预设阈值的标签作为所述当前文本的当前分类结果。

在其中一个实施例中，对所述文本列表中的所述文本进行预处理，建立词语集合列表，包括：

去除所述文本中的停用词；

基于预先存储在知识图谱中的同义词关系及同义词数据，确定并替换所述文本中的同义词，得到处理后的词语集合；

基于所述处理后的词语集合，建立词语集合列表。

第二方面，本申请实施例提供了一种文本分类装置，该装置包括：

获取模块，用于获取待分类的文本集合，建立文本列表；

第一建立模块，用于基于预设参数及标签体系定义规则，建立一级领域标签列表；

第二建立模块，用于对所述文本列表中的文本进行预处理，建立词语集合列表，所述词语集合列表中包括与每个所述文本对应的词语集合；

第一确定模块，用于基于知识图谱和所述词语集合列表进行路径检索，确定所述文本列表中所有文本对应的候选一级领域标签；

第二确定模块，用于通过第一指针遍历所述一级领域标签列表的所有一级领域标签，基于所述文本列表中所有文本的候选一级标签，确定所述文本列表的文本分类结果。

第三方面，本申请实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述文本分类方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于实现如第一方面所述的文本分类方法。

综上所述，本申请实施例提供的文本分类方法、装置、设备及介质，通过获取待分类的文本集合，建立文本列表，并基于预设参数及标签体系定义规则，建立一级领域标签列表，然后对文本列表中的文本进行预处理，建立词语集合列表，该词语集合列表中包括与每个文本对应的词语集合，并基于知识图谱和词语集合列表进行路径检索，确定文本列表中所有文本对应的候选一级领域标签，通过第一指针遍历一级领域标签列表的所有一级领域标签，基于文本列表中所有文本的候选一级标签，确定文本列表的文本分类结果。与现有技术相比，该技术方案避免了面对复杂标签体系时，标注数据所花费的高昂人工成本，仅需获取一级领域标签对应的分类文本用以训练词向量模型，即可在计算词语集合与所有标签的相似度时取得良好效果，更进一步的，通过千万级以上的大批量文本训练词向量模型可以更好的学习到知识图谱中各实体词语与领域标签之间的关系，进而提高复杂标签体系下，文本获取细分领域标签的准确度，很大程度上提高了用户体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例提供的文本分类方法的流程示意图；

图2为本申请另一实施例提供的文本分类方法的流程示意图；

图3为本申请实施例提供的图谱检索结果的示意图；

图4为本发明实施例提供的文本分类装置的结构示意图；

图5为本申请另一实施例提供的文本分类装置的结构示意图；

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

可以理解，在电子信息技术快速发展的过程中，大量的资讯信息在互联网上传播，在实际业务应用中，为了使得人们可以从海量的资讯信息中获取所需类别的资讯信息，需要使得资讯有符合业务场景的分类标签，因此，对资讯信息进行文本分类显得尤为重要。目前，相关技术中通过采用深度学习训练模型的方式进行文本分类，该模型例如可以是CNN、LSTM、BERT模型等。然而采用该方案在模型训练过程中接近黑盒，无法通过对模型的调整提升某个特定类别的分类准确度，只能采取增加训练样本或对分类结果进行人工干预的方式提升模型整体的分类准确度，需要高高质量的人工标注数据和高性能的计算机，在实际业务应用中，面对复杂标签体系时带来高昂的人工标注数据的成本。

基于上述缺陷，本发明实施例提供了一种文本分类方法，现有技术相比，该技术方案避免了面对复杂标签体系时，标注数据所花费的高昂人工成本，仅需要根据词语集合列表和一级领域标签列表，即可确定出文本列表的文本分类结果，提高了文本分类的准确度，进一步很大程度上提高了用户体验。

本申请实施例提供的文本分类方法可以应用于终端设备中，该终端设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal DigitalAssistant，PDA)、便携式媒体播放器 (Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

为了便于理解和说明，下面通过图1至图5详细阐述本申请实施例提供的文本分类方法、装置、设备及介质。

需要说明的是，下述法实施例的执行主体可以是文本分类装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为终端设备的部分或者全部。

图1为本发明实施例提供的文本分类方法的流程示意图，如图1 所示，该方法包括：

步骤S101、获取待分类的文本集合，建立文本列表。

具体的，上述待分类的文本集合可以包括篇章级别的文本，还可以包括句子级别的文本，可以是由一个或多个词组成的句子、段落构成的长文本。

可选的，该待分类的文本集合可以是计算机设备获取的任意文本类型的文本，其中，可以是从用户指定的位置获取的待分类的文本集合，该指定的位置例如可以是数据库中，也可以是通过其他外部设备导入的待分类的文本集合，还可以是用户向计算机设备提交的待分类的文本集合，本实施例对此不做限定。该待分类的文本集合可以是一个，也可以是多个，每个待分类的文本集合中可以包括至少一个词。

在获取到待分类的文本集合后，对该文本集合按照预设规则进行组合排列，建立文本列表。

步骤S102、基于预设参数及标签体系定义规则，建立一级领域标签列表。

本步骤中，可以人工预先定义标签体系定义规则，以及从数据库中获取的各领域标签层级关系，进行初始化设置，通过加载预设参数和标签体系定义规则，确定标签体系层级关系，并根据标签体系层级关系，建立一级领域标签列表。

步骤S103、对文本列表中的文本进行预处理，建立词语集合列表，词语集合列表中包括与每个文本对应的词语集合。

本实施例中，上述文本列表中包括多个文本，在得到文本列表后，可以对文本列表中的每个文本进行预处理，如通过分词工具进行分词处理，得到词语集合，从而建立词语集合列表。该词语集合列表与文本列表一一对应，词语集合列表中包括与每个文本对应的词语集合。

其中，在对文本列表中的所述文本进行预处理，建立词语集合列表的过程中，可以先去除文本中的停用词，该停用词例如是指无意义词语，从而避免无意义词语的干扰，然后基于预先存储在知识图谱中的同义词关系及同义词数据，确定并替换文本中的同义词，得到处理后的词语集合，并基于处理后的词语集合，建立词语集合列表。

需要说明的是，在替换同义词的过程中，可以借助词向量模型抽取领域标签关联度最高的前20个词，经过人工核验后存储于知识图谱中。在对文本进行预处理时，从预先存储的知识图谱中加载响应同义词关系及同义词数据，确定出同义词并替换。

本步骤中通过替换同义词，能够提升领域标签词语在词语集合中的占比。

步骤S104、基于知识图谱和词语集合列表进行路径检索，确定文本列表中所有文本对应的候选一级领域标签。

步骤S105、通过第一指针遍历一级领域标签列表的所有一级领域标签，基于文本列表中所有文本的候选一级标签，确定文本列表的文本分类结果。

在得到词语集合列表和一级领域标签列表后，可以基于词语集合训练文本特征提取模型，该文本特征提取模型例如可以是TF-IDF模型，其中，TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法，用以判断一个词语对于一个语料库中的其中一份文件的重要程度。

可选的，作为一种可实现方式，在上述实施例的基础上，上述步骤S104可以包括如下过程：

具体的，可以基于知识图谱进行路径检索，确定文本列表中所有文本的候选一级领域标签。对于文本列表中的每个文本，执行第一指定操作，得到文本列表中所有文本的候选一级领域标签；该第一指定操作包括：基于知识图谱进行路径检索，统计文本中词语集合指向一级领域标签列表中各一级领域标签的次数，上述知识图谱中存储了词语与标签，标签与标签之间的关系，通过在知识图谱中查找关系来判断词语执行哪一个(或多个)一级领域标签，然后分组求和得到词语集合指向各个一级领域次数。并将次数与预设次数阈值进行比对，预设次数阈值为最大次数与预设系数的乘积，将次数大于或等于预设次数阈值对应的标签作为词语集合对应的文本的候选一级领域标签。

需要说明的是，通过给每一篇文本打上一级领域标签，能够减少后续循环的处理实际，因为每篇文本的候选一级领域标签由原来的所有一级领域标签减少为基于知识图谱分类所得一级领域标签，该文本的候选一级领域标签可以是一个或2个。

本实施例中，可以获取一级领域标签列表中的的所有一级领域标签，然后循环执行第二指定操作，直至第一指针指向一级领域标签列表的尾部为止。上述第二指定操作包括：确定一级领域标签列表的当前一级领域标签，将第一指针指向当前一级领域标签，并判断当前一级领域标签是否遍历完成，若当前一级领域标签遍历完成时，则控制进入下一次第二指定操作；若当前一级领域标签未遍历完成时，则根据当前一级领域标签和文本列表中所有文本的候选一级标签，确定文本列表的文本分类结果。其中，该第二指定操作第一次执行时，当前一级领域标签为一级领域标签列表的第一个一级领域标签，第二指定操作非第一次执行时，当前一级领域标签为第二指定操作执行时对应的标签的下个一级领域标签。然后加载当前一级领域标签对应的词向量模型，该词向量模型例如可以是word2vec模型。

在根据当前一级领域标签和文本列表中所有文本的候选一级标签，确定文本列表的文本分类结果的过程中，可以获取文本列表中的所有文本，并循环执行第三指定操作，直至第二指针指向文本列表的尾部为止。该第三指定操作包括：确定文本列表中的当前文本，将第二指针指向当前文本，并判断当前文本的候选一级领域标签中是否包含当前一级领域标签，若当前文本的候选一级领域标签中不包含当前一级领域标签时，则控制进入下一次第三指定操作；若当前文本的候选一级领域标签中包含当前一级领域标签时，则基于当前一级领域标签，确定当前文本的文本分类结果。其中，该第三指定操作第一次执行时，当前文本为文本列表的第一个文本，第三指定操作非第一次执行时，当前文本为第三指定操作执行时对应的文本的下个文本。

进一步地，在基于当前一级领域标签，确定当前文本的文本分类结果时，可以基于当前一级领域标签，确定文本的当前分类结果，通过特征提取算法从当前文本中的词语集合中抽取特征词语，并转换为特征向量，然后对特征向量进行加权求和，得到当前文本的特征向量，并基于当前一级领域标签对应的词向量模型，计算当前文本的特征向量与当前一级领域标签下所有标签及其所有子标签的关联度，该所有标签包含当前一级领域标签本身，且同样转换为特征向量，所有子标签包括一级领域标签下的所有子标签，从而确定权重得分，将权重得分最高且超过预设阈值的标签作为当前文本的当前分类结果。然后将当前文本的当前分类结果与历史分类结果进行比对，该历史分类结果初始值为“无关联标签”，默认其权重得分为预设阈值，并取权重得分高的作为当前文本的文本分类结果。

需要说明的是，标签对应的具体等级取决于其在知识图谱的链路中的位置，例如，企业服务、人工智能、医疗健康、生产制造、软件工具等为一级领域标签，IT服务可以为二级领域标签，OA可以为五级领域标签。

进一步地，在将第一指针指向一级领域标签列表中的第一个一级领域标签，并对根据当前一级领域标签和文本列表中所有文本的候选一级标签，确定文本列表中所有文本的文本分类结果后，然后将第一指针指向一级领域标签列表中的下个一级领域标签，并重复执行上述步骤，纸质第一指针指向一级领域标签列表的尾部为止，从而得到待分类的文本集合的最终分类结果，可以将该最终分类结果存储至数据库中。

为了更清楚的理解本申请，请参见图2所示，获取到待分类的文本集合texts，建立文本列表，通过指针A指向文本列表中的第一个文本。并加载预设参数与人工定义规则，从mysql数据库中获取标签体系层级关系，建立一级领域标签列表domains，通过指针B指向一级领域标签列表中的第一个一级领域标签，其可以包括各领域下属子标签列表label，并将各领域词表、各领域标签及自定义词组添加至自定义词典中，基于该词典对文本列表中的文本集合进行分词预处理，并去除文本集合中的停用词，替换同义词，建立词语集合列表。然后基于词语集合训练文本特征提取模型TF-IDF模型，并基于知识图谱进行路径检索，确定文本列表中所有文本texts的候选一级领域标签。

在得到文本的候选一级领域标签后，可以取指针B指向的一级领域标签列表domains中作为当前一级领域标签domain，并判断是否已经遍历完一级领域标签列表domains中的所有一级领域标签，如果没有，则加载一级领域标签domain对应的词向量模型，即word2vec模型，并取指针A指向的文本作为当前文本，然后指针A指向文本列表中的下一个文本，若指针A指向文本列表尾部，则将指针B指向一级领域标签列表domains中作为下个一级领域标签，并对根据当前一级领域标签和文本列表中所有文本的候选一级标签，确定文本列表的文本分类结果。

其中，在确定文本列表的文本分类结果时，可以确定文本列表中的当前文本，判断当前文本的候选一级领域标签中是否包含当前一级领域标签domain，如果包含，则执行基于当前一级领域标签，确定当前文本的文本分类结果，可以通过特征提取算法TF-IDF模型从当前文本中的词语集合中抽取特征词语keyword，并转换为特征向量，然后基于当前一级领域标签对应的词向量模型word2vec模型加权求和，计算当前文本的特征词语keyword对应的特征向量与当前一级领域标签下所有标签子label的关联度，将权重得分最高且超过预设阈值的标签作为当前文本的当前分类结果。然后将当前文本的当前分类结果与历史分类结果进行比对，判断其权重得分是否高于历史分类结果，如果高于历史分类结果，则修正历史分类结果为当前分类结果，将该当前分类结果作为当前文本的文本分类结果。并将指针A指向文本列表中的下一文本，从而重复上述步骤，直至指针A指向文本列表尾部为止。从而得到待分类文本集合最终的文本分类结果，并将文本分类结果写入数据库中。

示例性地，当获取到待分类的文本集合可以包括以下内容：

“今天看到百度透露一个信息：2020年春节后第一周员工在家远程办公的效率，竟然比2019年春节后第一周在办公区上班还高。真是谁能想到。

不少公司都选择利用互联网工具进行远程协作办公。各大互联网公司，BAT、美团、字节跳动乃至华为等等，都无偿为社会提供了协作办公工具。有的企业没有用过，现在一用，发现大大提升工作效率。

比如我就知道一些小企业，平时内部管理没什么章法的，现在有了工具，考勤任务分配管理内部通讯项目建档文件保存等等一条龙服务都可以搞定，技术的力量一下子就被挖掘出来了。有的企业用了开发了自己的应用，流程化管理更加智能，效率也是大幅提升。可以说，在企业级市场，原本需求不充分的，被这次激发了，供需双涨，很多人都发现原来企业服务软件这个东西还挺管用。

那么，回到开头，百度既然说员工在家效率更高，他们用的是什么工具呢？笔者打听了一下，百度保证全员稳定、高效的远程办公工具是百度Hi企业智能远程办公平台。

这个平台一直以来是百度内部使用的，并且为企业云盘、企业IM 和应用中心平台等多功能服务。外部企业可以在百度网站 (hi.baidu.com)上下载即可使用。

市面上当然已经有不少企业办公的工具，但是百度Hi智能远程办公平台的好处在于集成了多种服务，并且具有可开发性。

举例而言，百度Hi智能远程办公平台可以支持50人团队连续12 个小时电话会议。这个功能，类似于Zoom、腾讯办公等等。

百度Hi还支持企业云盘，可以帮助员工远程管理、编辑和存储文档。百度Hi还支持移动签到、企业通知、企业后台。百度还将人工智能技术整合到了百度Hi当中，因此该平台还支持智能机器人，使得流程化、标准化的办公更方便。在这一点上，百度Hi的功能可以说跟钉钉基本重合。

百度Hi还开发了报备采集分析跟踪平台，这样每一个使用百度 Hi的企业可以通过软件更好地统计员工的信心，并且及时报备给相关部门，大大减少了工作量。

另外，百度Hi还给外部开发者留了端口，方便有能力的开发者根据自己的个性化需要，开发不同的应用。企业用户在百度Hi平台上进行二次开发，不需要在基础应用上再花时间精力了。

可以说，百度Hi是一款超级强大的应用，它几乎集成了市场上目前其他企业远程办公应用所需要的全部功能。在目前的情况下，估计还有相当一部分企业，会持续让员工在家远程办公，如果能有一款好的工具，就能够最大程度地减轻对于企业的冲击，对整个经济也是有益的，反过来还能够增强我们的动力和信心。

展望未来，远程办公市场经此一役应该有很大的发展空间。远程办公的兴起，可能会对未来经济的格局产生意想不到的影响。远程办公和自由职业也会大大增加经济体的灵活性和复杂性，节省更多的资源。”

对上述文本集合进行分词预处理后，得到分词结果，并基于分词结果得到词语集合，该分词结果可以包括以下内容：“在家”、“办公”、“提升”、“工作效率”、“百度”、“H”、“百度”、“透露”、“信息”、“2020”、“春节”、“第一周”、“员工”、“在家”、“远程”、“办公”、“效率”、“2019”、“春节”、“第一周”、“办公区”、“上班”、“想到”、“公司”、“选择”、“利用”、“互联网”、“工具”、“远程”、“协作办公”、“各大”、“互联网”、“公司”、“BAT”、“美团”、“字节跳动”、“华为”、“无偿”、“社会”、“提供”、“协作办公”、“工具”、“企业”、“用过”、“一用”、“发现”、“提升”、“工作效率”、“小企业”、“平时”、“内部”、“管理”、“没什么”、“章法”、“工具”、“考勤管理”、“任务分配”、“管理”、“内部”、“通讯”、“项目”、“建档”、“文件”、“保存”、“一条龙”、“服务”、“搞定”、“技术”、“力量”、“一下子”、“挖掘”、“企业”、“开发”、“流程化”、“管理”、“智能”、“效率”、“大幅”、“提升”、“企业级”、“市场”、“原本”、“需求”、“激发”、“供需”、“双涨”、“发现”、“企业服务”、“软件”、“东西”、“管用”、“回到”、“开头”、“百度”、“员工”、“在家”、“效率”、“更高”、“工具”、“笔者”、“打听”、“百度”、“保证”、“全员”、“稳定”、“高效”、“远程”、“办公”、“工具”、“百度”、“HI”、“企业”、“智能”、“远程”、“办公”、“平台”、“企业”、“网络云盘”、“企业”、“IM”、“中心”、“平台”、“多功能”、“服务”、“外部”、“企业”、“百度”、“网站”、“HI”、“BAIDU”、“COM”、“下载”、“即可”、“市面上”、“企业”、“办公”、“工具”、“百度”、“HI”、“智能”、“远程”、“办公”、“平台”、“好处”、“集成”、“多种”、“服务”、“开发性”、“举例”、“百度”、“HI”、“智能”、“远程”、“办公”、“平台”、“支持”、“50”、“团队”、“连续”、“12”、“小时”、“电话会议”、“功能”、“类似”、“ZOOM腾讯”、“办公”、“百度”、“HI 支持”、“企业”、“网络云盘”、“员工”、“远程管理”、“编辑”、“存储”、“文档”、“百度”、“HI”、“支持”、“签到”、“企业”、“通知”、“企业”、“后台”、“百度”、“人工智能”、“整合”、“百度”、“HI”、“平台”、“支持”、“智能”、“机器人”、“流程化”、“标准化”、“办公”、“一点”、“百度”、“HI”、“功能”、“重合”、“百度”、“HI”、“开发”、“”、“报备”、“采集”、“分析”、“跟踪”、“平台”、“百度”、“HI”、“企业”、“软件”、“更好”、“统计”、“员工”、“信心”、“报备”、“相关”、“部门”、“大大减少”、“工作量”、“百度”、“HI”、“还给”、“外部”、“开发者”、“端口”、“能力”、“开发者”、“个性化”、“开发”、“企业”、“用户”、“百度”、“HI”、“平台”、“二次开发”、“基础”、“时间”、“精力”、“百度”、“HI”、“一款”、“超级”、“强大”、“集成”、“市场”、“企业”、“远程”、“办公”、“功能”、“情况”、“估计”、“一部分”、“企业”、“持续”、“员工”、“在家”、“远程”、“办公”、“一款”、“工具”、“程度”、“减轻”、“企业”、“冲击”、“经济”、“有益”、“增强”、“抗击”、“动力”、“信心”、“展望未来”、“远程”、“办公”、“市场”、“经此”、“一役”、“很大”、“发展”、“空间”、“远程”、“办公”、“兴起”、“未来”、“经济”、“格局”、“意想不到”、“影响”、“远程”、“办公”、“自由职业”、“大大增加”、“经济体”、“灵活性”、“复杂性”、“节省”、“资源”。

然后对上述分词结果进行统计，得到词语集合：[('办公',17),('协作',2),('协作办公',2),('软件',2),('网络云盘',2),('云盘',2),('开发者', 2),('考勤',1),('考勤管理',1),('企业服务',1),('视频会议',1),('AI',1),(' 存储',1),('文档',1),('人工智能',1)]，该词语集合表示每个分词在文本中出现的次数，即'办公'在文本中出现了17次，以此类推得到每个分词在文本中出现的次数。

在得到词语集合之后，采用全匹配模式，基于知识图谱进行路径检索，确定图谱检索结果，该图谱检索结果可以参见图3所示，其中，在进行路径检索时，即当词语A(网络云盘)包含词语B(云盘)，且A，B都为图谱中存在实体时，A、B都匹配而不会只匹配A。然后根据该图谱检索结果，确定文本集合的候选领域标签，即确定的候选一级领域标签为“业务服务”。

在确定出候选一级领域标签后，通过第一指针遍历一级领域标签列表的所有一级领域标签，基于文本列表中所有文本的候选一级标签，确定文本列表的文本分类结果。通过获取一级领域标签列表中的所有一级领域标签，循环执行第二指定操作，直至第一指针指向一级领域标签列表的尾部为止。并判断当前一级领域标签是否遍历完成，第二指定操作第一次执行时，当前一级领域标签为一级领域标签列表的第一个一级领域标签，第二指定操作非第一次执行时，当前一级领域标签为第二指定操作执行时对应的标签的下个一级领域标签；若当前一级领域标签遍历完成时，则控制进入下一次第二指定操作；若当前一级领域标签未遍历完成时，则根据当前一级领域标签和文本列表中所有文本的候选一级标签，确定文本列表的文本分类结果。

其中，根据当前一级领域标签和文本列表中所有文本的候选一级标签，确定文本列表的文本分类结果时，通过获取文本列表中的所有文本，循环执行第三指定操作，直至第二指针指向文本列表的尾部为止；该第三指定操作包括：确定文本列表中的当前文本，将第二指针指向当前文本，并判断当前文本的候选一级领域标签中是否包含当前一级领域标签，第三指定操作第一次执行时，当前文本为文本列表的第一个文本，第三指定操作非第一次执行时，当前文本为第三指定操作执行时对应的文本的下个文本；若当前文本的候选一级领域标签中不包含当前一级领域标签时，则控制进入下一次第三指定操作；若当前文本的候选一级领域标签中包含当前一级领域标签时，则基于当前一级领域标签，确定当前文本的文本分类结果。

在确定当前文本的文本分类结果的过程中，可以先基于当前一级领域标签，确定当前文本的当前分类结果，采用文本特征提取算法从当前文本中的词语集合中抽取特征词语并将其转化为特征向量，并对特征向量进行加权求和处理，得到当前文本的特征向量，然后基于当前一级领域标签对应的词向量模型，计算当前文本的特征向量与当前一级领域标签中所有标签及其所有子标签的关联度，确定权重得分，可以得到特征词语与对应的权重得分分别为：['办公','协作办公','开发者','考勤管理','视频会议']和['0.335272','0.097964','0.054845', '0.044339','0.039697']。

本步骤中采用了一个特征工程处理，每篇文本抽取特征词语按 TF-IDF值降序排序后，若前二十词没有一个是当前一级领域标签对应图谱中已有实体时。认为此文本与当前一级领域标签无关；当前二十词存在已有实体时，则从特征词语中抽取TF-IDF值最高的5个词 (需要是图谱中已有实体)作为文本最终的特征词语。其中，确定的文本特征词语与企业服务下属领域标签关联度计算结果为：

OA: 0.263621

视频会议: 0.244670

协作工具: 0.200537

员工福利: 0.168540

人力资源管理: 0.166352

客服系统: 0.160853

考勤管理: 0.157120

人力资源服务: 0.140511

财税服务: 0.139674

人力外包: 0.139241

呼叫中心: 0.133033

薪酬管理: 0.132892

绩效管理: 0.131506

其中，上述仅展示了关联度大于0.13的关联度计算结果，将权重得分最高且超过预设阈值的标签作为当前文本的当前分类结果，从而该最终分类结果为OA。

本申请实施例提供的文本分类方法，通过获取待分类的文本集合，建立文本列表，并基于预设参数及标签体系定义规则，建立一级领域标签列表，然后对文本列表中的文本进行预处理，建立词语集合列表，该词语集合列表中包括与每个文本对应的词语集合，并基于知识图谱和词语集合列表进行路径检索，确定文本列表中所有文本对应的候选一级领域标签，通过第一指针遍历一级领域标签列表的所有一级领域标签，基于文本列表中所有文本的候选一级标签，确定文本列表的文本分类结果。与现有技术相比，该技术方案避免了面对复杂标签体系时，标注数据所花费的高昂人工成本，仅需获取一级领域标签对应的分类文本用以训练词向量模型，即可在计算词语集合与所有标签的相似度时取得良好效果，更进一步的，通过千万级以上的大批量文本训练词向量模型可以更好的学习到知识图谱中各实体词语与领域标签之间的关系，进而提高复杂标签体系下，文本获取细分领域标签的准确度，很大程度上提高了用户体验。

进一步地，本申请实施例能够借助AC算法快速统计长文本中有助于分类的词语的出现次数，并经由知识图谱的路径检索，判断长文本所属的一级一级领域标签，保证大方向上的正确。借助TF-IDF值抽取长文本的特征词语后，由word2vec计算关键词集合与一级领域标签下属所有标签构成集合的关联度，实现面对复杂标签体系时，借助少量标注数据即可快速对长文本进行细致分类。

需要说明的是，上述AC算法是一种多模式匹配算法，通过将关键词模式串预处理确定有限状态自动机，扫描文本一遍就能统计文本中各关键词出现次数。其复杂度为O(n)，即与模式串的数量和长度无关；即使知识图谱随着业务不断扩展，也能快速统计文本中各关键词出现次数。上述少量标注数据是指例如每个一级领域平均抽取了1000 个词语，标注了24000个词语与24个一级领域标签是否存在相关关系，其中存在相关关系的有用词语6000个。在此基础上标注了有用词语与近2000个细分标签之间的关系。现有文本分类模型中，能通过微调迅速应用至业务场景的比较具有代表性的模型为谷歌开源的Bert模型。用一个多分类实现时，因为需要保证各类别样本数量接近，按一个类别200条数据，需要标注将近400000条数据。用多个多分类实现时，只需考虑最细分标签数量1500个，此时需要标注将近300000条数据。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

另一方面，图4为本发明实施例提供的文本分类装置的结构示意图。如图4所示，该装置可以实现如图1-2所示的方法，该装置可以包括：

获取模块10，用于获取待分类的文本集合，建立文本列表；

第一建立模块20，用于基于预设参数及标签体系定义规则，建立一级领域标签列表；

第二建立模块30，用于对文本列表中的文本进行预处理，建立词语集合列表，词语集合列表中包括与每个文本对应的词语集合；

第一确定模块40，用于基于知识图谱和词语集合列表进行路径检索，确定文本列表中所有文本对应的候选一级领域标签；

第二确定模块50，用于通过第一指针遍历一级领域标签列表的所有一级领域标签，基于文本列表中所有文本的候选一级标签，确定文本列表的文本分类结果。

可选的，上述第一确定模块40，具体用于：

对于文本列表中的每个文本，执行第一指定操作，得到文本列表中所有文本的候选一级领域标签；

第一指定操作包括：

基于知识图谱进行路径检索，统计文本中词语集合指向一级领域标签列表中各一级领域标签的次数；

将次数与预设次数阈值进行比对，预设次数阈值为最大次数与预设系数的乘积；

将次数大于或等于预设次数阈值对应的标签作为词语集合对应的文本的候选一级领域标签。

可选的，上述第二确定模块50，具体用于：

获取一级领域标签列表中的所有一级领域标签；

循环执行第二指定操作，直至第一指针指向一级领域标签列表的尾部为止；

第二指定操作包括：

确定一级领域标签列表的当前一级领域标签，将第一指针指向当前一级领域标签，并判断当前一级领域标签是否遍历完成，第二指定操作第一次执行时，当前一级领域标签为一级领域标签列表的第一个一级领域标签，第二指定操作非第一次执行时，当前一级领域标签为第二指定操作执行时对应的标签的下个一级领域标签；

若当前一级领域标签遍历完成时，则控制进入下一次第二指定操作；

若当前一级领域标签未遍历完成时，则根据当前一级领域标签和文本列表中所有文本的候选一级标签，确定文本列表的文本分类结果。

可选的，上述第二确定模块50，具体用于：

获取文本列表中的所有文本；

循环执行第三指定操作，直至第二指针指向文本列表的尾部为止；

第三指定操作包括：

确定文本列表中的当前文本，将第二指针指向当前文本，并判断当前文本的候选一级领域标签中是否包含当前一级领域标签，第三指定操作第一次执行时，当前文本为文本列表的第一个文本，第三指定操作非第一次执行时，当前文本为第三指定操作执行时对应的文本的下个文本；

若当前文本的候选一级领域标签中不包含当前一级领域标签时，则控制进入下一次第三指定操作；

若当前文本的候选一级领域标签中包含当前一级领域标签时，则基于当前一级领域标签，确定当前文本的文本分类结果。

可选的，上述第二确定模块50，具体用于：

基于当前一级领域标签，确定当前文本的当前分类结果；

将当前分类结果与历史分类结果进行比对；

将权重得分较高的分类结果作为当前文本的文本分类结果。

可选的，上述第二确定模块50，具体用于：

采用文本特征提取算法从当前文本中的词语集合中抽取特征词语；

将特征词语转化为特征向量，并对特征向量进行加权求和处理，得到当前文本的特征向量；

基于当前一级领域标签对应的词向量模型，计算当前文本的特征向量与当前一级领域标签中所有标签的关联度，确定权重得分；

将权重得分最高且超过预设阈值的标签作为当前文本的当前分类结果。

可选的，如图5所示，上述第二建立模块30，包括：

去除单元301，用于去除文本中的停用词；

第一确定单元302，用于基于预先存储在知识图谱中的同义词关系及同义词数据，确定并替换文本中的同义词，得到处理后的词语集合；

建立单元303，用于基于处理后的词语集合，建立词语集合列表。

本实施例提供的文本分类装置，可以执行上述方法的实施例，其实现原理和技术效果类似，在此不再赘述。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

获取待分类的文本集合，建立文本列表；

2.根据权利要求1所述的方法，其特征在于，基于知识图谱和所述词语集合列表进行路径检索，确定所述文本列表中所有文本的候选一级领域标签，包括：

所述第一指定操作包括：

3.根据权利要求1所述的方法，其特征在于，通过第一指针遍历所述一级领域标签列表的所有一级领域标签，基于所述文本列表中所有文本的候选一级标签，确定所述文本列表的文本分类结果，包括：

获取所述一级领域标签列表中的所有一级领域标签；

所述第二指定操作包括：

4.根据权利要求3所述的方法，其特征在于，根据所述当前一级领域标签和所述文本列表中所有文本的候选一级标签，确定所述文本列表的文本分类结果，包括：

获取所述文本列表中的所有文本；

所述第三指定操作包括：

5.根据权利要求4所述的方法，其特征在于，基于所述当前一级领域标签，确定当前文本的文本分类结果，包括：

将所述当前分类结果与历史分类结果进行比对；

6.根据权利要求2-5中任一项所述的方法，其特征在于，基于所述当前一级领域标签，确定所述当前文本的当前分类结果，包括：

基于当前一级领域标签对应的词向量模型，计算所述当前文本的特征向量与所述当前一级领域标签列表中所有标签及其所有子标签的关联度，确定权重得分；

7.根据权利要求1所述的方法，其特征在于，对所述文本列表中的所述文本进行预处理，建立词语集合列表，包括：

去除所述文本中的停用词；

基于所述处理后的词语集合，建立词语集合列表。

8.一种文本分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类的文本集合，建立文本列表；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的文本分类方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于被处理器执行时实现权利要求1-7中任一项所述的文本分类方法。