CN108875067A

CN108875067A - 文本数据分类方法、装置、设备及存储介质

Info

Publication number: CN108875067A
Application number: CN201810719339.5A
Authority: CN
Inventors: 连荣忠; 马宗阳; 彭金华; 姜迪; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-11-23
Anticipated expiration: 2038-06-29
Also published as: CN108875067B

Abstract

本申请提出一种文本数据分类方法、装置、设备及存储介质，其中方法包括：利用预设的主题模型，对待处理的文本数据进行主题识别，确定所述待处理的文本数据对应的目标主题标识及所述目标主题标识对应的第一关键词集；获取多个预设的可能目标类别对应的多个第二关键词集；根据所述第一关键词集中的多个第一关键词，分别与所述多个第二关键词集中的多个第二关键词间的各匹配度，确定所述待处理的文本数据所属的目标类别。由此，提高了对文本数据分类时，分类结果的准确率及可靠性，且由于根据关键词间的匹配，确定待处理的文本数据所属的目标类别，无需大量的人工标注数据，减少了人力成本。

Description

文本数据分类方法、装置、设备及存储介质

技术领域

本申请涉及文本分类技术领域，特别涉及一种文本数据分类方法、装置、设备及存储介质。

背景技术

随着互联网络上大量信息不断的涌现出来，给信息的查询以及检索带来了很大的不便，如何在海量信息中快速有效地找到用户所需要的信息，是当前信息科学和技术领域面临的一大挑战。文本分类技术能够对海量信息进行有序整理组织，从而方便用户准确地定位所需的信息。同时，文本分类方法涉及到模式识别中的很多基本问题，例如分类器设计问题，高维特征问题等等。因此，文本分类技术的研究具有重要的实用价值和理论意义。

目前，对文本数据进行分类时，多是利用预设的分类模型，对各文本数据的标题进行识别，以确定该文本数据所属的类型，但是由于文本数据的标题并无法完全准确的反映文本数据的内容，因此，采用这种方式对文本数据进行分类时，分类结果准确率较低，可靠性差。

发明内容

本申请实施例提出一种文本数据分类方法、装置、设备及终端，用于解决相关技术中，利用预设的分类模型，对各文本数据的标题进行识别，以确定该文本数据所属的类型时，由于文本数据的标题并无法完全准确的反映文本数据的内容，从而分类结果准确率较低、可靠性差的技术问题。

本申请一方面实施例提出了一种文本数据分类方法，该方法包括：利用预设的主题模型，对待处理的文本数据进行主题识别，确定所述待处理的文本数据对应的目标主题标识及所述目标主题标识对应的第一关键词集；获取多个预设的可能目标类别对应的多个第二关键词集；根据所述第一关键词集中的多个第一关键词，分别与所述多个第二关键词集中的多个第二关键词间的各匹配度，确定所述待处理的文本数据所属的目标类别。

本申请又一方面实施例提出了一种文本数据分类装置，该装置包括：识别模块，用于利用预设的主题模型，对待处理的文本数据进行主题识别，确定所述待处理的文本数据对应的目标主题标识及所述目标主题标识对应的第一关键词集；第一获取模块，用于获取多个预设的可能目标类别对应的多个第二关键词集；第一确定模块，用于根据所述第一关键词集中的多个第一关键词，分别与所述多个第二关键词集中的多个第二关键词间的各匹配度，确定所述待处理的文本数据所属的目标类别。

本申请又一方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现前述实施例所述的文本数据分类方法。

本申请的又一方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，以实现前述实施例所述的文本数据分类方法。

本申请实施例提供的文本数据分类方法、装置、计算机设备及计算机可读存储介质，首先利用预设的主题模型，对待处理的文本数据进行主题识别，确定待处理的文本数据对应的目标主题标识及目标主题标识对应的第一关键词集，从而在获取多个预设的可能目标类别对应的多个第二关键词集后，可以根据第一关键词集中的多个第一关键词，分别与多个第二关键词集中的多个第二关键词间的各匹配度，确定待处理的文本数据所属的目标类别。由此，通过利用预设的主题模型，对待处理的文本数据进行识别，再根据关键词间的匹配，确定待处理的文本数据所属的目标类别，提高了对文本数据分类时，分类结果的准确率及可靠性，且由于根据关键词间的匹配，确定待处理的文本数据所属的目标类别，无需大量的人工标注数据，减少了人力成本。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请一个实施例的文本数据分类方法的流程示意图；

图2为本申请又一个实施例的文本数据分类方法的流程示意图；

图3为本申请一个实施例的初始主题模型的模型扩展方法的流程示意图；

图4为本申请又一个实施例的文本数据分类方法的流程示意图；

图5为本申请一个实施例的文本数据分类装置的结构示意图；

图6为本申请另一个实施例的文本数据分类装置的结构示意图；

图7为本申请一个实施例的计算机设备的结构示意图；

图8为本申请另一个实施例的计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本申请中各实施例主要针对相关技术中，对文本数据进行分类时，多是利用预设的分类模型，对各文本数据的标题进行识别，以确定该文本数据所属的类型，但是由于文本数据的标题并无法完全准确的反映文本数据的内容，从而导致分类结果准确率较低，可靠性差的问题，提出一种文本数据分类方法、装置、计算机设备及计算机可读存储介质。

本申请实施例提出的文本数据分类方法，可以利用预设的主题模型，对待处理的文本数据进行主题识别，以确定待处理的文本数据对应的目标主题标识及目标主题标识对应的第一关键词集，进而在获取多个预设的可能目标类别对应的多个第二关键词集后，可以根据第一关键词集中的多个第一关键词，分别与多个第二关键词集中的多个第二关键词间的各匹配度，确定待处理的文本数据所属的目标类别。由此，通过利用预设的主题模型，对待处理的文本数据进行识别，再根据关键词间的匹配，确定待处理的文本数据所属的目标类别，提高了对文本数据分类时，分类结果的准确率及可靠性，且由于根据关键词间的匹配，确定待处理的文本数据所属的目标类别，无需大量的人工标注数据，减少了人力成本。

下面参考附图描述本申请实施例的文本数据分类方法、装置、计算机设备及计算机可读存储介质。

首先结合附图1，对本申请实施例提供的文本数据分类方法进行具体说明。

图1为本申请一个实施例的文本数据分类方法的流程示意图。

如图1所示，本申请的文本数据分类方法可以包括以下步骤：

步骤101，利用预设的主题模型，对待处理的文本数据进行主题识别，确定待处理的文本数据对应的目标主题标识及目标主题标识对应的第一关键词集。

具体的，本申请实施例提供的文本数据分类方法的执行主体，可以为本申请实施例提供的文本数据分类装置。该文本数据分类装置可以被配置在任意计算机设备中，以对文本数据进行准确分类。

其中，主题，指某个专业领域或者兴趣领域，例如航空航天、生物医学、信息技术等。主题标识，用来唯一标识主题，其可以根据需要任意设置。比如，可以设置为“1”、“2”、“3”等数字，每个数字对应一个主题；或者，可以设置为“a”、“b”、“c”等字母，每个字母对应一个主题，等等。

可以理解的是，主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲，如果一篇文章有一个中心思想，那么一些特定词语会更频繁的出现。真实情况还包括，一篇文章通常包含多种主题，而且每个主题所占比例各不相同。一个主题模型试图用数学框架来体现文档的这种特点。主题模型可以自动分析每个文档，统计文档内的词语，然后根据统计的信息来断定当前文档含有哪些主题，以及每个主题所占的比例各为多少。

基于主题模型的特性，在本申请实施例中，可以预先训练一个初始主题模型，然后对初始主题模型进行模型扩展，从而获取一个预设的主题模型，用来对文本数据进行主题识别，且预设的主题模型中，各主题分别对应一个关键词集，从而在获取待处理的文本数据后，通过利用预设的主题模型，对待处理的文本数据进行主题识别，即可确定待处理的文本数据对应的目标主题标识及目标主题标识对应的第一关键词集。

需要说明的是，待处理的文本数据可能对应多个主题，在本申请实施例中，目标主题，可以是待处理的文本数据对应的各主题中所占比例最大的主题。

另外，对于训练初始主题模型，及对初始主题模型进行模型扩展，以获取预设的主题模型的过程，将在下述实施例中介绍，此处不作说明。

步骤102，获取多个预设的可能目标类别对应的多个第二关键词集。

其中，每个预设的可能目标类别对应一个第二关键词集。

具体的，可以通过多种方式，获取多个预设的可能目标类别对应的多个第二关键词集。

比如，可以根据多个预设的可能目标类别分别对应的词典，获取多个预设的可能目标类别对应的多个第二关键词集。或者，可以对大量的训练文本数据进行人工阅读、理解，提取关键词，并判断每个关键词所属的类别，从而获取多个预设的可能目标类别对应的多个第二关键词集。

需要说明的是，本申请实施例中，步骤102可以在步骤101之后执行，也可以在步骤101之前执行，或者与步骤101同时执行，本申请对此不作限定。

步骤103，根据第一关键词集中的多个第一关键词，分别与多个第二关键词集中的多个第二关键词间的各匹配度，确定待处理的文本数据所属的目标类别。

具体的，可以通过以下多种方式，确定待处理的文本数据所属的目标类别。

方式一

计算第一关键词集中的多个第一关键词与第二关键词集中的多个第二关键词之间的多个匹配度；计算多个匹配度的均值，以确定第一关键词集与第二关键词集的匹配度；使用匹配度最大的第二关键词集对应的类别作为目标类别。

具体的，可以先分别计算第一关键词集中多个第一关键词，与任一第二关键词集中多个第二关键词间的多个匹配度，再计算多个匹配度的均值，以将多个匹配度的均值确定为第一关键词集与该任一第二关键词集的匹配度，从而根据第一关键词集与所有第二关键词集间的各匹配度，确定匹配度最大的第二关键词集对应的类别为目标类别。

举例来说，假设第一关键词集A中各第一关键词分别为A1、A2、A3、A4，第二关键词集B中各第二关键词分别为B1、B2、B3、B4，第二关键词集C中各第二关键词分别为C1、C2、C3、C4，第二关键词集D中各第二关键词分别为D1、D2、D3、D4。且第二关键词集B、C、D分别对应的类别为战争、装修、健身。

首先确定第一关键词集A与第二关键词集B的匹配度。假设A1与B1、B2、B3、B4的匹配度分别为95％、25％、30％、0，A2与B1、B2、B3、B4的匹配度分别为75％、10％、20％、30％，A3与B1、B2、B3、B4的匹配度分别为25％、15％、30％、85％，A4与B1、B2、B3、B4的匹配度分别为55％、15％、30％、10％。由于上述16个匹配度的均值为34.375％，则可以确定第一关键词集A与第二关键词集B的匹配度为34.375％。

利用同样的方式，可以确定第一关键词集A分别与第二关键词集C、D的匹配度，假设第一关键词集A与第二关键词集C、D的匹配度分别为10％、20％，则可以确定目标类别为匹配度最大的第二关键词集B对应的类别，即战争。

方式二

计算第一关键词集中的多个第一关键词与第二关键词集中的多个第二关键词之间的多个匹配度；计算多个匹配度的最大值，以确定第一关键词集与第二关键词集的匹配度；使用匹配度最大的第二关键词集对应的类别作为目标类别。

具体的，可以先分别计算第一关键词集中多个第一关键词，与任一第二关键词集中多个第二关键词间的多个匹配度，再将多个匹配度中的最大值确定为第一关键词集与该任一第二关键词集的匹配度，从而根据第一关键词集与所有第二关键词集间的各匹配度，确定匹配度最大的第二关键词集对应的类别为目标类别。

继续以上述示例为例，由于A1、A2、A3、A4与第二关键词集B中的多个第二关键词的匹配度中，最大值为95％，则可以确定第一关键词集A与第二关键词集B的匹配度为95％。

假设利用同样的方式，确定第一关键词集A与第二关键词集C、D的匹配度为32％、40％，则可以确定目标类别为匹配度最大的第二关键词集B对应的类别，即战争。

需要说明的是，上述根据第一关键词集中的多个第一关键词与第二关键词集中的多个第二关键词之间的多个匹配度，确定待处理的文本数据所属的目标类别的实例，仅是示意性说明，不能作为对本申请技术方案的限制，本领域技术人员在此基础上，可以根据需要任意设置根据第一关键词集中的多个第一关键词与第二关键词集中的多个第二关键词之间的多个匹配度，确定待处理的文本数据所属的目标类别的方法，此处对此不作限定。

可以理解的是，本申请实施例的文本分类方法，由于待处理的文本数据对应的目标主题标识，是利用预设的主题模型，从整个待处理的文本数据中识别出的，因此，利用由目标主题标识确定的第一关键词集中的多个第一关键词，分别与获取的多个预设的可能目标类别对应的多个第二关键词集中的多个第二关键词间的各匹配度，确定的待处理的文本数据所属的目标类别更准确，可靠性更高。且通过根据关键词的匹配，确定待处理的文本数据所属的目标类别，无需大量的人工标注数据来训练分类模型，减少了人力成本。

本申请实施例提供的文本数据分类方法，首先利用预设的主题模型，对待处理的文本数据进行主题识别，确定待处理的文本数据对应的目标主题标识及目标主题标识对应的第一关键词集，从而在获取多个预设的可能目标类别对应的多个第二关键词集后，可以根据第一关键词集中的多个第一关键词，分别与多个第二关键词集中的多个第二关键词间的各匹配度，确定待处理的文本数据所属的目标类别。由此，通过利用预设的主题模型，对待处理的文本数据进行识别，再根据关键词间的匹配，确定待处理的文本数据所属的目标类别，提高了对文本数据分类时，分类结果的准确率及可靠性，且由于根据关键词间的匹配，确定待处理的文本数据所属的目标类别，无需大量的人工标注数据，减少了人力成本。

通过上述分析可知，可以利用预设的主题模型，对待处理的文本数据进行主题识别，确定待处理的文本数据对应的目标主题标识及目标主题标识对应的第一关键词集，从而在获取多个预设的可能目标类别对应的多个第二关键词集后，可以根据第一关键词集中的多个第一关键词，分别与多个第二关键词集中的多个第二关键词间的各匹配度，确定待处理的文本数据所属的目标类别。进一步的，在利用预设的主题模型，对待处理的文本数据进行主题识别之前，还需要获取预设的主题模型。下面结合图2，对本申请的文本数据分类方法中，获取预设的主题模型的过程进行说明。

图2为本申请又一个实施例的文本数据分类方法的流程示意图。

如图2所示，在图1所示的基础上，本申请实施例的文本数据分类方法还可以包括以下步骤：

步骤201，对训练数据集中的训练文本进行训练，训练文本包括多个词语单元，以生成包括M个主题的初始主题模型及多个词语单元在M个主题中分别出现的次数。

具体的，对训练数据集中的训练文本进行训练，生成的初始主题模型的储存格式可以为：每个词语单元对应一行，每一行的第一列为每个词语单元分别对应的标识，每一行的第二列至最后一列分别为该词语单元在各主题下出现的次数。

比如，以初始主题模型的某一行为例：

24800 22:11 115:307 291:1 306:393 437:102 758:5212 4789:59069

表示标识为“24800”的词语单元在标识为“22”的主题下出现了11次，在标识为“115”的主题下出现了307次，在标识为“291”的主题下出现了1次，在标识为“306”的主题下出现了393次，在标识为“437”的主题下出现了102次，在标识为“758”的主题下出现了5212次，在标识为“4789”的主题下出现了59069次。

需要说明的是，在初始主题模型中，可能出现某两个或两个以上的词语单元对应的一个或多个主题相同的情况。比如，标识为“24800”的词语单元，在标识为“758”的主题下出现了5212次，标识为“24801”的词语单元，在标识为“758”的主题下出现了241次，标识为“24802”的词语单元，在标识为“758”的主题下出现了2次。即，标识分别为“24800”、“24801”、“24802”的词语单元，均对应标识为“758”的主题。

在本申请实施例中，M为初始主题模型中，具有不同标识的主题的总数量，每个词语单元对应的主题数量，小于或等于M。

步骤202，根据多个第二关键词集中的多个第二关键词与多个词语单元的匹配度，对初始主题模型进行模型扩展，以获取包括N个主题的预设的主题模型。

其中，N为大于或等于M的整数。

具体的，可以在获取多个预设的可能目标类别对应的多个第二关键词集后，将多个第二关键词集中的多个第二关键词与多个词语单元分别进行匹配，从而根据多个第二关键词集中的多个第二关键词与多个词语单元的匹配度，对初始主题模型进行模型扩展。

下面结合图3对初始主题模型的模型扩展过程进行详细说明。

具体的，假设第二关键词集的数量为K，其中，K为整数，则可以通过以下方式，对初始主题模型进行模型扩展，以获取包括N个主题的预设的主题模型。

步骤2021，设i＝1。

步骤2022，判断i是否大于K，若是，则执行步骤2026，否则执行步骤2023。

步骤2023，判断第i个第二关键词集中的任一第二关键词是否与任一词语单元匹配，若是，则执行步骤2025，否则，执行步骤2024。

步骤2024，i的值加1。

步骤2025，将与第i个第二关键词集中的任一第二关键词匹配的词语单元对应的主题数量加1，且i的值加1。

步骤2026，结束。

即，可以依次判断第i个第二关键词集中的任一第二关键词是否与任一词语单元匹配，其中，i为大于0，且小于或等于K的整数；若匹配，则将词语单元对应的主题数量加一，直至i等于K。

具体的，可以预先设置一个匹配度阈值，若第i个第二关键词集中的某个第二关键词与某个词语单元的匹配度大于预设的匹配度阈值，则确定该第二关键词与该词语单元匹配。

具体实现时，可以依次将第i个第二关键词集中，多个第二关键词与多个词语单元进行匹配，以依次确定第i个第二关键词集中的多个第二关键词与多个词语单元的匹配度，从而在第i个第二关键词集中的任一第二关键词与任一词语单元的匹配度大于预设的匹配度阈值时，则将与第i个第二关键词集中的任一第二关键词匹配的词语单元对应的主题数量加一，直至i等于K。

举例来说，假设初始主题模型中包括M＝5000个主题，主题标识分别为“1”至“5000”，初始主题模型中某三行为：

24800 22:11 115:307 291:1 306:393 437:102 758:5212 4789:59069

24801 21:1 114:30 291:102 489:373 563:892 372:26341 5632:3426

24802 12:1 231:45 573:284 434:234 563:125 903:22341 52:26

假设K＝2，第二关键词集B对应的类别为“战争”，第二关键词集C对应的类别为“装修”。第二关键词集B中的各第二关键词分别为B1、B2、B3、B4，第二关键词集C中的各第二关键词分别为C1、C2、C3、C4。匹配度阈值为80％。

具体的，可以先将B中的各第二关键词B1、B2、B3、B4分别与标识为“24800”、“24801”、“24802”的词语单元进行匹配，以确定B1、B2、B3、B4分别与标识为“24800”、“24801”、“24802”的词语单元各自的匹配度。若B1与标识为“24800”的词语单元的匹配度为90％，大于80％，B1与其它词语单元的匹配度，及B2、B3、B4分别与标识为“24800”、“24801”、“24802”的词语单元的匹配度均小于80％，则将标识为“24800”的词语单元对应的主题数量加一。

然后，将C中的各第二关键词C1、C2、C3、C4分别与标识为“24800”、“24801”、“24802”的词语单元进行匹配，以确定C1、C2、C3、C4分别与标识为“24800”、“24801”、“24802”的词语单元各自的匹配度。若C1与标识为“24800”的词语单元的匹配度为85％，大于80％，C2与标识为“24801”的词语单元的匹配度为84％，大于80％，C1及C2分别与其它词语单元的匹配度，及C3、C4分别与标识为“24800”、“24801”、“24802”的词语单元的匹配度均小于80％，则将标识为“24800”与标识为“24801”的词语单元对应的主题数量均加一。即通过上述过程，标识为“24800”的词语单元新增了2个主题，标识为“24801”的词语单元新增了1个主题。

需要说明的是，若同一词语单元与同一第二关键词集中的多个第二关键词的匹配度均大于预设的匹配度阈值，则该词语单元对应的主题数量仅加一。也就是说，只要某词语单元与某第二关键词集中的至少一个第二关键词匹配，则将该词语单元对应的主题数量加一。且该词语单元对应的新增主题，可以根据与该词语单元匹配的第二关键词对应的预设的可能目标类别确定。

另外，在对词语单元新增主题时，由于不同的第二关键词集对应不同的类别，因此，若同一词语单元与不同的第二关键词集中任一第二关键词匹配，则每次新增主题时对该词语单元新增的主题为不同主题。

比如，继续以上述示例为例，由于B1和C1分别对应不同的类别，则标识为“24800”的词语单元与B1的匹配度大于80％时，该词语单元下新增的主题标识可以为“5001”，该词语单元与C1的匹配度大于80％时，该词语单元下新增的主题标识可以为“5002”。

再者，若两个或两个以上的词语单元均与同一第二关键词集中的任一词语单元匹配，由于同一第二关键词集中的任一词语单元均对应同一类别，则对该两个或两个以上的词语单元新增的主题为同一主题。

比如，继续以上述示例为例，由于C1、C2对应相同的类别，则标识为“24800”的词语单元与C1的匹配度，及标识为“24801”的词语单元与C2的匹配度均大于80％时，标识为“24800”和标识为“24801”的词语单元下新增的主题标识均可以为“5002”。

进一步的，在将词语单元对应的主题数量加一后，还需要确定该词语单元在新增主题中出现的次数。即，在步骤2025之后，还可以包括：

步骤2027，按照预设的规则，确定词语单元在新增主题中出现的次数。

其中，预设的规则，指用来规定确定词语单元在新增主题中出现次数的方法的准则，其可以根据需要任意设置。此处的词语单元，指对应的主题数量增加的词语单元。

具体实现时，可以根据对应的主题数量增加的词语单元在M个主题中分别出现的次数的最大值，确定该词语单元在新增主题中出现的次数。

在示例性实施例中，在将词语单元对应的主题数量加一后，可以确定该词语单元在M个主题中分别出现的次数的最大值，然后将大于该最大值的任一数值确定为该词语单元在新增主题中出现的次数。

比如，继续以上述示例为例，由于标识为“24800”的词语单元在标识为“4789”的主题下出现的次数59069，为该词语单元在所有主题下出现的次数的最大值，则在该词语单元下新增标识为“5001”的主题后，可以将59070确定为该词语单元在新增的标识为“5001”的主题中出现的次数。

或者，可以根据第二关键词在第i个第二关键词集中的权重，确定词语单元在新增主题中出现的次数。

其中，权重，可以在获取多个预设的可能目标类别对应的多个第二关键词集后，根据各预设的可能目标类别分别对应的词典或人工标注了关键词及类别的训练文本数据等确定，此处不作限制。

具体的，在词语单元与第i个第二关键词集中任一第二关键词匹配时，可以确定该词语单元在M个主题中分别出现的次数的最大值，及与该词语单元匹配的第二关键词在第i个第二关键词集中的权重，然后将该次数的最大值与该权重的商，确定为该词语单元在新增主题中出现的次数。

比如，继续以上述示例为例，由于标识为“24800”的词语单元与第二关键词集B中的第二关键词B1匹配，且该词语单元在标识为“4789”的主题下出现的次数的最大值为59069，假设B1在B中的权重为0.8，则在该词语单元下新增标识为“5001”的主题后，可以将59069/0.8即73836.25确定为该词语单元在新增的标识为“5001”的主题中出现的次数。

通过上述方式，确定对应的主题数量增加的词语单元在新增主题中出现的次数，使得利用预设的主题模型，对待处理的文本数据进行主题识别时，该词语单元被分配到新增主题的概率增大，由于新增主题是根据与该词语单元匹配的第二关键词对应的预设的可能目标类别确定的，而预设的可能目标类别对应的第二关键词集由预设的可能目标类别对应的词典或人工标注的训练数据得到，从而提高了主题识别的准确性和可靠性，进而提高了文本数据分类的准确率及可靠性。

需要说明的是，确定词语单元在新增主题中出现的次数的步骤，可以在每次将与某个第二关键词集中，任一第二关键词匹配的词语单元对应的主题数量加一之后执行，也可以在将与K个第二关键词集中，任一第二关键词匹配的所有的词语单元对应的主题数量均加一后执行，本申请对此不作限制。

通过上述过程，即可对初始主题模型进行模型扩展，从而获取包括N个主题的预设的主题模型。

可以理解的是，在包括M个主题的初始主题模型中，每个主题对应的所有词语单元组成的词语集合，即为每个主题对应的第一关键词集。在对初始主题模型进行模型扩展，获取包括N个主题的预设的主题模型之后，为了能够利用预设的主题模型，对待处理的文本数据进行主题识别，以确定待处理的文本数据对应的目标主题标识，及目标主题标识对应的第一关键词集，进一步的，还需要确定预设的主题模型中，N-M个新增主题分别对应的各第一关键词集。

即，在步骤202之后，还可以包括：

确定N-M个新增主题分别对应的各第一关键词集。

具体的，在对词语单元新增主题时，与同一第二关键词集中任一第二关键词匹配的所有词语单元组成的集合，即为对这些词语单元新增的主题对应的第一关键词集。

比如，继续以上述示例为例，由于标识为“24800”的词语单元与C1的匹配度，及标识为“24801”的词语单元与C2的匹配度均大于80％，C1与C2属于同一类别对应的第二关键词集C，则在对标识为“24800”和标识为“24801”的词语单元新增标识为“5002”的主题后，新增主题5002对应的第一关键词集中，包括标识为“24800”的词语单元及标识为“24801”的词语单元。

通过训练初始主题模型，及对初始主题模型进行模型扩展，实现了对预设的主题模型的获取，从而可以利用预设的主题模型，对待处理的文本数据进行主题识别，进而对文本数据进行分类，由此，提高了对文本数据分类时，分类结果的准确率及可靠性。

通过上述分析可知，可以对训练的初始主题模型进行模型扩展，获取预设的主题模型，从而利用预设的主题模型，对待处理的文本数据进行主题识别，确定待处理的文本数据对应的目标主题标识及目标主题标识对应的第一关键词集，以在获取多个预设的可能目标类别对应的多个第二关键词集后，根据第一关键词集及第二关键词集，确定待处理的文本数据所属的目标类别。在实际运用中，可能出现某个新的词语，而预设的主题模型的主题分别对应的第一关键词集中并没有该新词语，那么，在本申请实施例中，还可以根据新出现的词语，对预设的主题模型进行更新。

下面针对上述情况，结合图4，对本申请的文本数据分类方法进行进一步的说明。

图4为本申请又一个实施例的文本数据分类方法的流程示意图。

如图4所示，本申请实施例的文本数据分类方法可以包括以下步骤：

步骤301，利用预设的主题模型，对待处理的文本数据进行主题识别，以获取待处理的文本数据对应的目标主题标识、待处理的文本数据中包含的目标词语及目标词语在待处理文本数据中出现的次数。

其中，预设的主题模型中的主题分别对应的第一关键词集中未包括目标词语。

具体的，通过利用预设的主题模型对待处理的文本数据进行主题识别，即可确定待处理的文本数据对应的目标主题标识、待处理的文本数据中包含的目标词语及目标词语在待处理文本数据中出现的次数。

步骤302，根据目标词语、目标词语在待处理文本数据中出现的次数及待处理的文本数据对应的目标主题标识，对预设的主题模型中的用于表征各词语单元在各主题中出现的次数的数据库进行更新。

具体的，在利用预设的主题模型，对待处理的文本数据进行主题识别，确定待处理的文本数据对应的目标主题标识、待处理的文本数据中包含的目标词语，及目标词语在待处理文本数据中出现的次数后，即可根据这些参数，对预设的主题模型中的用于表征各词语单元在各主题中出现的次数的数据库进行更新。

举例来说，假设预设的主题模型中的数据库中，共包括10000个词语单元，标识分别为“1”至“10000”。在对待处理的文本数据进行主题识别后，确定待处理的文本数据中包含10000个词语单元之外的词，即目标词语，且该目标词语在待处理的文本数据中出现了45次，待处理的文本数据对应的目标主题标识为“287”，则可以将该目标词语的标识确定为“10001”，从而在预设的主题模型中的数据库中，新增加一行“10001 287:45”，以对预设的主题模型中的数据库进行更新。

通过利用待处理的文本数据中包含的目标词语、目标词语在待处理文本数据中出现的次数及待处理文本数据对应的目标主题标识，对预设的主题模型中的用于表征各词语单元在各主题中出现的次数的数据库进行更新，提高了预设的主题模型的时效性，从而使得利用更新后的预设的主题模型，对待处理的文本数据进行主题识别，进而对文本数据进行分类时，分类结果的准确性和可靠性更高。

下面参照附图描述本申请实施例提出的文本数据分类装置。

图5为本申请一个实施例的文本数据分类装置的结构示意图。

如图5所示，该文本数据分类装置包括：识别模块11、第一获取模块12、第一确定模块13。

其中，识别模块11，用于利用预设的主题模型，对待处理的文本数据进行主题识别，确定所述待处理的文本数据对应的目标主题标识及所述目标主题标识对应的第一关键词集；

第一获取模块12，用于获取多个预设的可能目标类别对应的多个第二关键词集；

第一确定模块13，用于根据所述第一关键词集中的多个第一关键词，分别与所述多个第二关键词集中的多个第二关键词间的各匹配度，确定所述待处理的文本数据所属的目标类别。

具体的，本申请实施例提供的文本数据分类装置，可以执行本申请实施例提供的文本数据分类方法。该文本数据分类装置，可以被配置在任意计算机设备中，以对文本数据进行准确分类。

在一种可能的实现形式中，上述第一确定模块13，具体用于：

计算第一关键词集中的多个第一关键词与第二关键词集中的多个第二关键词之间的多个匹配度；

计算所述多个匹配度的均值或者最大值，以确定所述第一关键词集与所述第二关键词集的匹配度；

使用匹配度最大的第二关键词集对应的类别作为所述目标类别。

需要说明的是，本实施例的文本数据分类装置的实施过程和技术原理，参见前述对图1所示的文本数据分类方法实施例的解释说明，此处不再赘述。

本申请实施例提供的文本数据分类装置，首先利用预设的主题模型，对待处理的文本数据进行主题识别，确定待处理的文本数据对应的目标主题标识及目标主题标识对应的第一关键词集，从而在获取多个预设的可能目标类别对应的多个第二关键词集后，可以根据第一关键词集中的多个第一关键词，分别与多个第二关键词集中的多个第二关键词间的各匹配度，确定待处理的文本数据所属的目标类别。由此，通过利用预设的主题模型，对待处理的文本数据进行识别，再根据关键词间的匹配，确定待处理的文本数据所属的目标类别，提高了对文本数据分类时，分类结果的准确率及可靠性，且由于根据关键词间的匹配，确定待处理的文本数据所属的目标类别，无需大量的人工标注数据，减少了人力成本。

在示例性实施例中，还提供了一种文本数据分类装置。

图6为本申请另一个实施例的文本数据分类装置的结构示意图。

如图6所示，在图5所示的基础上，本申请的文本数据分类装置还包括：训练模块21、扩展模块22、第二确定模块23、第二获取模块24及更新模块25。

其中，训练模块21，用于对训练数据集中的训练文本进行训练，所述训练文本包括多个词语单元，以生成包括M个主题的初始主题模型及所述多个词语单元在所述M个主题中分别出现的次数；

扩展模块22，用于根据所述多个第二关键词集中的多个第二关键词与所述多个词语单元的匹配度，对所述初始主题模型进行模型扩展，以获取包括N个主题的预设的主题模型，其中N为大于或等于M的整数。

第二确定模块23，用于确定N-M个新增主题分别对应的各第一关键词集。

第二获取模块24，用于获取所述待处理的文本数据中包含的目标词语及所述目标词语在所述待处理文本数据中出现的次数，其中，所述预设的主题模型中的主题分别对应的第一关键词集中未包括所述目标词语；

更新模块25，用于根据所述目标词语、所述目标词语在所述待处理文本数据中出现的次数及所述待处理的文本数据对应的目标主题标识，对所述预设的主题模型中的用于表征各词语单元在各主题中出现的次数的数据库进行更新。

在一种可能的实现形式中，第二关键词集的数量为K，其中，K为整数；

相应的，上述扩展模块22，具体用于：

依次判断第i个第二关键词集中的任一第二关键词是否与任一词语单元匹配，其中，i为大于0，且小于或等于K的整数；

若匹配，则将所述词语单元对应的主题数量加一，直至i等于K。

在另一种可能的实现形式中，上述扩展模块22，还用于：

按照预设的规则，确定所述词语单元在新增主题中出现的次数。

在另一种可能的实现形式中，上述扩展模块22，还用于：

根据所述词语单元在所述M个主题中分别出现的次数的最大值，确定所述词语单元在新增主题中出现的次数；

或者，

根据所述第二关键词在所述第i个第二关键词集中的权重，确定所述词语单元在新增主题中出现的次数。

需要说明的是，本实施例的文本数据分类装置的实施过程和技术原理，参见前述对图2-4所示的文本数据分类方法实施例的解释说明，此处不再赘述。

为了实现上述实施例，本申请还提出一种计算机设备。

图7为本申请一个实施例的计算机设备的结构示意图。图7显示的计算机设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，上述计算机设备200包括：存储器210、处理器220及存储在存储器210上并可在处理器220上运行的计算机程序，所述处理器220执行所述程序时，实现前述实施例所述的文本数据分类方法。

在一种可选的实现形式中，如图8所示，该计算机设备200还可以包括：存储器210及处理器220，连接不同组件(包括存储器210和处理器220)的总线230，存储器210存储有计算机程序，当处理器220执行所述程序时实现本申请实施例所述的文本数据分类方法。

总线230表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备200典型地包括多种计算机设备可读介质。这些介质可以是任何能够被计算机设备200访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器210还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)240和/或高速缓存存储器250。计算机设备200可以进一步包括其他可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统260可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块270的程序/实用工具280，可以存储在例如存储器210中，这样的程序模块270包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291等)通信，还可与一个或者多个使得用户能与该计算机设备200交互的设备通信，和/或与使得该计算机设备200能与一个或多个其他计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且，计算机设备200还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图8所示，网络适配器293通过总线230与计算机设备200的其他模块通信。应当明白，尽管图中未示出，可以结合计算机设备200使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

需要说明的是，本实施例的计算机设备的实施过程和技术原理，参见前述对文本数据分类方法实施例的解释说明，此处不再赘述。

本申请实施例提供的计算机设备，首先利用预设的主题模型，对待处理的文本数据进行主题识别，确定待处理的文本数据对应的目标主题标识及目标主题标识对应的第一关键词集，从而在获取多个预设的可能目标类别对应的多个第二关键词集后，可以根据第一关键词集中的多个第一关键词，分别与多个第二关键词集中的多个第二关键词间的各匹配度，确定待处理的文本数据所属的目标类别。由此，通过利用预设的主题模型，对待处理的文本数据进行识别，再根据关键词间的匹配，确定待处理的文本数据所属的目标类别，提高了对文本数据分类时，分类结果的准确率及可靠性，且由于根据关键词间的匹配，确定待处理的文本数据所属的目标类别，无需大量的人工标注数据，减少了人力成本。

为实现上述实施例，本申请还提出一种计算机可读存储介质。

其中该计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，以实现前述实施例所述的文本数据分类方法。

一种可选实现形式中，本实施例可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本申请实施例提供的计算机可读存储介质，可以设置在能够进行文本数据分类的计算机设备中，在对文本数据进行分类时，通过执行其上存储的计算机程序，能够提高分类结果的准确率及可靠性，且由于根据关键词间的匹配，确定待处理的文本数据所属的目标类别，无需大量的人工标注数据，减少了人力成本。

为实现上述实施例，本申请还提出一种计算机程序，当计算机程序产品中的指令由处理器执行时，执行如前述实施例所述的文本数据分类方法。

本申请实施例提供的计算机程序，通过利用预设的主题模型，对待处理的文本数据进行识别，再根据关键词间的匹配，确定待处理的文本数据所属的目标类别，提高了对文本数据分类时，分类结果的准确率及可靠性，且由于根据关键词间的匹配，确定待处理的文本数据所属的目标类别，无需大量的人工标注数据，减少了人力成本。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种文本数据分类方法，其特征在于，包括：

利用预设的主题模型，对待处理的文本数据进行主题识别，确定所述待处理的文本数据对应的目标主题标识及所述目标主题标识对应的第一关键词集；

获取多个预设的可能目标类别对应的多个第二关键词集；

根据所述第一关键词集中的多个第一关键词，分别与所述多个第二关键词集中的多个第二关键词间的各匹配度，确定所述待处理的文本数据所属的目标类别。

2.如权利要求1所述的方法，其特征在于，所述利用预设的主题模型，对待处理的文本数据进行主题识别之前，还包括：

对训练数据集中的训练文本进行训练，所述训练文本包括多个词语单元，以生成包括M个主题的初始主题模型及所述多个词语单元在所述M个主题中分别出现的次数；

相应的，所述方法还包括：

根据所述多个第二关键词集中的多个第二关键词与所述多个词语单元的匹配度，对所述初始主题模型进行模型扩展，以获取包括N个主题的预设的主题模型，其中N为大于或等于M的整数。

3.如权利要求2所述的方法，其特征在于，所述第二关键词集的数量为K，其中，K为整数；

所述对所述初始主题模型进行模型扩展，包括：

4.如权利要求3所述的方法，其特征在于，所述将所述词语单元对应的主题数量加一之后，还包括：

5.如权利要求4所述的方法，其特征在于，所述按照预设的规则，确定所述词语单元在新增主题中出现的次数，包括：

或者，

6.如权利要求2-5任一所述的方法，其特征在于，所述获取包括N个主题的预设的主题模型之后，还包括：

确定N-M个新增主题分别对应的各第一关键词集。

7.如权利要求1-5任一所述的方法，其特征在于，所述对待处理的文本数据进行主题识别之后，还包括：

获取所述待处理的文本数据中包含的目标词语及所述目标词语在所述待处理文本数据中出现的次数，其中，所述预设的主题模型中的主题分别对应的第一关键词集中未包括所述目标词语；

根据所述目标词语、所述目标词语在所述待处理文本数据中出现的次数及所述待处理的文本数据对应的目标主题标识，对所述预设的主题模型中的用于表征各词语单元在各主题中出现的次数的数据库进行更新。

8.如权利要求1-5任一所述的方法，其特征在于，所述确定所述待处理的文本数据所属的目标类别，包括：

9.一种文本数据分类装置，其特征在于，包括：

识别模块，用于利用预设的主题模型，对待处理的文本数据进行主题识别，确定所述待处理的文本数据对应的目标主题标识及所述目标主题标识对应的第一关键词集；

第一获取模块，用于获取多个预设的可能目标类别对应的多个第二关键词集；

第一确定模块，用于根据所述第一关键词集中的多个第一关键词，分别与所述多个第二关键词集中的多个第二关键词间的各匹配度，确定所述待处理的文本数据所属的目标类别。

10.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如权利要求1-8任一所述的文本数据分类方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现如权利要求1-8任一所述的文本数据分类方法。