CN109947947A

CN109947947A - 一种文本分类方法、装置及计算机可读存储介质

Info

Publication number: CN109947947A
Application number: CN201910250309.9A
Authority: CN
Inventors: 崔燕红
Original assignee: Beijing Teddy Bear Mobile Technology Co Ltd
Current assignee: Beijing Teddy Bear Mobile Technology Co ltd; Beijing Teddy Future Technology Co ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-06-28
Anticipated expiration: 2039-03-29
Also published as: CN109947947B

Abstract

本发明公开了一种文本分类方法、装置及计算机可读存储介质，首先获取测试文本；之后提取所述测试文本中的关键词；再通过语义配对算法根据所提取的关键词进行配对特征提取，得到所述测试文本的语义配对特征；最后根据所述测试文本的语义配对特征确定所述测试文本的文本类别。如此，本发明通过提取出具有skip‑gram特性的带有语义特征的搭配，可以更好的支持文本分类，从而大大提高文本分类的可靠性。而且，由于Skip‑gram算法是有语义的，故通过对不同分类的支持程度，可以转化成文本模型，这将在基于语义的推荐模型上起到很大的作用。

Description

一种文本分类方法、装置及计算机可读存储介质

技术领域

本发明涉及文本自动化处理技术领域，尤其涉及一种文本分类方法、装置及计算机可读存储介质。

背景技术

随着文本自动化处理技术的不断演进，对文本分类的精确性要求越来越高。相关技术中，通常采用包括几种可能的分类方式来确定文本类别：方式1，利用深度神经网络(如CNN或RNN)来自动发现文本特征，并进一步利用soft-max方法进行文本分类；方式2，利用tf-idf或者chi-squares关键词提取得到文本特征，并进行文本分类；方式3，利用n-gram提取，得到文本特征，并进行文本分类。

然而，上述所提及的几种分类方式均存在明显的缺陷：1)CNN/RNN可以自动提取skip-gram pairs(搭配)作为文本分类特征，但是提取的特征搭配往往是人类无法理解的字符级配对，无法用语义解释；2)传统的关键词文本分类特征提取方法，没有考虑到词组间的配对搭配特征对文本分类的重要性；3)利用n-gram文本分类特征提取方法，忽略了skip-gram的配对特征对文本分类的重要性。

发明内容

本发明实施例为了解决上述提及的文本分类方式所存在的种种问题，创造性的提供一种文本分类方法、装置及计算机可读存储介质。

根据本发明实施例的第一方面，提供一种文本分类方法，该方法包括：获取测试文本；提取所述测试文本中的关键词；通过语义配对算法根据所提取的关键词进行配对特征提取，得到所述测试文本的语义配对特征；根据所述测试文本的语义配对特征确定所述测试文本的文本类别。

根据本发明一实施方式，所述提取所述测试文本中的关键词，包括：对所述测试文本进行分词处理，得到分词处理结果；从所述分词处理结果中进行关键词提取，得到所述测试文本的关键词。

根据本发明一实施方式，所述语义配对算法为Skip-gram算法。

根据本发明一实施方式，所述通过语义配对算法根据所提取的关键词进行配对特征提取，得到所述测试文本的语义配对特征，包括：利用n-gram算法根据所提取的关键词进行配对特征提取，得到所述测试文本的原始配对特征；通过Skip-gram算法结合所得到的原始配对特征，提取所述测试文本的语义配对特征。

根据本发明一实施方式，根据所述测试文本的语义配对特征确定所述测试文本的文本类别，包括：从所述测试文本的语义配对特征中提取关键语义配对特征；根据所述关键语义配对特征确定所述测试文本的文本类别。

根据本发明实施例的第二方面，提供一种文本分类装置，所述装置包括：获取模块，用于获取测试文本；关键词提取模块，用于提取所述测试文本中的关键词；语义配对特征模块，用于通过语义配对算法根据所提取的关键词进行配对特征提取，得到所述测试文本的语义配对特征；分类模块，用于根据所述测试文本的语义配对特征确定所述测试文本的文本类别。

根据本发明一实施方式，所述关键词提取模块包括：分词处理单元，用于对所述测试文本进行分词处理，得到分词处理结果；关键词提取单元，用于从所述分词处理结果中进行关键词提取，得到所述测试文本的关键词。

根据本发明一实施方式，所述语义配对特征模块包括：原始配对特征提取单元，用于利用n-gram算法根据所提取的关键词进行配对特征提取，得到所述测试文本的原始配对特征；语义配对特征提取单元，用于通过Skip-gram算法结合所得到的原始配对特征，提取所述测试文本的语义配对特征。

根据本发明一实施方式，所述分类模块包括：关键语义配对特征提取单元，用于从所述测试文本的语义配对特征中提取关键语义配对特征；分类单元，用于根据所述关键语义配对特征确定所述测试文本的文本类别。

根据本发明实施例的第三方面，提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述任一文本分类方法。

本发明实施例文本分类方法、装置及计算机可读存储介质，首先获取测试文本；之后提取所述测试文本中的关键词；再通过语义配对算法根据所提取的关键词进行配对特征提取，得到所述测试文本的语义配对特征；最后根据所述测试文本的语义配对特征确定所述测试文本的文本类别。如此，本发明通过提取出具有skip-gram特性的带有语义特征的搭配，可以更好的支持文本分类，从而大大提高文本分类的可靠性。而且，由于Skip-gram算法是有语义的，故通过对不同分类的支持程度，可以转化成文本模型，这将在基于语义的推荐模型上起到很大的作用。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本发明实施例文本分类方法的实现流程示意图；

图2示出了本发明实施例文本分类装置的组成结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为使本发明更加透彻和完整，并能够将本发明的范围完整地传达给本领域的技术人员。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

图1示出了本发明实施例文本分类方法的实现流程示意图。

参考图1，本发明实施例文本分类方法包括：操作101，获取测试文本；操作102，提取测试文本中的关键词；操作103，通过语义配对算法根据所提取的关键词进行配对特征提取，得到测试文本的语义配对特征；操作104，根据测试文本的语义配对特征确定测试文本的文本类别。

在操作101，可以获取任意大小，任意文本内容的测试文本。

在操作102，提取测试文本中的关键词具体包括：对所述测试文本进行分词处理，得到分词处理结果；从分词处理结果中进行关键词提取，得到测试文本的关键词。其中，通常可以利用tf-idf或者Chi-square的方法来进行关键词提取。以tf-idf为例，如果某个词或短语在测试文本中出现的频率TF高，并且在其他文本中很少出现，则认为该词或者短语具有很好的类别区分能力，适合用来分类。

在操作103，本发明所采用的语义配对算法为Skip-gram算法。具体地，通过语义配对算法根据所提取的关键词进行配对特征提取，得到所述测试文本的语义配对特征，包括：先利用n-gram算法根据所提取的关键词进行配对特征提取，得到所述测试文本的原始配对特征；之后通过Skip-gram算法结合所得到的原始配对特征，提取所述测试文本的语义配对特征。

这里，n-gram算法主要采用固定长度N的滑动窗口进行切分，目前常用的n-gram模型是二元的Bi-gram和三元的Tri-gram模型，对两种模型的切分方法进行比较，比如“北京欢迎你的到来”，Bi-gram切分就是“北京欢迎欢迎你的你的到来”，Tri-gram切分就是“北京欢迎你的欢迎你的到来”。Skip-gram算法/模型，就是给定一个关键词后，预测在该关键词左右两边可能会出现什么词。当然这个预测是有范围的，也是采用固定窗口来表示。这样，通过操作103可以提取出具有Skip-gram特性的带有语义特征的搭配，同时具有Skip-gram特性，也有语义的特征。

在操作104，根据测试文本的语义配对特征确定测试文本的文本类别具体包括：从测试文本的语义配对特征中提取关键语义配对特征；根据关键语义配对特征确定测试文本的文本类别。在实际操作中，通常可以再次利用tf-idf或者Chi-square的方法来提取关键语义配对特征，得到具有skip-gram特性的带有关键语义特征的搭配，可以更好的支持文本分类，从而大大提高文本分类的可靠性。

本发明实施例文本分类方法，首先获取测试文本；之后提取所述测试文本中的关键词；再通过语义配对算法根据所提取的关键词进行配对特征提取，得到所述测试文本的语义配对特征；最后根据所述测试文本的语义配对特征确定所述测试文本的文本类别。如此，本发明通过提取出具有skip-gram特性的带有语义特征的搭配，可以更好的支持文本分类，从而大大提高文本分类的可靠性。而且，由于Skip-gram算法是有语义的，故通过对不同分类的支持程度，可以转化成文本模型，这将在基于语义的推荐模型上起到很大的作用。

同样，基于如上文所述文本分类方法，本发明实施例又提供一种计算机可读存储介质，所述计算机可读存储介质存储有程序，当所述程序被处理器执行时，使得所述处理器至少执行如下所述的操作步骤：操作101，获取测试文本；操作102，提取测试文本中的关键词；操作103，通过语义配对算法根据所提取的关键词进行配对特征提取，得到测试文本的语义配对特征；操作104，根据测试文本的语义配对特征确定测试文本的文本类别。

进一步地，基于上文所述文本分类方法，本发明实施例还提供一种文本分类装置，如图2所示，该装置20包括：获取模块201，用于获取测试文本；关键词提取模块202，用于提取测试文本中的关键词；语义配对特征模块203，用于通过语义配对算法根据所提取的关键词进行配对特征提取，得到测试文本的语义配对特征；分类模块204，用于根据测试文本的语义配对特征确定测试文本的文本类别。

根据本发明一实施方式，关键词提取模块202包括：分词处理单元，用于对测试文本进行分词处理，得到分词处理结果；关键词提取单元，用于从所述分词处理结果中进行关键词提取，得到测试文本的关键词。

根据本发明一实施方式，所述语义配对算法为Skip-gram算法。

根据本发明一实施方式，语义配对特征模块203包括：原始配对特征提取单元，用于利用n-gram算法根据所提取的关键词进行配对特征提取，得到测试文本的原始配对特征；语义配对特征提取单元，用于通过Skip-gram算法结合所得到的原始配对特征，提取测试文本的语义配对特征。

根据本发明一实施方式，分类模块204包括：关键语义配对特征提取单元，用于从测试文本的语义配对特征中提取关键语义配对特征；分类单元，用于根据关键语义配对特征确定测试文本的文本类别。

这里需要指出的是：以上对文本分类装置实施例的描述，与前述图1所示的方法实施例的描述是类似的，具有同前述图1所示的方法实施例相似的有益效果，因此不做赘述。对于本发明对文本分类装置实施例中未披露的技术细节，请参照本发明前述图1所示的方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以利用硬件的形式实现，也可以利用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

获取测试文本；

提取所述测试文本中的关键词；

通过语义配对算法根据所提取的关键词进行配对特征提取，得到所述测试文本的语义配对特征；

根据所述测试文本的语义配对特征确定所述测试文本的文本类别。

2.根据权利要求1所述的方法，其特征在于，所述提取所述测试文本中的关键词，包括：

对所述测试文本进行分词处理，得到分词处理结果；

从所述分词处理结果中进行关键词提取，得到所述测试文本的关键词。

3.根据权利要求1所述的方法，其特征在于，所述语义配对算法为Skip-gram算法。

4.根据权利要求1或3所述的方法，其特征在于，所述通过语义配对算法根据所提取的关键词进行配对特征提取，得到所述测试文本的语义配对特征，包括：

利用n-gram算法根据所提取的关键词进行配对特征提取，得到所述测试文本的原始配对特征；

通过Skip-gram算法结合所得到的原始配对特征，提取所述测试文本的语义配对特征。

5.根据权利要求1所述的方法，其特征在于，根据所述测试文本的语义配对特征确定所述测试文本的文本类别，包括：

从所述测试文本的语义配对特征中提取关键语义配对特征；

根据所述关键语义配对特征确定所述测试文本的文本类别。

6.一种文本分类装置，其特征在于，所述装置包括：

获取模块，用于获取测试文本；

关键词提取模块，用于提取所述测试文本中的关键词；

语义配对特征模块，用于通过语义配对算法根据所提取的关键词进行配对特征提取，得到所述测试文本的语义配对特征；

分类模块，用于根据所述测试文本的语义配对特征确定所述测试文本的文本类别。

7.根据权利要求6所述的装置，其特征在于，所述关键词提取模块包括：

分词处理单元，用于对所述测试文本进行分词处理，得到分词处理结果；

关键词提取单元，用于从所述分词处理结果中进行关键词提取，得到所述测试文本的关键词。

8.根据权利要求6所述的装置，其特征在于，所述语义配对特征模块包括：

原始配对特征提取单元，用于利用n-gram算法根据所提取的关键词进行配对特征提取，得到所述测试文本的原始配对特征；

语义配对特征提取单元，用于通过Skip-gram算法结合所得到的原始配对特征，提取所述测试文本的语义配对特征。

9.根据权利要求6所述的装置，其特征在于，所述分类模块包括：

关键语义配对特征提取单元，用于从所述测试文本的语义配对特征中提取关键语义配对特征；

分类单元，用于根据所述关键语义配对特征确定所述测试文本的文本类别。

10.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-5任一项所述文本分类方法。