CN108717519A

CN108717519A - 一种文本分类方法及装置

Info

Publication number: CN108717519A
Application number: CN201810298048.3A
Authority: CN
Inventors: 殷子墨; 李健; 张连毅; 武卫东
Original assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Current assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP; Beijing Sinovoice Technology Co Ltd
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2018-10-30
Anticipated expiration: 2038-04-03
Also published as: CN108717519B

Abstract

本发明实施例提供了一种文本分类方法及装置。在本发明实施例中，确定多个文本类别；对于每一个文本类别，获取分别属于该文本类别的多个样本文本；确定预设神经网络模型；使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练，得到目标文本分类模型；获取待分类文本；使用目标文本分类模型确定待分类文本在多个文本类别中所属的目标文本类别。通过本发明实施例的方法，可以确定待分类文本所述的文本类别。之后可以目标文本类别分类存储待分类文本，方便用户之后查询和使用和同领域归类。

Description

一种文本分类方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种文本分类方法及装置。

背景技术

近年来，随着图像识别技术的不断成熟，名片识别、证件识别、银行卡识别等技术纷纷投入使用。这些技术可以从照片或图片中提取文本，但是文本所属的类别需要进行细分，才利于存储和使用。如名片中常出现的姓名、地址、职位、公司名称等。对文本分类后再分类存储这些文本，可以方便用户之后查询、使用和同领域归类。

然而，如何对本文分类是一个亟待解决的技术问题。

发明内容

为了解决上述问题，本发明公开了一种文本分类方法及装置。

第一方面，本发明实施例示出了一种文本分类方法，所述方法包括：

确定多个文本类别；

对于每一个文本类别，获取分别属于所述文本类别的多个样本文本；

确定预设神经网络模型；

使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练，得到目标文本分类模型；

获取待分类文本；

使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。

在一个可选的实现方式中，所述获取待分类文本，包括：

获取目标图像，所述目标图像中包括待分类文本；对所述目标图像进行图像识别，得到所述目标图像中包括的文本，并作为所述待分类文本；

或，

获取用户输入的文本，并作为所述待分类文本；

或，

获取目标语音信号；对所述目标语音信号进行语音识别，得到所述目标语音信号对应的文本，并作为待分类文本。

在一个可选的实现方式中，所述预设神经网络模型包括长短期记忆网络LSTM和门控循环单元GRU。

在一个可选的实现方式中，所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别，包括：

获取所述待分类文本中的每一个字符对应的向量；

将每一个字符对应的向量按照字符在所述待分类文本中的先后顺序组成向量特征；

利用所述向量特征和预设权重确定所述待分类文本属于每一个文本类别的概率；

将最大的概率的文本类别确定为所述待分类文本所属的目标文本类别。

在一个可选的实现方式中，所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别之后，还包括：

获取用户对使用所述目标文本分类模型确定所述待分类文本所属的目标文本类别的评价信息；

根据所述评价信息优化所述目标文本分类模型。

第二方面，本发明实施例示出了一种文本分类装置，所述装置包括：

第一确定模块，用于确定多个文本类别；

第一获取模块，用于对于每一个文本类别，获取分别属于所述文本类别的多个样本文本；

第二确定模块，用于确定预设神经网络模型；

训练模块，用于使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练，得到目标文本分类模型；

第二获取模块，用于获取待分类文本；

第三确定模块，用于使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。

在一个可选的实现方式中，所述第二获取模块包括：

第一获取单元，用于获取目标图像，所述目标图像中包括待分类文本；第一识别单元，用于对所述目标图像进行图像识别，得到所述目标图像中包括的文本，并作为所述待分类文本；

或，

第二获取单元，用于获取用户输入的文本，并作为所述待分类文本；

或，

第三获取单元，用于获取目标语音信号；第二识别单元，用于对所述目标语音信号进行语音识别，得到所述目标语音信号对应的文本，并作为待分类文本。

在一个可选的实现方式中，所述第三确定模块包括：

第四获取单元，用于获取所述待分类文本中的每一个字符对应的向量；

组合单元，用于将每一个字符对应的向量按照字符在所述待分类文本中的先后顺序组成向量特征；

第一确定单元，用于利用所述向量特征和预设权重确定所述待分类文本属于每一个文本类别的概率；

第二确定单元，用于将最大的概率的文本类别确定为所述待分类文本所属的目标文本类别。

在一个可选的实现方式中，所述装置还包括：

第三获取模块，用于获取用户对使用所述目标文本分类模型确定所述待分类文本所属的目标文本类别的评价信息；

优化模块，用于根据所述评价信息优化所述目标文本分类模型。

第三方面，本发明实施例示出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的文本分类方法的步骤。

第四方面，本发明实施例示出了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的文本分类方法的步骤。

与现有技术相比，本发明实施例包括以下优点：

在本发明实施例中，确定多个文本类别；对于每一个文本类别，获取分别属于该文本类别的多个样本文本；确定预设神经网络模型；使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练，得到目标文本分类模型；获取待分类文本；使用目标文本分类模型确定待分类文本在多个文本类别中所属的目标文本类别。通过本发明实施例的方法，可以确定待分类文本所述的文本类别。之后可以目标文本类别分类存储待分类文本，方便用户之后查询和使用和同领域归类。

附图说明

图1是本发明的一种文本分类方法实施例的步骤流程图；

图2是本发明的一种文本分类装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种文本分类方法实施例的步骤流程图，具体可以包括如下步骤：

在步骤S101中，确定多个文本类别；

在本发明实施例中，需要事先确定多个文本类别，例如有姓名、职位、地址、公司名称、性别、网址、邮箱地址以及电话等等。

其中，技术人员事先可以统计多个文本类别，然后将多个文本类别输入给设备，设备获取技术人员输入的多个文本类别。

在步骤S102中，对于每一个文本类别，获取分别属于该文本类别的多个样本文本；

在本发明实施例中，为提高训练出的目标文本分类模型的精度，获取属于每一个文本类别的样本文本的数量巨大，例如，可以为一万个，也可以大于一万。

在本发明实施例中，可以使用爬虫工具爬取预设语料库中的文本，并作为样本文本，然后人工标注每一个样本文本的文本类别。预设语料库中的文本可以为网络上的用户评论或留言等文本。

当然，也可以通过其他方式来获取分别属于每一个文本类别的多个样本文本。例如，技术人员为每一个文本类别人工选取多个样本文本，然后分别输入给设备，设备获取技术人员输入的分别属于每一个文本类别的多个样本文本。

爬虫工具可以是一种自动获取文本的程序，也可以是搜索引擎的重要组成部分。搜索引擎使用爬虫工具寻找文本，网络上的HTML(Hyper Text Mark-up Language，超文本标记语言)文档使用超链接连接了起来，就像织成了一张网，爬虫工具顺着这张网爬行，每到一个网页就将这个网页抓下来，再将该网页中的将文本抽取出来，同时抽取超链接，作为进一步爬行的线索。该爬虫工具可以为开源的爬虫工具、非开源的爬虫工具、单独开发或基于开源或非开源的爬虫工具进行二次开发后得到的爬虫工具。

在步骤S103中，确定预设神经网络模型；

预设神经网络模型包括(Long Short-Term Memory，长短期记忆网络)LSTM和GRU(Gated Recurrent Unit，门控循环单元)。

当然，在本发明实施例中也可以使用其他神经网络，例如RNN(Recurrent neuralNetwork，循环神经网络)和NTM(Neural Turing Machines，神经网络图灵机)等。

在步骤S104中，使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练，得到目标文本分类模型；

在本发明另一个实施例中，在步骤S103中可以确定出多个预设神经网络模型，然后在步骤S104中使用分别属于每一个文本类别的多个样本文本对每一个预设神经网络模型分别训练，得到多个文本分类模型，然后获取多个测试文本，使用测试文本对多个文本分类模型的分类精准度分别测试，将分类精准度最高的文本分类模型座位目标文本分类模型。

在步骤S105中，获取待分类文本；

在一个实现方式中，可以通过图像来获取待分类文本，图像可以为名片的图像，证件的图像以及银行卡的图像等等。具体地，可以获取目标图像，目标图像中包括待分类文本，然后对目标图像进行图像识别，得到目标图像中包括的文本，并作为待分类文本。

在另一个实现方式中，可以直接获取用户输入的文本，并作为待分类文本。

在又一个实现方式中，可以获取目标语音信号，对目标语音信号进行语音识别，得到目标语音信号对应的文本，并作为待分类文本。

在步骤S106中，使用目标文本分类模型确定待分类文本在多个文本类别中所属的目标文本类别。

其中，可以获取待分类文本中的每一个字符对应的向量，其中，可以将待分类文本拆分为多个字符，在已存储的字符与向量之间的对应关系中，分别查找与每一个字符相对应的向量，然后将每一个字符对应的向量按照字符在待分类文本中的先后顺序组成向量特征；利用向量特征和预设权重确定待分类文本属于每一个文本类别的概率；将最大的概率的文本类别确定为待分类文本所属的目标文本类别。

进一步地，为了对目标文本分类模型优化，在本步骤之后，用户还可以确定，使用目标文本分类模型确定待分类文本所属的目标文本类别是否准确，并在设备中输入对使用目标文本分类模型确定待分类文本所属的目标文本类别的评价信息，相应地，设备还可以获取用户对使用目标文本分类模型确定待分类文本所属的目标文本类别的评价信息；根据该评价信息优化目标文本分类模型。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，示出了本发明一种文本分类装置实施例的结构框图，该装置具体可以包括如下模块：

第一确定模块11，用于确定多个文本类别；

第一获取模块12，用于对于每一个文本类别，获取分别属于所述文本类别的多个样本文本；

第二确定模块13，用于确定预设神经网络模型；

训练模块14，用于使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练，得到目标文本分类模型；

第二获取模块15，用于获取待分类文本；

第三确定模块16，用于使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。

在一个可选的实现方式中，所述第二获取模块15包括：

或，

在一个可选的实现方式中，所述第三确定模块16包括：

在一个可选的实现方式中，所述装置还包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还示出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如图1所述的文本分类方法的步骤。

本发明实施例还示出了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如图1所述的文本分类方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种文本分类方法及装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

确定多个文本类别；

确定预设神经网络模型；

获取待分类文本；

2.根据权利要求1所述的方法，其特征在于，所述获取待分类文本，包括：

或，

获取用户输入的文本，并作为所述待分类文本；

或，

3.根据权利要求1所述的方法，其特征在于，所述预设神经网络模型包括长短期记忆网络LSTM和门控循环单元GRU。

4.根据权利要求1所述的方法，其特征在于，所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别，包括：

获取所述待分类文本中的每一个字符对应的向量；

5.根据权利要求1所述的方法，其特征在于，所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别之后，还包括：

根据所述评价信息优化所述目标文本分类模型。

6.一种文本分类装置，其特征在于，所述装置包括：

第一确定模块，用于确定多个文本类别；

第二确定模块，用于确定预设神经网络模型；

第二获取模块，用于获取待分类文本；

7.根据权利要求6所述的装置，其特征在于，所述第二获取模块，包括：

或，

8.根据权利要求6所述的装置，其特征在于，所述预设神经网络模型包括长短期记忆网络LSTM和门控循环单元GRU。

9.根据权利要求6所述的装置，其特征在于，所述第三确定模块包括：

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：