CN108304540A

CN108304540A - 一种文本数据识别方法、装置及相关设备

Info

Publication number: CN108304540A
Application number: CN201810094791.7A
Authority: CN
Inventors: 朱龙军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2018-07-20
Anticipated expiration: 2038-01-29
Also published as: CN108304540B

Abstract

本发明实施例公开了一种文本数据识别方法、装置及相关设备，包括：获取待识别文本数据，并将所述文本数据渲染成图片数据；将所述图片数据输入到预先训练的图片分类模型中，确定所述图片数据的分类概率；根据所述图片数据的所述分类概率识别恶意文本。采用本发明实施例，可以提高文本数据识别的范围，提高识别的准确率。

Description

一种文本数据识别方法、装置及相关设备

技术领域

本发明涉及图片处理领域，尤其涉及一种文本数据识别方法、装置及相关设备。

背景技术

目前互联网上恶意信息泛滥，对抗越来越强，违法分子采用多种手段伪装文本，躲避打击，其中一种经常使用的方法是使用“形近字”来伪装文本。

如何识别伪装文本(又称为恶意文本)，目前主要包括如下几种方案：第一，通过大量的编辑审核用户生成内容(User Generated Content，UGC)数据获取到被“形近字”变异后的文本，将变异后的文本加入到关键词表或训练语料，后续经过过滤后进行人工发现。第二，通过语法树分析、常用词搭配等语法分析方法，从海量的UGC数据中过滤出语法不合理的文本，其中，这些不合理的文本为恶意信息的概率更大。第三，对UGC数据账号进行分析，如该账户属于高危账户，则重点审核该账号的UGC数据，判断标准包括与已知恶意账号有密切关联的账号(如同IP、同IMEI、有互动、有财务往来等等)、该账号发送过其他被识别到的恶意信息等等。第四，构造变异文本，寻找“形近字”变异的规律，根据规律穷举可能的变异情况，提前加入到关键词库，或用作文本训练。但是，采用上述方法，能识别的文本数量有限，并且准确率也不高。

发明内容

本发明实施例提供一种文本数据识别方法、装置及相关设备，可以提高能识别的文本范围，提高识别的准确率。

第一方面，本发明实施例提供了一种文本数据识别方法，包括：

获取待识别文本数据，并将所述文本数据渲染成图片数据；

将所述图片数据输入到预先训练的图片分类模型中，确定所述图片数据的分类概率；

根据所述图片数据的所述分类概率识别恶意文本。

其中，所述根据所述图片数据的所述分类概率识别恶意文本包括：

当所述图片数据的所述分类概率大于预设阈值时，确定所述本文数据为恶意文本；

当所述图片数据的所述分类概率不大于所述预设阈值时，确定所述文本数据为非恶意文本。

其中，所述当所述图片数据的所述分类概率大于预设阈值时，确定所述本文数据为恶意文本包括：

当所述文本数据渲染成的多张所述图片数据中任一张所述图片数据的所述分类概率大于所述预设阈值时，确定所述文本数据为所述恶意文本。

其中，所述将所述文本数据渲染成图片数据包括：

获取所述文本数据的多种显示样式信息；

根据所述多种显示样式信息，分别将所述文本数据渲染成多张所述图片数据。

其中，所述将所述文本数据渲染成图片数据包括：

在预设字符宽度的文本区域中绘制所述文本数据；

将绘制到所述文本区域中的所述文本数据转化为所述图片数据。

其中，所述获取待识别文本数据，并将所述文本数据渲染成图片数据之前，还包括：

建立用于图片分类的待训练分类模型；

获取多张待训练图片，并确定所述多张待训练图片中每张待训练图片的分类标签；

将所述每张待训练图片以及与所述每张待训练图片对应的所述分类标签输入到所述待训练分类模型进行训练得到所述图片分类模型。

其中，所述将所述每张待训练图片以及与所述每张待训练图片对应的所述分类标签输入到所述待训练分类模型进行训练得到所述图片分类模型包括：

确定最优的学习率，所述学习率为所述待训练分类模型中各个参数的变化速率；

根据所述最优的学习率，将所述每张待训练图片以及与所述每张待训练图片对应的所述分类标签输入到所述待训练分类模型进行训练得到所述图片分类模型。

第二方面，本发明实施例提供了另一种文本数据识别方法，包括：

获取待识别文本数据，并将所述文本数据渲染成图片数据；

根据所述图片数据的所述分类概率，确定所述文本数据为恶意文本的概率值；

显示所述文本数据及其恶意概率值。

第三方面，本发明实施例提供了一种文本数据识别装置，包括：

数据处理模块，用于获取待识别文本数据，并将所述文本数据渲染成图片数据；

概率确定模块，用于将所述图片数据输入到预先训练的图片分类模型中，确定所述图片数据的分类概率；

类型确定模块，用于根据所述图片数据的所述分类概率识别恶意文本。

其中，所述类型确定模块用于：

其中，所述类型确定模块，还用于当所述文本数据渲染成的多张所述图片数据中任一张所述图片数据的所述分类概率大于所述预设阈值时，确定所述文本数据为所述恶意文本。

其中，所述数据处理模块用于：

获取所述文本数据的多种显示样式信息；

其中，所述数据处理模块用于：

在预设字符宽度的文本区域中绘制所述文本数据；

其中，所述装置还包括：

模型建立模块，用于建立用于图片分类的待训练分类模型；

信息获取模块，用于获取多张待训练图片，并确定所述多张待训练图片中每张待训练图片的分类标签；

图片训练模块，用于将所述每张待训练图片以及与所述每张待训练图片对应的所述分类标签输入到所述待训练分类模型进行训练得到所述图片分类模型。

其中，所述图片训练模块，还用于确定最优的学习率，所述学习率为所述待训练分类模型中各个参数的变化速率；根据所述最优的学习率，将所述每张待训练图片以及与所述每张待训练图片对应的所述分类标签输入到所述待训练分类模型进行训练。

第四方面，本发明实施例提供了一种计算机设备，包括：处理器、存储器和通信总线，其中，通信总线用于实现处理器和存储器之间连接通信，处理器执行存储器中存储的程序用于实现上述第一方面提供的一种文本数据识别方法中的步骤。

在一个可能的设计中，本发明提供的计算机设备可以包含用于执行上述方法中行为相对应的模块。模块可以是软件和/或是硬件。

本发明的又一方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有多条指令，所述指令适于由处理器加载并执行上述各方面所述的方法。

本发明的又一方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

通过实施本发明实施例，首先获取待识别文本数据，并将所述文本数据渲染成图片数据；然后将所述图片数据输入到预先训练的图片分类模型中，确定所述图片数据的分类概率；最后根据所述图片数据的所述分类概率识别恶意文本。通过将文本数据转化为图片数据进而输入到图片分类模型进行识别，从而提高了文本识别的范围以及识别的准确率。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1是本发明实施例提供的一种文本数据识别的场景示意图；

图2是本发明实施例提供的一种恶意文本的示意图；

图3是本发明实施例提供的一种文本数据识别方法的流程示意图；

图4是本发明实施例提供的一种渲染后的图片数据的显示示意图；

图5是本发明实施例提供的一种CNN分类模型的示意图；

图6是本发明实施例提供的另一种文本数据识别方法的流程示意图；

图7是本发明实施例提供的一种文本数据识别系统的示意图；

图8是本发明实施例提供的另一种文本数据识别方法的流程示意图；

图9是本发明实施例提供的一种文本数据识别装置的结构示意图；

图10是本发明实施例提出的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明实施例提供的一种文本数据识别的场景示意图，包括用户设备101和服务器101。其中，用户设备101可以是指提供到用户的语音和/或数据连接的设备，也可以被连接到诸如膝上型计算机或台式计算机等的计算设备，或者其可以是诸如个人数字助理(Personal Digital Assistant，PDA)等的独立设备。服务器101可以是能够提供文本数据识别的(Web)服务器。用户设备101可以用于向服务器发送服务请求，该服务请求包括需要识别的文本数据。服务器101可以用于将文本数据渲染成图片数据；然后将图片数据输入到预先训练的图片分类模型中，确定图片数据的分类概率；最后根据图片数据的分类概率识别恶意文本，并将确定的文本数据的类型发给用户设备101。如图2所示，图2是本发明实施例提供的一种恶意文本的示意图。其中，左边的文字部分是正常文本，右边的文字部分使用了多个“形近字”来伪装文本。基于图1所示的系统，本发明实施例提供了如下识别恶意文本的方案。

请参见图3，图3是本发明实施例提供的一种文本数据识别方法的流程示意图，本发明实施例可以由服务器完成，该方法包括但不限于如下步骤：

S301，获取待识别文本数据，并将所述文本数据渲染成图片数据。其中，文本数据可以为UGC数据，该UGC数据可以包括用户发表的说说、朋友圈、公众文章、微博和论坛数据等等。

具体实现中，可以接收用户设备发送的服务请求，该服务请求中包括所述文本数据，也可以接收用户输入的文本数据。在获取到文本数据之后，可以获取所述文本数据的多种显示样式信息；根据所述多种显示样式信息，分别将所述文本数据渲染成多张所述图片数据，从而模拟不同的平台展示效果。其中，多种显示样式信息包括字体、文字大小和文字粗细等等。例如，宋体、雅黑的显示样式信息用于模拟Windows平台；苹方、丽黑-简的显示样式信息用于模拟macOS平台和iOS平台；Roboto显示样式信息用于模拟Android平台。

可选的，可以在预设字符宽度的文本区域中绘制所述文本数据；将绘制到所述文本区域中的所述文本数据转化为所述图片数据，从而满足图片分类模型的图片识别要求。其中，预设的字符宽可以为18个中文字符。如果文本数据写入到文本区域后文本宽度超过18个中文字符，则强制换行，从另一行开始写入文本数据。在强制换行后，可以保留换行符，从而使得渲染后的图片数据展示立体信息。

例如，文本数据“薇信联系①②③④⑤⑥⑦z4小时丨一闩”在经过强制换行后转化为如图4所示的图片数据。由于在文本区域后写入每个字后的宽度将要达到18个中文字符，因此写入第二字时必须换行，最后从左至右的文本数据“薇信联系①②③④⑤⑥⑦”写入文本区域后，生成从上至下的“薇信联系①②③④⑤⑥⑦”。当从上至下写入的文本数据达到预设长度时，则在另外一列写入文本数据。

S302，将所述图片数据输入到预先训练的图片分类模型中，确定所述图片数据的分类概率。

具体实现中，图片分类模型可以为卷积神经网络(Convolutional NeuralNetworks，CNN)分类模型。如图5所示，图5是本发明实施例提供的一种CNN分类模型的示意图。该CNN分类模型包括输入层、卷积层、池化层、全连接层和输出层。其中，卷积层和池化层的组合可以在隐藏层出现多次，图中出现两次。CNN分类模型中包括已经训练好的模型参数，该模型参数包括各个卷积层的卷积核、各个卷积层的偏置矩阵以及全连接层的权重矩阵和全连接层的偏置向量等等。可以从渲染成的图片数据中获取固定高度和固定宽度的待处理区域，将图片数据对应的待处理区域输入到图片分类模型中。然后，在各个卷积层上，使用各个卷积层的卷积核和偏置矩阵对每个待处理区域进行卷积操作和最大池化操作，得到每个待处理区域在各个卷积层上的特征图像。接着，使用全连接层的权重矩阵和偏置向量对每个特征图像进行处理，得到每个待处理区域的分类概率。

S303，根据所述图片数据的所述分类概率识别恶意文本。

具体实现中，当所述图片数据的所述分类概率大于预设阈值时，确定所述本文数据为恶意文本；当所述图片数据的所述分类概率不大于所述预设阈值时，确定所述文本数据为非恶意文本。其中，预设阈值可以包括但不限于0.5。

可选的，可以将文本数据渲染成多张图片数据，并且将多张图片数据输入到图片分类模型中，分别确定每张图片数据的分类概率。当所述文本数据渲染成的多张所述图片数据中任一张所述图片数据的所述分类概率大于所述预设阈值时，确定所述文本数据为所述恶意文本。

例如，将文本数据“薇信联系①②③④⑤⑥⑦z4小时丨一闩”转为多张图片数据之后，将该多张图片数据输入到CNN分类模型中，如果从CNN分类模型输出的每张图片数据的分类概率分别为0.5、0.9、0.4和0.6，其中，预设阈值为0.8。可知该多张图片数据的中存在一张图片数据的分类概率(0.9)大于0.8，因此确定该图片数据为恶意图片，从而识别该文本数据为恶意文本。

在本发明实施例中，首先获取待识别文本数据，并将所述文本数据渲染成图片数据；然后将所述图片数据输入到预先训练的图片分类模型中，确定所述图片数据的分类概率；最后根据所述图片数据的所述分类概率识别恶意文本。通过将文本数据转化为图片数据进而输入到图片分类模型进行识别，提高了文本识别的范围以及识别的准确率。

请参见图6，图6是本发明实施例提供的另一种文本数据识别方法的流程示意图，本发明实施例可以由服务器完成，该方法包括但不限于如下步骤：

S601，建立用于图片分类的待训练分类模型。

具体实现中，首先建立待训练分类模型的神经网络，神经网络可以包括输入层、卷积层、池化层、全连接层和输出层。其中，卷积层和池化层的组合可以在隐藏层出现多次。然后对待训练分类模型中模型参数进行初始化，配置待训练分类模型中各个模型参数的初始值。各个模型参数的初始值包括各个卷积层的初始卷积核、各个卷积层的初始偏置矩阵以及全连接层的初始权重矩阵和全连接层的初始偏置向量。

S602，获取多张待训练图片，并确定所述多张待训练图片中每张待训练图片的分类标签。

具体实现中，可以首先获取多种文本形式的语料，该语料包括恶意语料和非恶意语料，并将每种语料转化为多张待训练图片，同时记录每张待训练图片的分类标签，该分类标签用于标识每张待训练图片的初始类别(恶意类别和非恶意类别)。

可选的，可以获取语料的多种显示样式信息；根据多种显示样式信息，分别将语料转化成多张待训练图片，从而模拟不同的平台展示效果。其中，多种显示样式信息包括字体、文字大小和文字粗细等等。例如，宋体、雅黑的显示样式信息用于模拟Windows平台；苹方、丽黑-简的显示样式信息用于模拟macOS平台和iOS平台；Roboto显示样式信息用于模拟Android平台。

可选的，可以在预设字符宽度的文本区域中绘制语料；将绘制到文本区域中的语料转化为待训练图片。其中，预设的字符宽可以为18个中文字符。如果语料写入到文本区域后的宽度超过18个中文字符，则强制换行，从另一行开始写入语料。在强制换行后，可以保留换行符，从而使得转化后的待训练图片展示立体信息。

S603，将所述每张待训练图片以及与所述每张待训练图片对应的所述分类标签输入到所述待训练分类模型进行训练得到所述图片分类模型得到所述图片分类模型。

具体实现中，可以首先从每张待训练图片中获取固定高度和固定宽度的待处理区域，该固定高度和固定宽度与待训练分类模型预先设置的能够处理的待训练图片的初始类别匹配，将每张待训练图片对应的待处理区域输入到待训练分类模型中。然后，在各个卷积层上，使用各个卷积层的初始卷积核和初始偏置矩阵对每个待处理区域进行卷积操作和最大池化操作，得到每个待处理区域在各个卷积层上的特征图像。接着，使用全连接层的初始权重矩阵和初始偏置向量对每个特征图像进行处理，得到每个待处理区域的类别概率。然后，根据每张待训练图片的初始类别及类别概率计算类别误差。根据所有待训练图片的类别误差计算类别误差平均值。接下来，使用该类别误差平均值调整待训练分类模型的各个模型参数。然后，使用调整后的模型参数及各个待训练图片，迭代上述各个步骤；最后，将迭代次数达到指定次数时所得到的模型参数作为训练好的图片分类模型的模型参数。

可选的，如果学习率过大，很可能会越过最优值；反而如果学习率过小，优化的效率可能过低，长时间算法无法收敛。因此可以确定最优的学习率，所述学习率为所述待训练分类模型中各个参数的变化速率；根据所述最优的学习率，将所述每张待训练图片以及与所述每张待训练图片对应的所述分类标签输入到所述待训练分类模型进行训练。

可选的，可以使用不同的优化算法(如SGD、Adam、Nadam等)对图片分类模型的模型参数进行优化，以获得更好的准确率。另外，可以训练时使用Dropout随机忽略神经网络中的一部分节点，以避免模型过拟合。

S604，获取待识别文本数据，并将所述文本数据渲染成图片数据。本步骤与上述实施例中的S301相同，本步骤不再赘述。

S605，将所述图片数据输入到预先训练的图片分类模型中，确定所述图片数据的分类概率。本步骤与上述实施例中的S302相同，本步骤不再赘述。

S606，根据所述图片数据的所述分类概率识别恶意文本。本步骤与上述实施例中的S303相同，本步骤不再赘述。

如图7所示，图7是本发明实施例提供的一种文本数据识别系统的示意图。文本数据识别系统包括训练阶段和预测阶段两个部分。在训练阶段，首先将非恶意语料和恶意语料分别转化为待训练图片，该待训练图片包括非恶意图片和恶意图片，然后将非恶意图片和恶意图片分别输入到待训练分类模型中进行训练，得到图片分类模型。在预测阶段，可以将UGC数据输入到已经训练好的图片分类模型中，从而可以确定该UGC数据为恶意文本或非恶意文本。另外，可以将预测阶段已经预测的UGC数据和该UGC数据的类型输入到待训练模型中继续训练，从而实现深度学习(图中虚线所示)。

请参见图8，图8是本发明实施例提供的另一种文本数据识别方法的流程示意图，本发明实施例可以由用户设备完成，该方法包括但不限于如下步骤：

S801，获取待识别文本数据，并将所述文本数据渲染成图片数据。本步骤与上述实施例中的S301相同，本步骤不再赘述。

S802，将所述图片数据输入到预先训练的图片分类模型中，确定所述图片数据的分类概率。本步骤与上述实施例中的S302相同，本步骤不再赘述。

S803，根据所述图片数据的所述分类概率，确定所述文本数据为恶意文本的概率值。

具体实现中，图片数据的分类概率越小，文本数据为恶意文本的概率值越小；图片数据的分类概率越大，文本数据为恶意文本的概率值越大。进一步的，可以将所述图片数据的分类概率确定为所述文本数据为恶意文本的概率值。或者，通过中间变量根据图片数据的分类概率计算所述文本数据为恶意文本的概率值。

S804，显示所述文本数据及其恶意概率值。

具体实现中，可以在用户终端上显示该文本数据，并显示该文本数据对应的恶意概率值，提示用户是否对该文本数据进行拦截。如果用户参考恶意概率值确定对该文本数据进行拦截，用户终端可以接收用户输入的确定指令，对该文本数据进行拦截。如果用户参考该恶意概率值确定该文本数据为非恶意文本，则用户终端可以接收用户输入的请求指令，切换到阅读模式显示该文本数据以便用户查看。

如图9所示，图9是本发明实施例提供的一种文本数据识别装置的结构示意图。该文本数据识别装置包括：

数据处理模块901，用于获取待识别文本数据，并将所述文本数据渲染成图片数据。其中，文本数据可以为UGC数据，该UGC数据可以包括用户发表的说说、朋友圈、公众文章、微博和论坛数据等等。

概率确定模块902，用于将所述图片数据输入到预先训练的图片分类模型中，确定所述图片数据的分类概率。

具体实现中，图片分类模型可以为卷积神经网络(ConvolutionalNeuralNetworks，CNN)分类模型。如图5所示，图5是本发明实施例提供的一种CNN分类模型的示意图。该CNN分类模型包括输入层、卷积层、池化层、全连接层和输出层。其中，卷积层和池化层的组合可以在隐藏层出现多次，图中出现两次。CNN分类模型中包括已经训练好的模型参数，该模型参数包括各个卷积层的卷积核、各个卷积层的偏置矩阵以及全连接层的权重矩阵和全连接层的偏置向量等等。可以从渲染成的图片数据中获取固定高度和固定宽度的待处理区域，将图片数据对应的待处理区域输入到图片分类模型中。然后，在各个卷积层上，使用各个卷积层的卷积核和偏置矩阵对每个待处理区域进行卷积操作和最大池化操作，得到每个待处理区域在各个卷积层上的特征图像。接着，使用全连接层的权重矩阵和偏置向量对每个特征图像进行处理，得到每个待处理区域的分类概率。

类型确定模块903，用于根据所述图片数据的所述分类概率识别恶意文本。

可选的，可以将文本数据渲染成多张图片数据，并且将多张图片数据输入到图片分类模型中，分别计算每张图片数据的分类概率。当所述文本数据渲染成的多张所述图片数据中任一张所述图片数据的所述分类概率大于所述预设阈值时，确定所述文本数据为所述恶意文本。

可选的，本发明实施例中的装置还可以包括模型建立模块904、信息获取模块905以及图片训练模块906，用于执行如下步骤：

模型建立模块904，还用于建立用于图片分类的待训练分类模型。

具体实现中，可以建立待训练分类模型的神经网络，神经网络可以包括输入层、卷积层、池化层、全连接层和输出层。其中，卷积层和池化层的组合可以在隐藏层出现多次。然后对待训练分类模型中模型参数进行初始化，配置待训练分类模型中各个模型参数的初始值。各个模型参数的初始值包括各个卷积层的初始卷积核、各个卷积层的初始偏置矩阵以及全连接层的初始权重矩阵和全连接层的初始偏置向量。

信息获取模块905，还用于获取多张待训练图片，并确定所述多张待训练图片中每张待训练图片的分类标签。

具体实现中，可以首先获取文本形式的语料，该语料包括恶意语料和非恶意语料，并将每种语料转化为多张待训练图片，同时记录每张待训练图片的分类标签，该分类标签用于标识每张待训练图片的初始类别(恶意类别或非恶意类别)。

图片训练模块906，还用于将所述每张待训练图片以及与所述每张待训练图片对应的所述分类标签输入到所述待训练分类模型进行训练得到所述图片分类模型。

可选的，如果学习率过大，很可能会越过最优值；反而如果学习率过小，优化的效率可能过低，长时间算法无法收敛。因此可以确定最优的学习率，所述学习率为所述待训练分类模型中各个参数的变化速率；根据所述最优的学习率，将所述每张待训练图片以及与所述每张待训练图片对应的所述分类标签输入到所述待训练分类模型进行训练得到所述图片分类模型。

请继续参考图10，图10是本发明实施例提出的一种计算机设备的结构示意图。如图所示，该计算机设备可以为上述提及的服务器，也可以为上述提及的用户设备，包括：至少一个处理器1001，至少一个通信接口1002，至少一个存储器1003和至少一个通信总线1004。

其中，处理器1001可以是中央处理器单元，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。通信总线1004可以是外设部件互连标准PCI总线或扩展工业标准结构EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信总线1004用于实现这些组件之间的连接通信。其中，本发明实施例中设备的通信接口1002用于与其他节点设备进行信令或数据的通信。存储器1003可以包括易失性存储器，例如非挥发性动态随机存取内存(Nonvolatile Random Access Memory，NVRAM)、相变化随机存取内存(Phase Change RAM，PRAM)、磁阻式随机存取内存(Magetoresistive RAM，MRAM)等，还可以包括非易失性存储器，例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、闪存器件，例如反或闪存(NOR flash memory)或是反及闪存(NAND flash memory)、半导体器件，例如固态硬盘(Solid State Disk，SSD)等。存储器1003可选的还可以是至少一个位于远离前述处理器1001的存储装置。存储器1003中存储一组程序代码，且处理器1001执行存储器1003中的程序。

获取待识别文本数据，并将所述文本数据渲染成图片数据；

根据所述图片数据的所述分类概率识别恶意文本。

可选的，处理器1001还用于执行如下操作步骤：

获取所述文本数据的多种显示样式信息；

可选的，处理器1001还用于执行如下操作步骤：

在预设字符宽度的文本区域中绘制所述文本数据；

可选的，处理器1001还用于执行如下操作步骤：

建立用于图片分类的待训练分类模型；

可选的，处理器1001还用于执行如下操作步骤：

根据所述最优的学习率，将所述每张待训练图片以及与所述每张待训练图片对应的所述分类标签输入到所述待训练分类模型进行训练。

可选的，处理器1001还用于执行如下操作步骤：

获取待识别文本数据，并将所述文本数据渲染成图片数据；

显示所述文本数据及其恶意概率值。

进一步的，处理器还可以与存储器和通信接口相配合，执行上述发明实施例中计算机设备的操作。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid StateDisk(SSD))等。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本数据识别方法，其特征在于，所述方法包括：

获取待识别文本数据，并将所述文本数据渲染成图片数据；

根据所述图片数据的所述分类概率识别恶意文本。

2.如权利要求1所述的方法，其特征在于，所述根据所述图片数据的所述分类概率识别恶意文本包括：

当所述图片数据的所述分类概率大于预设阈值时，确定所述本文数据为所述恶意文本；

3.如权利要求2所述的方法，其特征在于，所述当所述图片数据的所述分类概率大于预设阈值时确定所述本文数据为所述恶意文本包括：

4.如权利要求1所述的方法，其特征在于，所述将所述文本数据渲染成图片数据包括：

获取所述文本数据的多种显示样式信息；

5.如权利要求1所述的方法，其特征在于，所述将所述文本数据渲染成图片数据包括：

在预设字符宽度的文本区域中绘制所述文本数据；

6.如权利要求1-5任一项所述的方法，其特征在于，所述获取待识别文本数据，并将所述文本数据渲染成图片数据之前，还包括：

建立用于图片分类的待训练分类模型；

7.如权利要求6所述的方法，其特征在于，所述将所述每张待训练图片以及与所述每张待训练图片对应的所述分类标签输入到所述待训练分类模型进行训练得到所述图片分类模型包括：

8.一种文本数据识别方法，其特征在于，所述方法包括：

获取待识别文本数据，并将所述文本数据渲染成图片数据；

显示所述文本数据及其恶意概率值。

9.一种文本数据识别装置，其特征在于，所述装置包括：

10.如权利要求9所述的装置，其特征在于，所述类型确定模块用于：

11.如权利要求10所述的装置，其特征在于，

所述类型确定模块，还用于当所述文本数据渲染成的多张所述图片数据中任一张所述图片数据的所述分类概率大于所述预设阈值时，确定所述文本数据为所述恶意文本。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-8任一项所述的方法。

13.一种计算机设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时实现根据权利要求1至8中任一项所述的方法。