CN109462582A

CN109462582A - 文本识别方法、装置、服务器及存储介质

Info

Publication number: CN109462582A
Application number: CN201811275804.7A
Authority: CN
Inventors: 艾敏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-03-12
Anticipated expiration: 2038-10-30
Also published as: CN109462582B

Abstract

本发明公开了一种文本识别方法、装置、服务器及存储介质，属于互联网技术领域。所述方法包括：当接收到第一用户向第二用户发送的网址时，获取网址的网页文本数据作为待检测的第一文本数据；确定第一文本数据的来源类型为网页来源，根据预设的来源类型与文本识别模型的对应关系，获取网页来源对应的文本识别模型，文本识别模型用于基于文本数据输出文本类型；基于网页来源对应的文本识别模型，对第一文本数据进行识别，确定第一文本数据的文本类型；当第一文本数据的文本类型为恶意资源展示类型时，将网址标记为恶意网址。采用本发明，可以提高识别恶意文本数据的准确性。

Description

文本识别方法、装置、服务器及存储介质

技术领域

本发明涉及互联网技术领域，特别涉及一种文本识别方法、装置、服务器及存储介质。

背景技术

网络购物是时下最为流行的购物方式，买家在网购时，通常会通过查看商品的成交记录、用户评价以及店铺信誉来判断是否购买。根据网购平台的规则，买家在网购平台搜索商品时，店铺信誉越高、商品成交量越多的商家的商品链接越优先得到展示，从而进一步促进销售。

于是，不少商家为了让自己的店铺信誉更高、用户评价更好，会花钱雇佣刷客，通过虚假交易来增加成交量和用户好评，催生了所谓的刷单产业链。刷单时，刷客需要花费一定的本金进行商品交易，完成刷单任务时，会收到雇佣者返还的本金以及支付的佣金。

由于刷单不需要耗费太多的时间和精力就可以得到一笔可观的收入，不少人愿意参与刷单，成为刷客的一员。一些诈骗分子看中了这些人的贪小便宜的心理，打着招聘刷客的幌子对防范意识薄弱的人进行诈骗。诈骗分子会通过社交工具、搜索引擎、招聘网站等平台发布低门槛高收入的极具诱惑力的刷单兼职广告信息。当刷客上钩时，诈骗分子开始下发一些小额的刷单任务，并及时支付本金和佣金，在取得刷客的信任后，逐步加大刷单的金额和数量。然后，诈骗分子会利用各种理由(如网络超时、卡单等)要求刷客反复刷单，以未完成刷单任务为由拒绝支付，诈骗刷客的钱财。

因此，识别刷单兼职广告信息可以帮助维护市场的公平性，以及提示用户提高防范意识。刷单兼职广告信息一般在网页中展示，当服务器接收到获取网页的请求时，可以获取网页文本，以及网址的whois(所有者)信息、icp(internet content provider，网络内容服务商)信息、ip(internet protocol，网络协议)信息等属性。然后，服务器可以基于获取到的数据和识别规则，判断该网页是否包含有刷单兼职广告信息。例如，如果网页中包含有刷单兼职广告的关键词，或网址属性存在于已存储的刷单网址属性中，则可以将该网页标记为刷单网页。

但是，刷单网页中刷单兼职广告的内容经常发生变化，刷单网页的网址也经常变换，使得基于规则对网页进行识别时，不能得到与实际相符的结果，也即识别刷单网页的准确性较低。

发明内容

本发明实施例提供了一种文本识别方法、装置、服务器及存储介质，可以提高识别恶意文本数据的准确性。所述技术方案如下：

一方面，提供了一种文本识别方法，该方法应用于服务器，该方法包括：

当接收到第一用户向第二用户发送的网址时，获取所述网址的网页文本数据作为待检测的第一文本数据；

确定所述第一文本数据的来源类型为网页来源，根据预设的来源类型与文本识别模型的对应关系，获取网页来源对应的文本识别模型，所述文本识别模型用于基于文本数据输出文本类型；

基于所述网页来源对应的文本识别模型，对所述第一文本数据进行识别，确定所述第一文本数据的文本类型；

当所述第一文本数据的文本类型为恶意资源展示类型时，将所述网址标记为恶意网址。

一方面，提供了一种文本识别装置，该装置应用于服务器，该装置包括：

获取模块，用于当接收到第一用户向第二用户发送的网址时，获取所述网址的网页文本数据作为待检测的第一文本数据，所述第一用户和所述第二用户基于所述服务器进行通讯；

确定模块，用于确定所述第一文本数据的来源类型为网页来源，根据预设的来源类型与文本识别模型的对应关系，获取网页来源对应的文本识别模型，所述文本识别模型用于基于文本数据输出文本类型；

识别模块，用于基于所述网页来源对应的文本识别模型，对所述第一文本数据进行识别，确定所述第一文本数据的文本类型；

标记模块，用于当所述第一文本数据的文本类型为恶意资源展示类型时，将所述网址标记为恶意网址。

一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述文本识别方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述文本识别方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，服务器在用户通讯的过程中获取待检测的网址，并获取该网址的网页文本数据，通过文本识别模型确定该网页文本数据是否为恶意资源展示类型，不需要基于人工设置的规则进行检测，可以提高识别恶意文本数据的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境图；

图2是本发明实施例提供的一种文本识别方法流程图；

图3是本发明实施例提供的一种文本识别方法流程图；

图4是本发明实施例提供的一种卷积层计算示意图；

图5是本发明实施例提供的一种最大池化层计算示意图；

图6是本发明实施例提供的一种全连接层计算示意图；

图7是本发明实施例提供的一种第一提示消息示意图；

图8是本发明实施例提供的一种第二提示消息示意图；

图9是本发明实施例提供的一种第三提示消息示意图；

图10是本发明实施例提供的一种第四提示消息示意图；

图11是本发明实施例提供的一种文本识别方法流程图；

图12是本发明实施例提供的一种文本识别方法流程图；

图13是本发明实施例提供的一种文本识别装置示意图；

图14是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种文本识别方法，图1是本发明实施例提供的一种实施环境图。该实施环境可以包括多个终端101、用于为该多个终端101提供服务的服务器102。多个终端101通过无线或者有线网络和服务器102连接，该多个终端101可以为能够访问服务器102的计算机设备或智能终端等。终端101中可以安装有通讯应用程序、浏览器、保护程序等应用程序，服务器102可以为上述应用程序提供文本识别的安全检测服务。终端101还可以作为需求方，通过上述应用程序向服务器102请求对网页或短信的文本数据进行检测。

服务器102中还可以具有至少一种数据库，用以存储文本识别模型、恶意文本数据、恶意用户等等。服务器102可以是单个服务器或服务器组，当服务器102是服务器组时，每个服务器之间可以共享已识别的恶意文本数据、恶意网站、恶意用户等。

本发明实施例提供了一种文本识别方法，该方法可以由服务器实现。如图2所示的文本识别方法流程图，该方法的处理流程可以包括如下的步骤：

201、当接收到第一用户向第二用户发送的网址时，服务器获取网址的网页文本数据作为待检测的第一文本数据。

202、服务器确定第一文本数据的来源类型为网页来源，根据预设的来源类型与文本识别模型的对应关系，获取网页来源对应的文本识别模型。

其中，文本识别模型用于基于文本数据输出文本类型。

203、服务器基于网页来源对应的文本识别模型，对第一文本数据进行识别，确定第一文本数据的文本类型。

可选的，所述基于所述网页来源对应的文本识别模型，对所述第一文本数据进行识别，确定所述第一文本数据的文本类型，包括：

获取所述第一文本数据的词汇，将所述第一文本数据的词汇生成所述第一文本数据的向量数据；

将所述第一文本数据的向量数据输入所述文本识别模型，输出得到所述第一文本数据的文本类型。

204、当第一文本数据的文本类型为恶意资源展示类型时，服务器将网址标记为恶意网址。

可选的，所述将所述网址标记为恶意网址之后，还包括：

当接收到终端对所述网址的网页获取请求时，拦截所述网页获取请求并向所述终端发送第一提示消息，所述第一提示消息用于指示所述网址为恶意网址；

当向所述终端发送所述网址的网页数据时，向所述终端发送第二提示消息，所述第二提示消息用于指示所述网址为恶意网址。

可选的，所述将所述网址标记为恶意网址之后，还包括：

对所述第一文本数据进行用户信息检测；

如果在所述第一文本数据中检测出用户的信息，则将所述用户标记为恶意用户。

可选的，所述将所述网址标记为恶意网址之后，还包括：

将所述第一用户标记为恶意用户。

可选的，所述方法还包括：

当所述恶意用户与任一用户基于所述服务器进行通讯时，向所述恶意用户的终端发送第三提示消息，向所述任一用户的终端发送第四提示消息，所述第三提示消息和所述第四提示消息用于指示所述恶意用户发送的通讯信息包含恶意网址。

可选的，所述网页来源对应的文本识别模型的训练方法包括：

获取第一初始模型；

获取来源类型为网页来源的恶意文本数据作为训练样本，对所述第一初始模型进行训练，训练完成后得到网页来源对应的文本识别模型；

记录网页来源与所述网页来源对应的文本识别模型的对应关系。

可选的，所述方法还包括：

当接收到对任一网址的网页获取请求时，获取所述任一网址的网页文本数据作为待检测的第二文本数据；

确定所述第二文本数据的来源类型为网页来源，根据预设的来源类型与文本识别模型的对应关系，获取网页来源对应的文本识别模型；

基于所述网页来源对应的文本识别模型，对所述第二文本数据进行识别，确定所述第二文本数据的文本类型；

当所述第二文本数据的文本类型为恶意资源展示类型时，将所述任一网址标记为恶意网址。

可选的，所述方法还包括：

当接收到用户举报的短信文本数据时，获取所述短信文本数据作为待检测的第三文本数据；

确定所述第三文本数据的来源类型为短信来源，根据预设的来源类型与文本识别模型的对应关系，获取短信来源对应的文本识别模型；

基于所述短信来源对应的文本识别模型，对所述第三文本数据进行识别，确定所述第三文本数据的文本类型；

当所述第三文本数据的文本类型为恶意资源展示类型时，将所述短信数据标记为恶意短信。

可选的，所述短信来源对应的文本识别模型的训练方法包括：

获取第二初始模型；

获取来源类型为短信来源的恶意文本数据作为训练样本，对所述第二初始模型进行训练，训练完成后得到短信来源对应的文本识别模型；

记录短信来源与所述短信来源对应的文本识别模型的对应关系。

本发明实施例提供的文本识别方法可以由服务器实现，服务器可以对网页或短信的文本数据进行检测，以便识别其中的刷单兼职广告信息。因此，本发明实施例中，文本数据的来源类型可以包括网页来源和短信来源。其中，网页来源的文本数据可以是基于网址获取的网页文本数据，网页文本数据可以用于指示网页内容；短信来源的文本数据可以是基于用户举报的短信中获取的短信文本数据，短信文本数据可以用于指示短信内容。

下面以网页文本数据为例进行介绍，如图3所示的文本识别方法流程图，该方法的处理流程可以包括如下的步骤：

301、当接收到第一用户向第二用户发送的网址时，服务器获取网址的网页文本数据作为待检测的第一文本数据。

用户可以通过终端中的通讯应用程序与其他用户进行通讯，用户之间的通讯信息可以通过服务器进行转发。本发明实施例中将用户通讯过程中，通讯信息的发送方称为第一用户，通讯信息的接收方称为第二用户，也即第一用户向第二用户发送通讯消息，第一用户和第二用户可以基于服务器进行通讯。

第一用户在向第二用户发送通讯信息时，可以将该通讯信息发送到服务器，并由服务器转发给第二用户。当第一用户向第二用户发送的通讯消息中包含网址时，服务器可以接收到该网址。然后，服务器可以获取该网址对应的服务器地址，并向该网址对应的服务器地址获取该网址的网页数据，例如HTML(Hyper Text Markup Language，超文本标记语言)代码。进而，服务器可以从该网址的网页数据中获取网页文本数据，作为待检测的第一文本数据。当然，服务器还可以利用其它工具来获取网址的网页文本数据，例如，利用网络爬虫抓取网址的网页文本数据。

302、服务器确定第一文本数据的来源类型。

服务器在获取到待检测的文本数据时，即可标记对应的来源类型。以第一文本数据为例，当服务器基于网址获取到第一文本数据时，可以标记对应的来源类型为网页来源。

303、当服务器确定第一文本数据的来源类型为网页来源时，根据预设的来源类型与文本识别模型的对应关系，获取网页来源对应的文本识别模型。

文本识别模型可以是机器学习模型，可以用于基于文本数据输出文本类型，该输出的文本类型可以包括恶意资源展示类型和非恶意资源展示类型。本发明实施例中，恶意资源展示类型可以是指刷单兼职广告类型，可以用于指示文本数据中包含有刷单兼职广告信息，也即，恶意资源展示类型可以用于指示文本数据中包含恶意引导用户转移财产以侵占用户财产的信息。

网页文本数据和短信文本数据有一定的区别，例如，网页文本数据可能较长，包含的词汇较多；短信文本数据可能较短，包含的词汇较少。因此，对于不同来源的文本数据可以设置有不同的文本识别模型，可以提高对不同来源类型的文本数据进行分类的准确性。

当服务器在步骤302中确定第一文本数据的来源类型为网页来源时，可以在来源类型与文本识别模型的对应关系中，调用网页来源对应的文本识别模型。

在调用文本识别模型之前，服务器还可以预先对不同来源类型的文本识别模型进行训练，以网页来源的文本识别模型为例，对文本识别模型的训练过程可以如下：

3031、服务器获取第一初始模型。

服务器中可以存储有文本识别模型的第一初始模型。该第一初始模型可以是技术人员设计的用于识别网页文本数据的文本类型的机器学习模型，以待检测的网页文本数据作为输入，预测对应的文本类型，并输出该文本类型。但由于第一初始模型中的模型参数均为预设的初始值，预测的文本类型准确性较低，需要对第一初始模型进行训练。

3032、服务器获取来源类型为网页来源的恶意文本数据作为训练样本，对第一初始模型进行训练，训练完成后得到网页来源对应的文本识别模型。

在此之前，服务器可以获取到恶意网址，例如，当服务器接收到用户对刷单网页的举报时，可以将对应的网址标记为恶意网址，或者，服务器也可以接收到技术人员预先标记的恶意网址。

在对第一初始模型进行训练时，服务器可以基于上述恶意网址获取对应的恶意文本数据，具体获取文本数据的过程上面已经介绍过，此处不再赘述。当然，服务器也可以直接获取技术人员预先标记的网页来源的恶意文本数据，本发明实施例对获取恶意文本数据的具体方式不作限定。

进而，服务器可以将上述恶意文本数据作为正样本，也即将刷单网页的文本作为正样本，对第一初始模型进行训练，调整第一初始模型的模型参数，以使训练后的文本识别模型对恶意文本数据输出的文本类型为恶意资源展示类型。当文本识别模型的识别准确率达到期望值时，或训练达到预设次数时，可以结束训练过程，得到网页来源对应的文本识别模型。

3033、服务器记录网页来源与网页来源对应的文本识别模型的对应关系。

训练完成后，可以设置来源类型与文本识别模型的对应关系，以便在检测文本数据的过程中，根据该对应关系调用文本数据的来源类型对应的文本识别模型。

服务器在步骤303中获取到文本识别模型后，可以在步骤304中通过该文本识别模型确定第一文本数据的文本类型：

304、服务器基于网页来源对应的文本识别模型，对第一文本数据进行识别，确定第一文本数据的文本类型。

服务器可以将第一文本数据进行预处理，也即可以根据预设的关键词提取算法，提取第一文本数据中的关键词。进而，服务器可以将提取到的关键词输入步骤303中获取到的文本识别模型，输出即可得到第一文本数据的文本类型。

本发明实施例中以文本识别模型是卷积神经网络模型为例，卷积神经网络模型的输入可以是向量数据，因此，服务器对第一文本数据的预处理还可以包括向量化处理，步骤304的具体处理可以如下：服务器获取第一文本数据的词汇，将第一文本数据的词汇生成第一文本数据的向量数据；将第一文本数据的向量数据输入文本识别模型，输出得到第一文本数据的文本类型。

服务器生成向量数据时，首先，服务器可以对第一文本数据去除停止词、标点、数字等，然后进行分词处理，得到至少一个词语，构成第一文本数据的词汇，这些词汇也可以称为第一文本数据的关键词。在实际应用中，服务器可以利用分词工具获取文本数据的关键词，例如，jieba(结巴)、SnowNLP(Snow Natural Language Processing，雪花自然语言处理)等。

然后，服务器可以将第一文本数据的词汇输入向量转化模型，例如word2vec(wordto vector，单词转换为向量)模型，输出得到词汇中每个单词的向量，也即得到第一文本数据的向量数据。例如，单词“客服”可以表示为向量(0.23,0.25,0.46,…)，向量的维度可以是200维。

在得到向量数据后，服务器可以将第一文本数据的向量数据作为输入向量，输入文本识别模型。由于文本识别模型可以是卷积神经网络模型，则其中可以包括卷积层、池化层和全连接层，输入的向量数据可以经过卷积层、池化层和全连接层的计算。

如图4所示的卷积层计算示意图，在卷积层中，可以将输入向量与卷积核进行卷积，计算得到特征向量，因此，卷积层是提取特征保留重要的信息并且降低维度的一个网络层。

池化层可以是在卷积层后面接上的一个网络层，可以将卷积层的输出作为池化层的输入，进一步降低特征向量的维度的同时保留重要信息。池化层一般可以采用最大池化层(Max Pooling)或平均池化层(Average Pooling)，如图5所示的最大池化层计算示意图，当池化层的卷积核为2*2、步长为2，输入的特征向量为4*4的向量时，可以分别获取特征向量中不重叠的4个区域的最大值，构成新的特征向量。

全连接层可以是一种神经网络，一般可以连接在卷积层和池化层之后。全连接层可以将卷积层和池化层输出的特征向量作为输入，通过激活函数将输入的特征向量转换为一维的向量，也即得到文本数据的文本类型。如图6所示的全连接层计算示意图，其中，x₁、x₂为输入的特征向量，W₁为x₁的权重系数，W₂为x₂的权重系数，b为偏置系数，Y为输出的文本类型，例如，当Y＝1时，表示文本数据的文本类型为恶意资源展示类型。

本发明实施例对卷积层、池化层和全连接层的具体连接方式不作限定。

305、当第一文本数据的文本类型为恶意资源展示类型时，服务器将网址标记为恶意网址。

当服务器在步骤304中确定第一文本数据的文本类型为恶意资源展示类型时，表明第一文本数据中包含有刷单兼职广告信息，则服务器可以将第一文本数据的网址标记为恶意网址，并且还可以将该恶意网址进行存储，例如，可以存储到数据库中。

在此之后，当服务器再次获取到网址进行检测时，可以确定该网址是否存在于已存储的恶意网址中，如果存在，则可以直接将其标记为恶意网址，不需要再次通过本发明提供的文本识别方法对该网址的网页文本数据进行检测，提高处理效率。

服务器经过步骤301-305的方法，对第一文本数据进行识别时，由于通过文本识别模型确定文本数据是否为恶意资源展示类型，不需要基于人工设置的规则进行检测，因此可以提高识别恶意文本数据的准确性。

本发明实施例中还提供了其它可选的方案，与步骤301-305构成可能的实施方式，下面对各个可选方案进行介绍：

306、服务器将第一用户标记为恶意用户。

在步骤301中已经介绍，服务器检测的网址是由第一用户发送给第二用户，因此，服务器在将该网址标记为恶意网址之后，可以获取发送该网址的第一用户，并将该第一用户标记为恶意用户进行存储。例如，服务器可以反查发送刷单网址的用户账号，并将该用户账号标记为恶意用户。

步骤306与步骤301-305可以构成一种可能的实施方式，对发送恶意文本数据的恶意用户进行记录。

307、服务器对第一文本数据进行用户信息检测。

在将网址标记为恶意网址之后，服务器还可以对第一文本数据中的用户信息进行识别，该用户信息可以是用户账号、用户名称等等。本发明实施例对用户信息的识别方法不作限定，例如，可以是将第一文本数据输入用户信息识别模型，输出得到第一文本数据中包含的用户信息，或者，还可以是将第一文本数据进行分词处理，将得到的每个词语与服务器中预先存储的用于指示用户信息的关键词进行对比，如果存在与关键词相匹配的词语，则获取对应的用户信息。

308、如果在第一文本数据中检测出用户的信息，则服务器将该用户标记为恶意用户。

当服务器在步骤307中获取到用户信息时，可以根据该用户信息查找对应的用户，进而将该用户标记为恶意用户进行存储。

步骤307-308与步骤301-305可以构成一种可能的实施方式，对恶意文本数据中包含的恶意用户进行记录。

309、在将网址标记为恶意网址之后，当服务器接收到终端对该网址的网页获取请求时，拦截网页获取请求并向终端发送第一提示消息。

当第一用户将网址发送给第二用户之后，第二用户可能会通过浏览器访问该网址，触发终端向服务器发送该网址的网页获取请求。在将该网址标记为恶意网址之后，当服务器接收到该网址的网页获取请求时，可以对该网页获取请求进行拦截，并且可以向该终端发送第一提示消息。该第一提示消息可以用于指示该网址为恶意网址，如图7所示的第一提示消息示意图，当终端接收到第一提示消息时，可以在浏览器中显示提示消息如“该网址存在安全隐患，是否继续浏览”，进而用户可以选择继续浏览或放弃浏览。

310、当服务器向终端发送网址的网页数据时，向终端发送第二提示消息。

如果用户选择继续浏览，则服务器将该网址的网页数据发送给终端，同时向终端发送第二提示消息。第二提示消息也可以用于指示该网址为恶意网址，如图8所示的第二提示消息示意图，当终端接收到第二提示消息时，可以在浏览器中显示提示消息如“请勿轻信网页内容，谨防上当受骗”，提高用户的防范意识。

步骤309-310与步骤301-305可以构成一种可能的实施方式，在终端加载或显示恶意网址时，通过终端显示针对恶意网址的提示消息，提高用户的防范意识。

311、当恶意用户与任一用户基于服务器进行通讯时，服务器向恶意用户的终端发送第三提示消息，向上述任一用户的终端发送第四提示消息。

在服务器将用户标记为恶意用户后，每当恶意用户与任一用户进行通讯时，服务器可以接收到包含有恶意用户的信息的通讯请求。进而，服务器可以向通讯的各方发送提示消息，也即，向恶意用户的终端发送第三提示消息，向上述任一用户的终端发送第四提示消息。

第三提示消息可以用于指示恶意用户发送的通讯信息包含恶意网址，如图9所示的第三提示消息示意图，当恶意用户的终端接收到第三提示消息时，可以在通讯界面中显示提示消息如“请勿发送诈骗信息，遵守法律法规”，以便震慑不法分子，降低其发送恶意网址的概率。

第四提示消息也可以用于指示恶意用户发送的通讯信息包含恶意网址，如图10所示的第四提示消息示意图，当上述任一用户的终端接收到第四提示消息时，可以在通讯界面中显示提示消息如“请勿轻信聊天内容，谨防上当受骗”，提高用户的防范意识。

对恶意用户的识别和记录，可以辅助相关人员对恶意用户进行监控。如果恶意用户的恶意行为显著，例如，多次发送恶意网址或被多次举报等，则相关人员可以对恶意用户进行查封，阻止恶意事件的发展。

步骤311与步骤301-306可以构成一种可能的实施方式，或与步骤301-305、307-308构成一种可能的实施方式，在通讯过程中对普通用户和恶意用户分别做出不同的提示，使得提示消息更具有针对性，提高普通用户的防范意识，以及对恶意用户做出警示。

当然，上述不同的实施方式可以互相结合，以构成不同的实施方案，本发明实施例对此不作限定。

服务器可以对接收到的任一网址进行检测，除了上述发明实施例中介绍的在用户通讯过程中传输的网址，还可以包括在浏览器中获取到的任一网址。下面将结合图11所示的文本识别方法流程图，对针对浏览器中获取到的任一网址的处理流程进行介绍：

1101、当接收到对任一网址的网页获取请求时，服务器获取该任一网址的网页文本数据作为待检测的第二文本数据。

当用户在浏览器中输入任一网址进行跳转，或点击任一网址链接进行跳转时，可以触发终端对该网址的网页获取请求。当服务器接收到该网址时，可以基于与步骤301同理的方法，获取该网址的网页文本数据，作为待检测的第二文本数据，此处不再赘述。

当然，服务器还可以基于其它方式获取网址，例如，利用网络爬虫获取互联网中的网址，或通过保护程序获取网址，本发明实施例对服务器获取网址的具体方式不作限定。每当服务器接收到网址时，均可基于本发明提供的文本识别方法进行检测。

1102、服务器确定第二文本数据的来源类型。

当服务器基于网址获取到第二文本数据时，可以标记对应的来源类型为网页来源。

1103、当服务器确定第二文本数据的来源类型为网页来源时，根据预设的来源类型与文本识别模型的对应关系，获取网页来源对应的文本识别模型。

1104、服务器基于网页来源对应的文本识别模型，对第二文本数据进行识别，确定第二文本数据的文本类型。

1105、当第二文本数据的文本类型为恶意资源展示类型时，服务器将网址标记为恶意网址。

1106、服务器对第二文本数据进行用户信息检测。

1107、如果在第二文本数据中检测出用户的信息，则将该用户标记为恶意用户。

1108、在将网址标记为恶意网址之后，当接收到终端对该网址的网页获取请求时，拦截网页获取请求并向终端发送第一提示消息。

1109、当服务器向终端发送网址的网页数据时，向终端发送第二提示消息。

1110、当恶意用户与任一用户基于服务器进行通讯时，服务器向恶意用户的终端发送第三提示消息，向上述任一用户的终端发送第四提示消息。

步骤1103-1105与上述步骤303-305同理，步骤1106-1110与上述步骤307-311同理，此处不再赘述。

上述发明实施例中对网页文本数据的识别进行了介绍，下面将以短信文本数据为例，结合图12所示的文本识别方法流程图，对该方法的处理流程进行介绍：

1201、当接收到用户举报的短信文本数据时，服务器获取短信文本数据作为待检测的第三文本数据。

用户可以对接收到的垃圾短信进行举报，触发终端通过保护程序将该短信的短信数据上传至服务器。短信数据中可以包括发送方号码、接收方号码和短信文本数据等，服务器在接收到用户举报的短信数据时，可以获取其中的短信文本数据，作为待检测的第三文本数据。

1202、服务器确定第三文本数据的来源类型。

当服务器通过上述方法获取到上述第三文本数据时，可以标记对应的来源类型为短信来源。

1203、当服务器确定第三文本数据的来源类型为短信来源时，根据预设的来源类型与文本识别模型的对应关系，获取短信来源对应的文本识别模型。

步骤1203与步骤303同理，此处不再赘述。

服务器对短信来源对应的文本识别模型进行训练的过程可以如下：

12031、服务器获取第二初始模型。

第二初始模型的模型参数可以与上述第一初始模型相同，也可以不同。第二初始模型可以用于识别短信文本数据的文本类型，以待检测的短信文本数据作为输入，输出对应的文本类型。

12032、服务器获取来源类型为短信来源的恶意文本数据作为训练样本，对所述第二初始模型进行训练，训练完成后得到短信来源对应的文本识别模型。

服务器可以获取短信来源的恶意文本数据作为正样本，也即将刷单短信的文本作为正样本，对第二初始模型进行训练。

12033、服务器记录短信来源与短信来源对应的文本识别模型的对应关系。

步骤12031-12033的具体处理过程与上述步骤3031-3033同理，此处不再赘述。

1204、服务器基于短信来源对应的文本识别模型，对第三文本数据进行识别，确定第三文本数据的文本类型。

服务器可以调用短信来源对应的文本识别模型对第三文本数据进行识别，具体识别的过程与步骤304同理，此处不再赘述。

1205、当第三文本数据的文本类型为恶意资源展示类型时，服务器将短信数据标记为恶意短信。

当服务器在步骤1204中确定第三文本数据的文本类型为恶意资源展示类型时，表明第三文本数据中包含有刷单兼职广告信息，则服务器可以将第三文本数据的短信数据为恶意短信，并且还可以将该恶意短信进行存储。

在此之后，当服务器再次获取到短信数据进行检测时，可以确定该短信数据是否存在于已存储的恶意短信中，如果存在，则可以直接将其标记为恶意短信，不需要再次通过本发明提供的文本识别方法对该短信的短信文本数据进行检测，提高处理效率。

1206、服务器对第三文本数据进行用户信息检测。

1207、如果在第三文本数据中检测出用户的信息，则将该用户标记为恶意用户。

1208、当恶意用户与任一用户基于服务器进行通讯时，服务器向恶意用户的终端发送第三提示消息，向上述任一用户的终端发送第四提示消息。

步骤1206-1207与上述步骤307-308同理，步骤1208与上述步骤311同理，此处不再赘述。

在实施中，服务器可以同时接收到待检测的多个网址和多条短信，可以并行对网页文本数据和短信文本数据进行检测，不仅仅是对网址进行检测，扩大了检测范围。对于不同来源类型的文本数据，服务器均可基于同一程序实现，而不需要运行多个不同的程序，可以节约系统资源，提高处理效率。

并且，在上述发明实施例中，服务器通过文本识别模型确定文本数据是否为恶意资源展示类型，不需要基于人工设置的规则进行检测，可以提高识别恶意文本数据的准确性。在识别出恶意网址或恶意用户之后，还可以在各种界面对用户进行提醒，提高普通用户的防范意识，震慑恶意用户，在一定程度上阻止恶意事件的发展。

基于相同的技术构思，本发明实施例还提供了一种文本识别装置，该装置可以应用于上述服务器，如图13所示，该装置包括：

获取模块1301，用于当接收到第一用户向第二用户发送的网址时，获取所述网址的网页文本数据作为待检测的第一文本数据；

确定模块1302，用于确定所述第一文本数据的来源类型为网页来源，根据预设的来源类型与文本识别模型的对应关系，获取网页来源对应的文本识别模型，所述文本识别模型用于基于文本数据输出文本类型；

识别模块1303，用于基于所述网页来源对应的文本识别模型，对所述第一文本数据进行识别，确定所述第一文本数据的文本类型；

标记模块1304，用于当所述第一文本数据的文本类型为恶意资源展示类型时，将所述网址标记为恶意网址。

可选的，所述识别模块1303，用于：

可选的，所述装置还包括：

拦截模块，用于当接收到终端对所述网址的网页获取请求时，拦截所述网页获取请求并向所述终端发送第一提示消息，所述第一提示消息用于指示所述网址为恶意网址；

第一发送模块，用于当向所述终端发送所述网址的网页数据时，向所述终端发送第二提示消息，所述第二提示消息用于指示所述网址为恶意网址。

可选的，所述装置还包括：

检测模块，用于对所述第一文本数据进行用户信息检测；

所述标记模块1304，还用于如果在所述第一文本数据中检测出用户的信息，则将所述用户标记为恶意用户。

可选的，所述标记模块1304，还用于：

将所述第一用户标记为恶意用户。

可选的，所述装置还包括：

第二发送模块，用于当所述恶意用户与任一用户基于所述服务器进行通讯时，向所述恶意用户的终端发送第三提示消息，向所述任一用户的终端发送第四提示消息，所述第三提示消息和所述第四提示消息用于指示所述恶意用户发送的通讯信息包含恶意网址。

可选的，所述装置还包括第一训练模块，所述第一训练模块用于：

获取第一初始模型；

可选的，所述获取模块1301，还用于当接收到对任一网址的网页获取请求时，获取所述任一网址的网页文本数据作为待检测的第二文本数据；

所述确定模块1302，还用于确定所述第二文本数据的来源类型为网页来源，根据预设的来源类型与文本识别模型的对应关系，获取网页来源对应的文本识别模型；

所述识别模块1303，还用于基于所述网页来源对应的文本识别模型，对所述第二文本数据进行识别，确定所述第二文本数据的文本类型；

所述标记模块1304，还用于当所述第二文本数据的文本类型为恶意资源展示类型时，将所述任一网址标记为恶意网址。

可选的，所述获取模块1301，还用于当接收到用户举报的短信文本数据时，获取所述短信文本数据作为待检测的第三文本数据；

所述确定模块1302，还用于确定所述第三文本数据的来源类型为短信来源，根据预设的来源类型与文本识别模型的对应关系，获取短信来源对应的文本识别模型；

所述识别模块1303，还用于基于所述短信来源对应的文本识别模型，对所述第三文本数据进行识别，确定所述第三文本数据的文本类型；

所述标记模块1304，还用于当所述第三文本数据的文本类型为恶意资源展示类型时，将所述短信数据标记为恶意短信。

可选的，所述装置还包括第二训练模块，所述第二训练模块用于：

获取第二初始模型；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是：上述实施例提供的文本识别装置在文本识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本识别装置与文本识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图14是本发明实施例提供的一种服务器的结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1401和一个或一个以上的存储器1402，其中，所述存储器1402中存储有至少一条指令，所述至少一条指令由所述处理器1401加载并执行以实现下述文本识别方法的步骤：

可选的，所述至少一条指令由所述处理器1401加载并执行以实现下述方法步骤：

对所述第一文本数据进行用户信息检测；

将所述第一用户标记为恶意用户。

获取第一初始模型；

获取第二初始模型；

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由服务器中的处理器执行以完成上述文本识别方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本识别方法，其特征在于，所述方法应用于服务器，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述网页来源对应的文本识别模型，对所述第一文本数据进行识别，确定所述第一文本数据的文本类型，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述网址标记为恶意网址之后，还包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述网址标记为恶意网址之后，还包括：

对所述第一文本数据进行用户信息检测；

5.根据权利要求1所述的方法，其特征在于，所述将所述网址标记为恶意网址之后，还包括：

将所述第一用户标记为恶意用户。

6.根据权利要求4-5任一所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述网页来源对应的文本识别模型的训练方法包括：

获取第一初始模型；

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述短信来源对应的文本识别模型的训练方法包括：

获取第二初始模型；

11.一种文本识别装置，其特征在于，所述装置应用于服务器，所述装置包括：

获取模块，用于当接收到第一用户向第二用户发送的网址时，获取所述网址的网页文本数据作为待检测的第一文本数据；

12.根据权利要求11所述的装置，其特征在于，所述识别模块，用于：

13.根据权利要求11所述的装置，其特征在于，所述装置还包括：

14.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至10任一所述的文本识别方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至10任一所述的文本识别方法。