CN110737818B

CN110737818B - 网络发布数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN110737818B
Application number: CN201910844272.2A
Authority: CN
Inventors: 李伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2024-02-27
Anticipated expiration: 2039-09-06
Also published as: CN110737818A; WO2021043076A1

Abstract

本申请涉及大数据处理领域，尤其是一种网络发布数据处理方法、装置、计算机设备和存储介质。方法包括：接收终端发送的网络发布数据，网络发布数据携带有数据类型标识；选取与数据类型标识对应的网络数据审核模型；对网络发布数据分别进行分词处理得到对应的分词序列，将分词序列分别输入至网络数据审核模型中得到对应的分词审核结果，分词处理包括词语分词处理和字符分词处理；将分词审核结果输入至权重分配模型中得到与每一分词审核结果对应的分词权重；根据分词审核结果和分词权重得到与网络发布数据对应的目标审核结果；根据目标审核结果判断网络发布数据是否需要删除，若需要，则删除网络发布数据。采用本方法能够提高识别处理准确性。

Description

网络发布数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种网络发布数据处理方法、装置、计算机设备和存储介质。

背景技术

随着互联网的发展，用户可以通过互联网获取所需信息，因此出现越来越多可以获取信息的平台，往往获取信息时还可以在平台上发表相应的评论。

然而，目前服务器接收到各个终端发送的网络发布数据时，通过预先存储的敏感词匹配识别不良评论，这样当评论数据中存在广告、灌水、污秽、辱骂、政治敏感等不符合社区主义价值观及特定场景和要求的内容的不良评论时，则会识别出该些网络数据，并删除。但是这样通过敏感词匹配来识别不良评论时，当预先没有存储该敏感词时，则不会识别出来，从而导致不良评论的网络发布数据识别效果较差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够准确地对网络发布数据进行识别处理的网络发布数据处理方法、装置、计算机设备和存储介质。

一种网络发布数据处理方法，所述方法包括：

接收终端发送的网络发布数据，所述网络发布数据携带有数据类型标识；

选取与所述数据类型标识对应的网络数据审核模型；

对所述网络发布数据分别进行分词处理得到对应的分词序列，将所述分词序列分别输入至所述网络数据审核模型中得到对应的分词审核结果，所述分词处理包括词语分词处理和字符分词处理；

将所述分词审核结果输入至权重分配模型中得到与每一分词审核结果对应的分词权重；

根据所述分词审核结果和所述分词权重得到与所述网络发布数据对应的目标审核结果；

根据所述目标审核结果判断所述网络发布数据是否需要删除，若需要，则删除所述网络发布数据。

在其中一个实施例中，所述对所述网络发布数据分别进行分词处理得到对应的分词序列，将所述分词序列分别输入至所述网络数据审核模型中得到对应的分词审核结果，包括：

对所述网络发布数据分别进行分词处理得到对应的分词序列，并统计每一所述分词序列中的第一分词数量；

当存在所述分词序列对应的所述第一分词数量未达到预设值时，则将对应的所述分词序列转化为初始分词向量；

获取与所述分词序列对应的预先存储的补充元素，通过所述补充元素对所述初始分词向量进行补充得到目标向量；

将所述目标向量输入至所述网络数据审核模型中得到分词审核结果。

在其中一个实施例中，所述方法还包括：

当存在所述分词序列对应的所述第一分词数量大于所述预设值时，则比较所述分词序列中的分词得到重复分词，并删除所述重复分词；

统计删除重复分词之后的分词序列中的第二分词数量；

当所述第二分词数量仍大于所述预设值时，则计算所述第二分词数量与所述预设值的差值；

从删除重复分词之后的分词序列中继续删除与所述差值对应数量的分词。

在其中一个实施例中，所述选取与所述数据类型标识对应的网络数据审核模型之前，还包括：

查询所述网络发布数据是否携带有空白数据标识；

当所述网络发布数据未携带有空白数据标识时，则将所述网络发布数据与预先建立的敏感数据库中的标准敏感数据进行匹配；

当未匹配成功时，则根据预设提取逻辑提取所述网络发布数据中的特殊字符，并删除所述特殊字符。

在其中一个实施例中，所述网络数据审核模型的生成方式包括：

获取历史数据以及所述历史数据对应的历史审核结果；

将所述历史数据进行分词处理得到对应的历史序列，并对每一所述历史序列进行处理得到对应的历史向量；

将所述历史向量分别进行排列组合得到组合向量，通过激活函数对所述组合向量进行处理得到目标向量；

对所述目标向量以及所述历史审核结果进行训练得到网络数据审核模型。

在其中一个实施例中，所述对所述网络发布数据分别进行分词处理得到对应的分词序列，包括：

获取多个预设分词逻辑，根据多个所述预设分词逻辑对所述网络发布数据进行分词处理得到多个词语序列，并提取所述网络发布数据中的候选词语；

根据预先存储的候选词语与概率值的对应关系得到与所述候选词语对应的概率值；

根据与所述候选词语对应的概率值计算各个词语序列的概率值；

选取词语序列的概率值最大的词语序列作为分词序列。

一种网络发布数据处理装置，所述装置包括：

接收模块，用于接收终端发送的网络发布数据，所述网络发布数据携带有数据类型标识；

模型选择模块，用于选取与所述数据类型标识对应的网络数据审核模型；

分词审核结果获取模块，用于对所述网络发布数据分别进行分词处理得到对应的分词序列，将所述分词序列分别输入至所述网络数据审核模型中得到对应的分词审核结果，所述分词处理包括词语分词处理和字符分词处理；

权重获取模块，用于将所述分词审核结果输入至权重分配模型中得到与每一分词审核结果对应的分词权重；

目标审核结果获取模块，用于根据所述分词审核结果和所述分词权重得到与所述网络发布数据对应的目标审核结果；

数据处理模块，用于根据所述目标审核结果判断所述网络发布数据是否需要删除，若需要，则删除所述网络发布数据。

在其中一个实施例中，所述分词审核结果获取模块包括：

第一统计单元，用于对所述网络发布数据分别进行分词处理得到对应的分词序列，并统计每一所述分词序列中的第一分词数量；

向量转化单元，用于当存在所述分词序列对应的所述第一分词数量未达到预设值时，则将对应的所述分词序列转化为初始分词向量；

向量补充单元，用于获取与所述分词序列对应的预先存储的补充元素，通过所述补充元素对所述初始分词向量进行补充得到目标向量；

分词审核结果获取单元，用于将所述目标向量输入至所述网络数据审核模型中得到分词审核结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

上述网络发布数据处理方法、装置、计算机设备和存储介质，在接收到终端发送的网络发布数据后，数据类型标识选取对应的网络数据审核模型，从而可以根据审核模型对不同分词处理的分词序列进行处理得到对应的分词审核结果，进而综合各个分词审核结果得到与该网络发布数据对应的目标审核结果，从而可以根据目标审核结果对网络发布数据进行处理，例如删除等，能够提高对网络发布数据的处理准确性。

附图说明

图1为一个实施例中网络发布数据处理方法的应用场景图；

图2为一个实施例中网络发布数据处理方法的流程示意图；

图3为一个实施例中网络数据审核模型的生成方式的架构图；

图4为一个实施例中网络发布数据处理装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的网络发布数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端102向服务器发送网络发布数据，然后服务器104接收到该些网络发布数据后，根据网络发布数据的数据类型标识选取对应的网络数据审核模型，然后将网络发布数据分别进行分词处理得到对应的分词序列，从而可以将分词序列输入至网络数据审核模型中得到对应的分词审核结果，其中分词处理包括词语分词处理和字符分词处理，这样就可以得到与词语分词处理对应的分词审核结果以及与字符分词处理对应的分词审核结果；服务器104将所得到的分词审核结果输入至权重分配模型中得到与每一分词审核结果对应的分词权重，从而可以根据该些权重以及分词审核结果得到目标审核结果，进而服务器104根据目标审核结果确定网络发布数据是否需要被删除，例如如果需要被删除，则删除该些网络发布数据，否则将网络发布数据显示到对应的网页上。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种网络发布数据处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202：接收终端发送的网络发布数据，网络发布数据携带有数据类型标识。

网络发布数据是指用户针对网上的信息的评论或者是主动发布的网络信息，例如主贴、评论或者是转发评论等。数据类型标识是用于唯一确定网络发布数据类型的标识，由于数据类型包括主贴、评论以及转发评论等，因此数据类型标识可以对应该些类型。服务器接收到终端发送的网络发布数据后，首先读取到网络发布数据中的数据类型标识，然后将网络发布数据进行存储，以便于后续追踪处理等。可选地，服务器在接收到网络发布数据后，将网络发布数据存储在对应的消息队列中，然后根据进程间通信手段传递给对应的代码段进行审核，该些代码段可以是通过python开发的。

实际应用中，服务器可以接收到终端发送的网络发布数据，并提取网络发布数据的数据类型标识，该数据类型标识可以确定网络发布数据的种类(如具体为主帖、评论或者转发等)，服务器根据得到的网络发布数据的类型，可以对网络发布数据进行标准化处理，例如清除空数据，将与符号对应的字段进行组合，另外如果是转发的内容，则将原帖内容与评论共同作为发布数据，并根据业务对帖子添加相应的业务标识，从而得到处理后的网络发布数据以便于后续的处理。

S204：选取与数据类型标识对应的网络数据审核模型。

网络数据审核模型是预先训练得到的，其用于对不同类型的网络发布数据进行审核以得到与网络发布数据对应的分词审核结果，且不同的数据类型对应不同的网络数据审核模型。网络数据审核模型是用于综合历史网络发布数据以及对应的历史分词审核结果所得到的网络发布数据与分词审核结果之间的对应关系。

S206：对网络发布数据分别进行分词处理得到对应的分词序列，将分词序列分别输入至网络数据审核模型中得到对应的分词审核结果，分词处理包括词语分词处理和字符分词处理。

具体地，分词处理包括词语分词处理以及字符分词处理，即将网络发布数据分别进行词语分词处理和字符分词处理得到词语序列和字符序列，然后分别将词语序列和字符序列输入至网络数据审核模型中得到与词语序列对应的分词审核结果和字符序列对应的分词审核结果。

例如，为了清楚，服务器将网络发布数据按照词语分词逻辑进行分词得到词语序列，并按照字符分词逻辑进行分词得字符序列，服务器将词语序列输入至网络数据审核模型中得到第一审核结果，并将字符序列输入至网络数据审核模型中得到第二审核结果，其中，第一审核结果以及第二审核结果可以分别是不同的数值结果。

S208：将分词审核结果输入至权重分配模型中得到与每一分词审核结果对应的分词权重。

S210：根据分词审核结果和分词权重得到与网络发布数据对应的目标审核结果。

具体地，服务器将得到的两种分词审核记过进行处理得到目标审核结果，其中处理可以是按照权重进行计算，其中，在按照权重计算时，对第一审核结果与第二审核结果所对应的权重的生成方式可以是，获取到第一样本结果以及第二样本结果，并获取到实际结果，将第一样本结果、第二样本结果与实际结果输入至对应的权重训练模型中进行计算得到不同的样本结果所对应的权重，且该权重训练模型可以采用线性回归模型或层次分析算法等进行计算。

S212：根据目标审核结果判断网络发布数据是否需要删除，若需要，则删除网络发布数据。

具体地，当计算得到目标审核结果时，可以根据阈值判断是否是需要进行删除的网络发布数据，进一步地，服务器可以根据所得到的目标审核结果，与阈值进行比较，从而得到网络发布数据中是否有异常数据，当存在异常数据时，则将该网络发布数据进行删除，并对该网络发布数据所对应的网络地址添加核查标签，当添加了核查标签的网络地址出现异常数据的次数超过预设值时，则将该网络地址添加至黑名单中。另外，上述对应的阈值可以动态调整，也即自动审核误差过大，则将该阈值增加，如果在预设的期间审核严格则将阈值减小。服务器设置有审核模型，无需人工进行审核，且在审核过程中，是将分词以及字符分别作为审核模型特征进行输入，从而得到审核结果，进一步保证审核结果的准确性。

上述网络发布数据处理方法，在接收到终端发送的网络发布数据后，数据类型标识选取对应的网络数据审核模型，从而可以根据审核模型对不同分词处理的分词序列进行处理得到对应的分词审核结果，进而综合各个分词审核结果得到与该网络发布数据对应的目标审核结果，从而可以根据目标审核结果对网络发布数据进行处理，例如删除等，能够提高对网络发布数据的处理准确性。

在其中一个实施例中，对网络发布数据分别进行分词处理得到对应的分词序列，将分词序列分别输入至网络数据审核模型中得到对应的分词审核结果，包括：对网络发布数据分别进行分词处理得到对应的分词序列，并统计每一分词序列中的第一分词数量；当存在分词序列对应的第一分词数量未达到预设值时，则将对应的分词序列转化为初始分词向量；获取与分词序列对应的预先存储的补充元素，通过预先存储的补充元素对初始分词向量进行补充得到目标向量；将目标向量输入至网络数据审核模型中得到分词审核结果。

在其中一个实施例中，上述网络发布数据处理方法还包括：当存在分词序列对应的第一分词数量大于预设值时，则比较所述分词序列中的分词得到重复分词，删除重复分词；统计删除重复分词之后的分词序列中的第二分词数量；当第二分词数量仍大于预设值时，则计算第二分词数量与预设值的差值；从删除重复分词之后的分词序列中继续删除与差值对应数量的分词。

具体地，分词处理包括词语分词处理和字符分词处理，因此上述对网络发布数据分别进行分词处理得到对应的分词序列，将分词序列分别输入至网络数据审核模型中得到对应的分词审核结果可以包括：对网络发布数据进行第一分词得到词语序列，将词语序列输入至网络数据审核模型中得到第一审核结果；对网络发布数据进行第二分词得到字符序列，将字符序列输入至网络数据审核模型中得到第二审核结果。

且其中对网络发布数据进行第一分词得到词语序列之后还可以包括：统计网络发布数据进行第一分词后得到第一初始序列所对应的第一分词数量；当第一分词数量未达到预设值时，将第一初始序列中的按照分词结果转换为初始词语向量；获取第一待补充元素，例如第一待补充元素可以为“无”，并将第一待补充元素添加至初始词语向量中生成第一向量。且对网络发布数据进行第二分词得到字符序列之后也包括：统计网络发布数据进行第二分词后得到的第二初始序列所对应的第二分词数量；当第二分词数量未达到预设值时，则将第二初始序列中按照分词结果转换为初始字符向量；获取第二待补充元素，例如第二待补充元素可以为“NA”并将第二待补充元素添加至初始字符向量中生成第二向量。本实施例中，由于服务器所采用的网络数据审核模型为预设有相应的检测字段的模型，也即服务器可以统计网络发布数据进行第一分词后得到的不同的分词的数量，当分词的数量未达到网络数据审核模型进行识别所需要的特征值数量时，则采用预设值进行补充，也即服务器可以将分词后的不同的分词序列转换为初始向量，并采用预设值将初始向量的维度扩充至预设的维度。同样地，服务器可以对转换得到的字符向量进行补充得到第二向量。

可选地，统计网络发布数据进行第一分词后得到第一初始序列所对应的第一分词数量之后，还包括：当第一分词数量超过预设值时，则选取第一初始序列中的重复词语，即通过比较第一初始序列中的分词得到第一重复分词；将重复词语进行删除，并统计进行删除重复词语之后的第一初始序列中得到第一删除序列，并统计第一删除序列对应的第一目标分词数量；当第一目标分词数量超过预设值时，则获取到待删除词语数量，并按照待删除词语数量从第一删除序列中删除对应词语。且统计网络发布数据进行第二分词后得到的第二初始序列所对应的第二分词数量之后，还包括：当第二分词数量超过预设值时，则选取第二初始序列中的重复字符，即通过比较第二初始序列中的分词得到第二重复分词；将第二重复字符进行删除，并统计进行删除第二重复字符之后的第二初始序列中得到第二删除序列，并统计第二删除序列对应的第二目标分词数量；当第二目标分词数量超过预设值时，则获取到待删除字符数量，并按照待删除字符数量从第二删除序列中删除对应字符。

本实施例中，当服务器获取到的第一分词数量超过预设值时，则需要将相应的第一初始序列中的数据进行减少，也即服务器查询到第一分词数量超过预设值时，则查询到第一初始序列中是否有重复的词语，也即可以是将第一个词语与其他词语进行比对，进而将第二个词语与其他词语进行比对，直至第一初始序列中所有的词语均进行比对完成，从而选取是否有重复词语，当有重复词语时，则将重复词语进行删除得到第一删除序列，进而查询如果第一删除序列中包含的词语仍旧超过预设值时，如预设值为100个字段，得到的第一删除序列为103，则将后三个词语进行删除。另外，还可以是，当服务器删除重复字符得到的第一删除序列时，当第一删除序列对应的第一目标分词数量仍旧超过预设值时，则根据第一删除序列对应的第一初始序列添加长文本标识，后续可以采用长文本识别模型进行识别。同样地，服务器可以采用相同的方法对第二初始分词序列进行处理。

上述实施例中，为了保证网络数据审核模型输出结果的准确性，首先对网络发布数据进行分词，且对分词后的分词数据进行控制，保证了维度的准确性，从而保证了网络数据审核模型输出结果的准确性。

在其中一个实施例中，选取与数据类型标识对应的网络数据审核模型之前，还包括：查询网络发布数据是否携带有空白数据标识；当网络发布数据未携带有空白数据标识时，则将网络发布数据与预先建立的敏感数据库中的标准敏感数据进行匹配；当为未匹配成功时，则根据预设提取逻辑提取网络发布数据中的特殊字符，并删除特殊字符。

本实施例中，当得到网络发布数据时，则可以对网络发布数据进行标准化处理，也即可以先查询网络发布数据是否是空白数据，当是空白数据时，则直接将网络发布数据进行删除，当不为空白数据时，则查询是否有敏感词汇，即与预先建立的敏感数据库中的标准数据进行匹配，该标准数据可以为污秽、辱骂、政治敏感等不符合社区主义价值观及特定场景和要求的内容，当查询到敏感词汇时，则也可以直接将网络发布数据进行删除，如果不存在敏感数据时，则将特殊字符进行标准化处理，如将空格，符号等进行删除。

上述实施例中，在对网络发布数据处理之前，首先对网络发布数据进行标准化处理，从而删除了无用数据，保证了后续处理的准确性。

在其中一个实施例中，参见图3，图3为一个实施例中的网络数据审核模型生成方式的架构图，该网络数据审核模型的生成方式包括：获取历史数据以及历史数据对应的历史审核结果；将历史数据进行分词处理得到对应的历史序列，并对每一历史序列进行处理得到对应的历史向量；将历史向量分别进行排列组合得到组合向量，并通过激活函数对组合向量进行处理得到目标向量；对目标向量以及历史审核结果进行训练得到网络数据审核模型。

本实施例中，在对网络数据审核模型进行训练时，服务器先获取到历史数据以及历史数据对应的历史审核结果，也即网络数据审核模型所对应的样本结果值，进而服务器将获取到的历史数据进行分词得到历史词语以及历史字符，通过embedding层计算得到词语向量以及字符向量，通过由双向的长短期记忆单元(BiLSTM)识别历史词语之间的关系，并且识别历史字符之间的关系，进而调整所对应的连接关系，重新进行排序，并将排序后的词语向量以及字符向量顺序连接得到组合向量，进而通过激活函数对得到的向量进行筛选得到最终的目标向量，并将目标向量以及历史审核结果输入至初级模型中，得到初级模型中包含的未知模型值，从而得到最终的网络数据审核模型，也即后续服务器可以直接通过输入的确定的变量，得到确定的分词审核结果。

在其中一个实施例中，对网络发布数据分别进行分词处理得到对应的分词序列，包括：获取多个预设分词逻辑，根据多个预设分词逻辑对网络发布数据进行分词处理得到多个词语序列，并提取网络发布数据中的候选词语；根据预先存储的候选词语与概率值的对应关系得到与候选词语对应的概率值；根据与候选词语对应的概率值计算多个词语序列的概率值；选取词语序列的概率值最大的词语序列作为分词序列。

本实施例中，服务器在进行分词时，可以获取有预设的分词逻辑，进而采用分词逻辑获取到预设的候选字段，得到不同的候选字段序列，并查询到每个候选字段所对应的概率值，计算不同的候选字段序列中所对应的候选字段的概率值的乘积，进而选取乘积最大的候选字段序列作为目标序列，也即其中包含的不同字段作为目标分词字段。其中，得到的概率值是预设有相应的数据库，该数据库可以是包含有可疑数据以及非可以数据的所有数据，进而计算不同的数据与总数据的比值作为该词语所对应的概率值。

上述实施例中，通过概率值来确定目标序列，从而可以提高分词的准确性。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种网络发布数据处理装置，包括：接收模块100、模型选择模块200、分词审核结果获取模块300、权重获取模块400、目标审核结果获取模块500和数据处理模块600，其中：

接收模块100，用于接收终端发送的网络发布数据，网络发布数据携带有数据类型标识。

模型选择模块200，用于选取与数据类型标识对应的网络数据审核模型。

分词审核结果获取模块300，用于对网络发布数据分别进行分词处理得到对应的分词序列，将分词序列分别输入至网络数据审核模型中得到对应的分词审核结果，分词处理包括词语分词处理和字符分词处理。

权重获取模块400，用于将分词审核结果输入至权重分配模型中得到与每一分词审核结果对应的分词权重。

目标审核结果获取模块500，用于根据分词审核结果和分词权重得到与网络发布数据对应的目标审核结果。

数据处理模块600，用于根据目标审核结果判断网络发布数据是否需要删除，若需要，则删除网络发布数据。

在其中一个实施例中，分词审核结果获取模块300包括：

第一统计单元，用于对网络发布数据分别进行分词处理得到对应的分词序列，并统计每一分词序列中的第一分词数量。

向量转化单元，用于当存在分词序列对应的第一分词数量未达到预设值时，则将对应的分词序列转化为初始分词向量。

向量补充单元，用于获取与分词序列对应的预先存储的补充元素，通过补充元素对初始分词向量进行补充得到目标向量。

分词审核结果获取单元，用于将目标向量输入至网络数据审核模型中得到分词审核结果。

在其中一个实施例中，分词审核结果获取模块300还包括：

重复分词处理单元，用于当存在所述分词序列对应的第一分词数量大于预设值时，则比较分词序列中的分词得到重复分词，并删除重复分词。

第二统计单元，用于统计删除重复分词之后的分词序列中的第二分词数量。

差值计算单元，用于当第二分词数量仍大于预设值时，则计算第二分词数量与预设值的差值。

删除单元，用于从删除重复分词之后的分词序列中继续删除与差值对应数量的分词。

在其中一个实施例中，装置还包括：

查询模块，用于查询网络发布数据是否携带有空白数据标识。

匹配模块，用于当网络发布数据未携带有空白数据标识时，则将网络发布数据与预先建立的敏感数据库中的标准敏感数据进行匹配。

删除模块，用于当为未匹配成功时，则根据预设提取逻辑提取网络发布数据中的特殊字符，并删除特殊字符。

在其中一个实施例中，装置还包括：

模型训练模块，用于获取历史数据以及历史数据对应的历史审核结果；将历史数据进行分词处理得到对应的历史序列，并对每一历史序列进行处理得到对应的历史向量；将历史向量分别进行排列组合得到组合向量，通过激活函数对组合向量进行处理得到目标向量；对目标向量以及历史审核结果进行训练得到网络数据审核模型。

在其中一个实施例中，分词审核结果获取模块300包括：

预分词单元，用于获取多个预设分词逻辑，根据多个预设分词逻辑对网络发布数据进行分词处理得到多个词语序列，并提取网络发布数据中的候选词语。

第一概率获取单元，用于根据预先存储的候选词语与概率值的对应关系得到与候选词语对应的概率值。

第二概率获取单元，用于根据与候选词语对应的概率值计算各个词语序列的概率值。

输出单元，用于选取词语序列的概率值最大的词语序列作为分词序列。

关于网络发布数据处理装置的具体限定可以参见上文中对于网络发布数据处理方法的限定，在此不再赘述。上述网络发布数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储网络数据审核模型以及权重分配模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网络发布数据处理方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：接收终端发送的网络发布数据，网络发布数据携带有数据类型标识；选取与数据类型标识对应的网络数据审核模型；对网络发布数据分别进行分词处理得到对应的分词序列，将分词序列分别输入至网络数据审核模型中得到对应的分词审核结果，分词处理包括词语分词处理和字符分词处理；将分词审核结果输入至权重分配模型中得到与每一分词审核结果对应的分词权重；根据分词审核结果和分词权重得到与网络发布数据对应的目标审核结果；根据目标审核结果判断网络发布数据是否需要删除，若需要，则删除网络发布数据。

在一个实施例中，处理器执行计算机程序时所实现的对网络发布数据分别进行分词处理得到对应的分词序列，将分词序列分别输入至网络数据审核模型中得到对应的分词审核结果，包括：对网络发布数据分别进行分词处理得到对应的分词序列，并统计每一分词序列中的第一分词数量；当存在分词序列对应的第一分词数量未达到预设值时，则将对应的分词序列转化为初始分词向量；获取与分词序列对应的预先存储的补充元素，通过补充元素对初始分词向量进行补充得到目标向量；将目标向量输入至网络数据审核模型中得到分词审核结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当存在分词序列对应的第一分词数量大于预设值时，则比较分词序列中的分词得到重复分词，并删除重复分词；统计删除重复分词之后的分词序列中的第二分词数量；当第二分词数量仍大于预设值时，则计算第二分词数量与预设值的差值；从删除重复分词之后的分词序列中继续删除与差值对应数量的分词。

在一个实施例中，处理器执行计算机程序时所实现的选取与数据类型标识对应的网络数据审核模型之前，还包括：查询网络发布数据是否携带有空白数据标识；当网络发布数据未携带有空白数据标识时，则将网络发布数据与预先建立的敏感数据库中的标准敏感数据进行匹配；当为未匹配成功时，则根据预设提取逻辑提取网络发布数据中的特殊字符，并删除特殊字符。

在一个实施例中，处理器执行计算机程序时所涉及的网络数据审核模型的生成方式包括：获取历史数据以及历史数据对应的历史审核结果；将历史数据进行分词处理得到对应的历史序列，并对每一历史序列进行处理得到对应的历史向量；将历史向量分别进行排列组合得到组合向量，通过激活函数对组合向量进行处理得到目标向量；对目标向量以及历史审核结果进行训练得到网络数据审核模型。

在一个实施例中，处理器执行计算机程序时所实现的对网络发布数据分别进行分词处理得到对应的分词序列，包括：获取多个预设分词逻辑，根据多个预设分词逻辑对网络发布数据进行分词处理得到多个词语序列，并提取网络发布数据中的候选词语；根据预先存储的候选词语与概率值的对应关系得到与候选词语对应的概率值；根据与候选词语对应的概率值计算各个词语序列的概率值；选取词语序列的概率值最大的词语序列作为分词序列。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：接收终端发送的网络发布数据，网络发布数据携带有数据类型标识；选取与数据类型标识对应的网络数据审核模型；对网络发布数据分别进行分词处理得到对应的分词序列，将分词序列分别输入至网络数据审核模型中得到对应的分词审核结果，分词处理包括词语分词处理和字符分词处理；将分词审核结果输入至权重分配模型中得到与每一分词审核结果对应的分词权重；根据分词审核结果和分词权重得到与网络发布数据对应的目标审核结果；根据目标审核结果判断网络发布数据是否需要删除，若需要，则删除网络发布数据。

在一个实施例中，计算机程序被处理器执行时所实现的对网络发布数据分别进行分词处理得到对应的分词序列，将分词序列分别输入至网络数据审核模型中得到对应的分词审核结果，包括：对网络发布数据分别进行分词处理得到对应的分词序列，并统计每一分词序列中的第一分词数量；当存在所述分词序列对应的第一分词数量未达到预设值时，则将对应的分词序列转化为初始分词向量；获取与分词序列对应的预先存储的补充元素，通过补充元素对初始分词向量进行补充得到目标向量；将目标向量输入至网络数据审核模型中得到分词审核结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当存在分词序列对应的第一分词数量大于预设值时，则比较分词序列中的分词得到重复分词，并删除重复分词；统计删除重复分词之后的分词序列中的第二分词数量；当第二分词数量仍大于预设值时，则计算第二分词数量与预设值的差值；从删除重复分词之后的分词序列中继续删除与差值对应数量的分词。

在一个实施例中，计算机程序被处理器执行时所实现的选取与数据类型标识对应的网络数据审核模型之前，还包括：查询网络发布数据是否携带有空白数据标识；当网络发布数据未携带有空白数据标识时，则将网络发布数据与预先建立的敏感数据库中的标准敏感数据进行匹配；当为未匹配成功时，则根据预设提取逻辑提取网络发布数据中的特殊字符，并删除特殊字符。

在一个实施例中，计算机程序被处理器执行时所涉及的网络数据审核模型的生成方式包括：获取历史数据以及历史数据对应的历史审核结果；将历史数据进行分词处理得到对应的历史序列，并对每一历史序列进行处理得到对应的历史向量；将历史向量分别进行排列组合得到组合向量，通过激活函数对组合向量进行处理得到目标向量；对目标向量以及历史审核结果进行训练得到网络数据审核模型。

在一个实施例中，计算机程序被处理器执行时所实现的对网络发布数据分别进行分词处理得到对应的分词序列，包括：获取多个预设分词逻辑，根据多个预设分词逻辑对网络发布数据进行分词处理得到多个词语序列，并提取网络发布数据中的候选词语；根据预先存储的候选词语与概率值的对应关系得到与候选词语对应的概率值；根据与候选词语对应的概率值计算各个词语序列的概率值；选取词语序列的概率值最大的词语序列作为分词序列。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种网络发布数据处理方法，所述方法包括：

选取与所述数据类型标识对应的网络数据审核模型；

对所述网络发布数据分别进行分词处理得到对应的分词序列，将所述分词序列分别输入至所述网络数据审核模型中得到对应的分词审核结果，所述分词处理包括词语分词处理和字符分词处理，包括将网络发布数据分别进行词语分词处理和字符分词处理得到词语序列和字符序列，分别将词语序列和字符序列输入至网络数据审核模型中得到与词语序列对应的分词审核结果和字符序列对应的分词审核结果；

根据所述目标审核结果判断所述网络发布数据是否需要删除，若需要，则删除所述网络发布数据；

所述对所述网络发布数据分别进行分词处理得到对应的分词序列，将所述分词序列分别输入至所述网络数据审核模型中得到对应的分词审核结果，包括：

将所述目标向量输入至所述网络数据审核模型中得到分词审核结果；

所述方法还包括：

统计删除重复分词之后的分词序列中的第二分词数量；

从删除重复分词之后的分词序列中继续删除与所述差值对应数量的分词；

所述选取与所述数据类型标识对应的网络数据审核模型之前，还包括：

查询所述网络发布数据是否携带有空白数据标识；

2.根据权利要求1所述的方法，其特征在于，所述网络数据审核模型的生成方式包括：

获取历史数据以及所述历史数据对应的历史审核结果；

3.根据权利要求1所述的方法，其特征在于，所述对所述网络发布数据分别进行分词处理得到对应的分词序列，包括：

选取词语序列的概率值最大的词语序列作为分词序列。

4.一种网络发布数据处理装置，其特征在于，所述装置包括：

分词审核结果获取模块，用于对所述网络发布数据分别进行分词处理得到对应的分词序列，将所述分词序列分别输入至所述网络数据审核模型中得到对应的分词审核结果，所述分词处理包括词语分词处理和字符分词处理，包括将网络发布数据分别进行词语分词处理和字符分词处理得到词语序列和字符序列，分别将词语序列和字符序列输入至网络数据审核模型中得到与词语序列对应的分词审核结果和字符序列对应的分词审核结果；

数据处理模块，用于根据所述目标审核结果判断所述网络发布数据是否需要删除，若需要，则删除所述网络发布数据；

所述分词审核结果获取模块包括：

分词审核结果获取单元，用于将所述目标向量输入至所述网络数据审核模型中得到分词审核结果；

所述分词审核结果获取模块还包括：

重复分词处理单元，用于当存在所述分词序列对应的所述第一分词数量大于所述预设值时，则比较所述分词序列中的分词得到重复分词，并删除所述重复分词；

第二统计单元，用于统计删除重复分词之后的分词序列中的第二分词数量；

差值计算单元，用于当所述第二分词数量仍大于所述预设值时，则计算所述第二分词数量与所述预设值的差值；

删除单元，用于从删除重复分词之后的分词序列中继续删除与所述差值对应数量的分词；

所述装置还包括：

查询模块，用于查询所述网络发布数据是否携带有空白数据标识；

匹配模块，用于当所述网络发布数据未携带有空白数据标识时，则将所述网络发布数据与预先建立的敏感数据库中的标准敏感数据进行匹配；

删除模块，用于当未匹配成功时，则根据预设提取逻辑提取所述网络发布数据中的特殊字符，并删除所述特殊字符。

5.根据权利要求4所述的装置，其特征在于，所述装置还包括：

模型训练模块，用于获取历史数据以及所述历史数据对应的历史审核结果；将所述历史数据进行分词处理得到对应的历史序列，并对每一所述历史序列进行处理得到对应的历史向量；将所述历史向量分别进行排列组合得到组合向量，通过激活函数对所述组合向量进行处理得到目标向量；对所述目标向量以及所述历史审核结果进行训练得到网络数据审核模型。

6.根据权利要求4所述的装置，其特征在于，所述分词审核结果获取模块包括：

预分词单元，用于获取多个预设分词逻辑，根据多个所述预设分词逻辑对所述网络发布数据进行分词处理得到多个词语序列，并提取所述网络发布数据中的候选词语；

第一概率获取单元，用于根据预先存储的候选词语与概率值的对应关系得到与所述候选词语对应的概率值；

第二概率获取单元，用于根据与所述候选词语对应的概率值计算各个词语序列的概率值；

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下方法步骤：

选取与所述数据类型标识对应的网络数据审核模型；

所述方法还包括：

统计删除重复分词之后的分词序列中的第二分词数量；

查询所述网络发布数据是否携带有空白数据标识；

8.根据权利要求7所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时所涉及的所述网络数据审核模型的生成方式包括：

获取历史数据以及所述历史数据对应的历史审核结果；

9.根据权利要求7所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时实现的所述对所述网络发布数据分别进行分词处理得到对应的分词序列，包括：

选取词语序列的概率值最大的词语序列作为分词序列。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。