CN111651981A

CN111651981A - 数据的审核方法、装置及设备

Info

Publication number: CN111651981A
Application number: CN201910124416.7A
Authority: CN
Inventors: 樊珈珮; 熊涛
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2020-09-11
Anticipated expiration: 2039-02-19
Also published as: CN111651981B

Abstract

本发明实施例提供一种数据的审核方法、装置及设备，方法包括：获取待审核数据以及待审核数据的标签信息；对待审核数据进行处理，获得与待审核数据相对应的词汇表征特征；对标签信息进行处理，获得与标签信息相对应的标签表征特征；根据词汇表征特征和标签表征特征确定与待审核数据相对应的目标数据，并对目标数据进行审核。通过获得与待审核数据相对应的词汇表征特征以及与标签信息相对应的标签表征特征；根据词汇表征特征和标签表征特征确定目标数据；由于目标数据是基于待审核数据和待审核数据的标签信息得到的，因此，在对目标数据进行审核时，可以有效地提高审核的准确率，并且也降低了数据审核所需要的人力成本。

Description

数据的审核方法、装置及设备

技术领域

本发明涉及互联网技术领域，尤其涉及一种数据的审核方法、装置及设备。

背景技术

随着多媒体信息的不断发展，电商平台发展的越来越迅速，电商平台可以实现商品的交易。为了提高交易率，电商平台上的卖家们都会编辑和发布有关商品的图片和/或文字信息，而为了保证电商平台运营的安全性，并且保障卖家在平台上销售的商品都是符合国家及平台的相关规定，电商平台会人工地对卖家发布的商品的标题及内容进行审核，判断其是否违规。

然而，随着商品的多样性发展，每天发布的商品量数可以达到以亿计，每天人工需要审核的商品量十分庞大，且商品审核的风险点高达十几万，不仅审核成本非常大，并且也降低了审核的质量和效率。

发明内容

本发明实施例提供一种数据的审核方法、装置及设备，用以降低数据审核所需要的人力成本，并且保证审核的质量和效率。

第一方面，本发明实施例提供一种数据的审核方法，包括：

获取待审核数据以及所述待审核数据的标签信息；

对所述待审核数据进行处理，获得与所述待审核数据相对应的词汇表征特征；

对所述标签信息进行处理，获得与所述标签信息相对应的标签表征特征；

根据所述词汇表征特征和所述标签表征特征确定与所述待审核数据相对应的目标数据，并对所述目标数据进行审核。

第二方面，本发明实施例提供一种数据的审核装置，包括：

获取模块，用于获取待审核数据以及所述待审核数据的标签信息；

处理模块，用于对所述待审核数据进行处理，获得与所述待审核数据相对应的词汇表征特征；

所述处理模块，还用于对所述标签信息进行处理，获得与所述标签信息相对应的标签表征特征；

审核模块，用于根据所述词汇表征特征和所述标签表征特征确定与所述待审核数据相对应的目标数据，并对所述目标数据进行审核。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的一种数据的审核方法。

第四方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第一方面中的一种数据的审核方法。

通过对所获取的待审核数据进行处理，获得与待审核数据相对应的词汇表征特征；对所获取的标签信息进行处理，获得与标签信息相对应的标签表征特征；而后根据词汇表征特征和标签表征特征确定与待审核数据相对应的目标数据，并对目标数据进行审核；由于目标数据是基于待审核数据和待审核数据的标签信息得到的，因此，在对目标数据进行审核时，可以有效地提高审核的准确率，保证了审核的质量和效率；并且也降低了数据审核所需要的人力成本，有效地提高了该审核方法的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本发明实施例提供的一种数据的审核系统的结构图；

图1b为本发明实施例提供的一种数据的审核方法的流程图；

图2为本发明实施例提供的对所述待审核数据进行处理，获得与所述待审核数据相对应的词汇表征特征的流程图；

图3为本发明实施例提供的对所述标签信息进行处理，获得与所述标签信息相对应的标签表征特征的流程图；

图4为本发明实施例提供的获取所述标签信息的全局特征、时序特征和局部特征的流程图；

图5为本发明实施例提供的利用word2vec算法对所述全局特征进行处理，获得所述时序特征和局部特征的流程图；

图6为本发明实施例提供的根据所述词汇表征特征和所述标签表征特征确定与所述待审核数据相对应的目标数据的流程图；

图7为本发明实施例提供的获取所述词汇表征特征与所述标签表征特征的关联度信息的流程图；

图8为本发明实施例提供的对所述关联度信息和所述词汇表征特征进行整合处理，获得与待审核数据相对应的目标数据的流程图一；

图9为本发明实施例提供的对所述关联度信息和所述词汇表征特征进行整合处理，获得与待审核数据相对应的目标数据的流程图二；

图10为本发明实施例提供的获取所述关联度信息的第一权重信息的流程图；

图11为本发明实施例提供的获取所述词汇表征特征的第二权重信息的流程图；

图12为本发明应用实施例提供的一种数据的审核方法的流程图；

图13为本发明应用实施例提供的一种数据的审核方法的示意图；

图14为本发明实施例提供的一种数据的审核装置的结构示意图；

图15为与图14所示实施例提供的数据的审核装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

随着电商平台的发展越来越快，商品的多样性发展，电商平台上每天发布的商品量数可以达到以亿计，每天人工需要审核的商品量十分庞大，且商品审核的风险点高达十几万，不仅审核成本非常大，并且也降低了审核的质量和效率。为了提高人审效果，现有对商品的分类方法主要是根据商品数据进行多分类，从而预测该商品数据属于每个风险的概率。这样不仅导致对商品数据进行预测的准确率较差，同时由于忽略了商品数据特征与标签信息之间的联系，使得对商品数据进行预测的结果不具有解释依据。

为了解决上述问题，参考附图1a所示，本实施例提供了一种可以实现数据审核方法的数据审核系统，该数据审核系统包括用户终端01和与用户终端01通信连接的审核装置02，其中，该用户终端01可以是手机、平板电脑、个人电脑等各种电子设备，而审核装置可以实现为软件、或者软件和硬件的组合。另外，用户终端01和审核装置02可以为建立在局域网上的客户端/服务器CS架构；或者，用户终端01和审核装置02也可以为建立在广域网上的浏览器/服务器BS架构，本领域技术人员可以根据具体的应用场景来选择不同的实现方式。

具体的：

用户终端01，用于检测用户输入的执行操作，并基于执行操作生成待审核数据，其中，待审核数据可以包括以下至少之一：文本特征、图片特征、视频特征、非结构化特征；在用户终端01获取到用户输入的待审核数据之后,可以将待审核数据发送至审核装置02。

其中，用户终端01上可以设置有与审核装置02相对应的应用程序或者应用网址，用户通过应用程序或者应用网址可以实现将所输入的待审核数据发送至审核装置02；举例来说，在用户想要在应用程序中发布一些信息时，例如：在电子商铺中发布商品信息；用户可以通过应用程序中的数据输入端口输入如下待审核数据：标题信息(例如：中盐、加碘日晒自然盐250g食盐、食用细海盐厨房调味品油酱醋)、产品ID信息以及相应的图片信息等等，在用户终端01获取上述的待审核数据之后，可以将待审核数据发送至审核装置02进行审核。

审核装置02，用于接收用户终端01发送的待审核数据,并可以对待审核数据进行分析处理,以识别待审核数据是否合法数据,若待审核数据为合法数据，则允许对待审核数据进行发布，若待审核数据为非法数据，则禁止对待审核数据进行发布。并且，审核装置02可以将分析处理结果以及相关信息返回至用户终端。

相对应的，用户终端01，还可以用于接收并显示审核装置02所发送的分析处理结果以及相关信息，以使得用户可以清楚、直观地获取到数据审核结果，便于用户基于数据审核结果对待审核数据进行修正与调整，进而提高了数据审核的质量和效率。

可选地,参考附图1b所示，在审核装置进行数据审核时，本实施例中的数据的审核方法可以包括：

S1：获取待审核数据以及待审核数据的标签信息；

其中，待审核数据可以包括以下至少之一：文本特征、图片特征、视频特征、非结构化特征。并且，对于待审核数据的标签信息而言，该标签信息为待审核数据的满足预设标准的标准标注结果，而上述的标签信息可以是对待审核数据进行预先审核之后所获取的审核结果；具体的，预先审核的具体实现可以包括：人工审核或者模型审核。例如：上述标签信息可以为人工预先对待审核数据进行标注审核所获得的审核结果；或者，上述标签信息也可以是利用预设模型对待审核数据进行分析处理后所获取的审核结果。

另外，本实施例对于获取待审核数据的具体实现方式不做限定，本领域技术人员可以根据具体的使用需求进行设置，例如：待审核数据可以存储在预设区域内，通过访问预设区域可以获取到待审核数据。或者，待审核数据也可以是存储在其他设备端内，通过与设备端的通信连接来获取到存储至设备端内的待审核数据，具体的，一种可实现的方式为：可以向设备端发送数据获取请求，使得设备端可以基于数据请求返回待审核数据；或者，另一种可实现的方式为：设备端可以主动将待审核数据发送至审核装置，从而使得审核装置可以主动地获取待审核数据。

S2：对待审核数据进行处理，获得与待审核数据相对应的词汇表征特征。

其中，待审核数据可以包括一个或多个句子，每个句子中可以一个或多个词汇，为了提高对待审核数据进行审核的精确度，在获取到待审核数据之后，可以对待审核数据进行分析处理，从而获取到与待审核数据相对应的词汇表征特征。具体的，参考附图2所示，本实施例中的对待审核数据进行处理，获得与待审核数据相对应的词汇表征特征可以包括：

S21：对待审核数据进行分词处理，获得与待审核数据相对应的分词信息。

利用现有技术中的分词方法对待审核数据进行分词处理，可以获取到与待审核数据相对应的分词信息，上述分词信息的数量为一个或多个。

S22：对分词信息进行处理，获得与待审核数据相对应的词汇表征特征。

其中，该词汇表征特征是对待审核数据进行分词处理后的词汇的表征特征。具体的，在获取到分词信息之后，可以利用word2vec算法或GloVe算法对分词信息进行处理，从而可以获取到与待审核数据相对应的词汇表征特征；需要说明的是，Word2vec算法是用来产生词向量的相关模型；而GloVe算法的全称叫Global Vectors for WordRepresentation，其是一个基于全局词频统计的词表征工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如：相似性、类比性等。因此，在利用word2vec算法或GloVe算法对分词信息进行处理后，所获取的词汇表征特征是一个向量信息。

S3：对标签信息进行处理，获得与标签信息相对应的标签表征特征。

其中，标签表征特征为标签信息的表征特征。在获取到标签信息之后，可以对标签信息进行处理，并根据处理结果来获取与标签信息相对应的标签表征特征，具体的，本实施例对于对标签信息进行处理的具体实现方式不做限定，本领域技术人员可以根据具体的设计需求进行设置，例如：可以对标签信息进行分词处理，获得分词标签，利用word2vec算法或GloVe算法对分词标签进行处理，从而可以获取到与标签信息相对应的标签表征特征。较为优选的，参考附图3所示，本实施例中的对标签信息进行处理，获得与标签信息相对应的标签表征特征可以包括：

S31：对标签信息进行分词处理，获得与标签信息相对应的分词标签。

利用现有技术中的分词方法对标签信息进行分词处理，可以获取到与标签信息相对应的分词标签信息，上述分词标签信息的数量为一个或多个。

S32：获取分词标签的全局特征、时序特征和局部特征。

在获取到分词标签之后，可以对分词标签进行分析处理，从而可以获取到分词标签的全局特征、时序特征和局部特征；其中，全局特征是用于反映标签信息整体的特征，局部特征是用于反映标签信息局部的特征，时序特征是用于反映标签信息时序逻辑的特征。具体的，参考附图4所示，本实施例中的获取分词标签的全局特征、时序特征和局部特征可以包括：

S321：对分词标签进行one-hot编码处理，获得全局特征。

其中，one-hot编码处理为一种对离散类特征的编码方式。具体的，对于一种指示性特征，该特征只有有限(N)种取值，可以将该特征从原来的1维编码，变为N维编码。其中，N维向量的每一维只取0和1两种值，表示是否取原始特征在该维度对应的那个值。在one-hot编码转换的N维向量中，只有一维取值为1，其余皆为0。在利用one-hot编码方式对分词标签进行编码之后，可以获得全局特征，全局特征中的每个元素只会有0和1两种取值。

S322：利用word2vec算法对全局特征进行处理，获得时序特征和局部特征。

在获取到全局特征之后，可以利用word2vec算法对全局特征进行处理，以获得时序特征和局部特征，具体的，参考附图5所示，本实施例中的利用word2vec算法对全局特征进行处理，获得时序特征和局部特征可以包括：

S3221：利用双向门控循环单元BIGRU算法对全局特征进行处理，获得时序特征。

双向门控循环单元(bidirectional gated recurrent units，简称BIGRU)是一种双向的门控循环神经网络，利用BIGRU算法对全局特征进行处理，可以准确地获取到时序特征。

S3222：利用一维卷积神经网络CNN算法对时序特征进行处理，获得局部特征。

通过上述方式对全局特征进行处理，可以准确、有效地获取到时序特征和局部特征，从而保证了对数据进行审核的质量和效率。当然的，本领域技术人员也可以采用其他的方式来获得全局特征、局部特征和时序特征，只要能够保证全局特征、局部特征和时序特征获取的准确可靠性即可，在此不再赘述。

S33：将全局特征、时序特征和局部特征整合处理为与标签信息相对应的标签表征特征。

在获取到全局特征、时序特征和局部特征之后，可以对全局特征、时序特征和局部特征进行整合处理，并将整合处理后的结果确定为与标签信息相对应的标签表征特征，可以理解的是，基于全局特征、时序特征和局部特征所获取到的标签表征特征是一个向量信息。

S4：根据词汇表征特征和标签表征特征确定与待审核数据相对应的目标数据，并对目标数据进行审核。

在获取到词汇表征特征和标签表征特征之后，可以对词汇表征特征和标签表征特征进行分析处理，并根据分析处理结果来确定与待审核数据相对应的目标数据。其中，本实施例对于根据词汇表征特征和标签表征特征确定与待审核数据相对应的目标数据的具体实现方式不做限定，本领域技术人员可以根据具体的设计需求进行设置，例如：可以获取到词汇表征特征与标签表征特征的相似度或者关联度，根据词汇表征特征和标签表征特征的相似度或者关联度对待审核数据进行处理，从而获取到与待审核数据相对应的目标数据，此时的目标数据是基于待审核数据与标签信息所获取的数据。当然的，本领域技术人员还可以采用其他的方式来获取与待审核数据相对应的目标数据，只要能够保证目标数据获取的准确可靠性即可。

具体的，可以利用审核模型对目标数据进行审核。其中，审核模型是基于数据进行预先训练得到的；在获取到目标数据之后，可以利用审核模型对目标数据进行审核，以判断待审核数据是否违规。可以理解的是，本实施例中的方法还可以包括：若对目标数据进行审核的审核结果为目标数据违规，则停止对目标数据的发布操作；若对目标数据进行审核的审核结果为目标数据符合规则，则允许对目标数据进行发布操作。

本实施例提供的数据的审核方法，通过对所获取的待审核数据进行处理，获得与待审核数据相对应的词汇表征特征；对所获取的标签信息进行处理，获得与标签信息相对应的标签表征特征；而后根据词汇表征特征和标签表征特征确定与待审核数据相对应的目标数据，并对目标数据进行审核；由于目标数据是基于待审核数据和待审核数据的标签信息得到的，因此，在对目标数据进行审核时，可以有效地提高对数据进行审核的准确率，保证了审核的质量和效率；并且也降低了数据审核所需要的人力成本，有效地提高了该审核方法的实用性。

图6为本发明实施例提供的根据词汇表征特征和标签表征特征确定与待审核数据相对应的目标数据的流程图；在上述实施例的基础上，继续参考附图6所示，本实施例对于目标数据的具体确定方式不做限定，本领域技术人员可以根据具体的设计需求和应用需求进行任意设置，较为优选的，本实施例中的根据词汇表征特征和标签表征特征确定与待审核数据相对应的目标数据可以包括：

S41：获取词汇表征特征与标签表征特征的关联度信息。

其中，关联度信息用于表征词汇表征特征与标签表征特征的关联程度，由于词汇表征特征和标签表征特征均为向量信息，因此，参考附图7所示，本实施例中的获取词汇表征特征与标签表征特征的关联度信息可以包括：

S411：获取词汇表征特征与标签表征特征之间的距离信息。

由于词汇表征特征和标签表征特征均为向量信息，因此，可以获取到两个向量信息之间的距离信息，其中，距离信息包括以下至少之一：余弦距离、欧氏距离、马氏距离；当然的，本领域技术人员还可以根据具体的设计需求获取词汇表征特征与标签表征特征的其他举例信息，在此不再赘述。

S412：根据距离信息确定词汇表征特征与标签表征特征的关联度信息。

在获取到距离信息之后，可以根据距离信息来确定词汇表征特征与标签表征特征之间的关联度信息。其中，一种可实现的方式为：将距离信息直接确定为词汇表征特征与标签表征特征之间的关联度信息，即距离信息＝关联度信息。或者，又一种可实现的方式为：将距离信息的预设倍数确定为词汇表征特征与标签表征特征之间的关联度信息，即距离信息*K＝关联度信息，其中,K为预设的倍数参数，并且，K>0。或者，另一种可实现的方式为：将距离信息按照预设公式进行处理，获得词汇表征特征与标签表征特征之间的关联度信息，即关联度信息＝K*距离信息+A，其中,K为预设的倍数参数，并且，K>0，A为预设参数。当然的，本领域技术人员还可以采用其他的方式来确定词汇表征特征与标签表征特征的关联度信息，只要能够保证关联度信息获取的准确可靠性即可，在此不再赘述。

S42：对关联度信息和词汇表征特征进行整合处理，获得与待审核数据相对应的目标数据。

在获取到关联度信息之后，可以对关联度信息和词汇表征特征进行整合处理，从而可以获取到与待审核数据相对应的目标数据。具体的，参考附图8所示，一种可实现的方式为：对关联度信息和词汇表征特征进行整合处理，获得与待审核数据相对应的目标数据可以包括：

S421：获取关联度信息和词汇表征特征的平均值。

S422：将平均值确定为与待审核数据相对应的目标数据。

具体的，关联度信息和词汇表征特征均是向量信息，从而可以对关联度信息与词汇表征特征的向量进行取平均值处理，并将所获得的平均值确定为目标数据。

又一种实现方式为，参考附图9所示，本实施例中的对关联度信息和词汇表征特征进行整合处理，获得与待审核数据相对应的目标数据可以包括：

S423：获取关联度信息的第一权重信息和词汇表征特征的第二权重信息。

其中，本实施例对于关联度信息的第一权重信息的具体获取方式不做限定，本领域技术人员可以根据具体的设计需求进行设置，例如：第一权重信息可以为预先设置的，并且该第一权重信息和关联度信息的对应关系可以存储在预设区域内，通过访问预设区域可以获取到第一权重信息；或者，第一权重信息可以是对关联度信息进行分析处理后获得的，具体的，参考附图10所示，本实施例中的获取关联度信息的第一权重信息可以包括：

S4231：获取关联度信息的第一预设频率或第一预设关注度。

S4232：根据第一预设频率或者第一预设关注度确定第一权重信息。

具体的，在确定关联度信息之后，可以对关联度信息进行分析处理，从而可以获取到关联度信息的第一预设频率或者第一预设关注度，例如：可以利用频率分析算法对关注度信息进行分析处理，从而获取到关注度信息的第一预设频率。在获取到第一预设频率或者第一预设关注度时，可以根据第一预设频率或第一预设关注度来确定关联度信息的第一权重信息；其中，第一权重信息可以与第一预设频率或者第一预设关注度呈正比，即第一预设频率或者第一预设关注度越高，第一权重信息越大。

相类似的，本实施例对于词汇表征特征的第二权重信息的具体获取方式不做限定，本领域技术人员可以根据具体的设计需求进行设置，例如：第二权重信息可以为预先设置的，并且该第二权重信息和词汇表征特征的对应关系可以存储在预设区域内，通过访问预设区域可以获取到第二权重信息；或者，第二权重信息可以是对词汇表征特征进行分析处理后获得的，具体的，参考附图11所示，本实施例中的获取词汇表征特征的第二权重信息可以包括：

S4233：获取词汇表征特征的第二预设频率或第二预设关注度。

S4234：根据第二预设频率或者第二预设关注度确定第二权重信息。

具体的，在确定词汇表征特征之后，可以对词汇表征特征进行分析处理，从而可以获取到词汇表征特征的第二预设频率或者第二预设关注度，例如：可以利用频率分析算法对词汇表征特征进行分析处理，从而获取到词汇表征特征的第二预设频率。在获取到第二预设频率或者第二预设关注度时，可以根据第二预设频率或第二预设关注度来确定词汇表征特征的第二权重信息；其中，第二权重信息可以与第二预设频率或者第二预设关注度呈正比，即第二预设频率或者第二预设关注度越高，第二权重信息越大。

S424：根据第一权重信息和第二权重信息确定关联度信息与词汇表征特征的加权平均值。

S425：将加权平均值确定为与待审核数据相对应的目标数据。

具体的，在获取到第一权重信息和第二权重信息之后，可以对关注度信息和词汇表征特征的向量进行加权平均处理，并将所获取的加权平均值确定为目标数据。

当然的，本领域技术人员也可以采用其他的方式来获取目标数据，例如：利用长短期记忆网络LSTM算法对关联度信息和词汇表征特征进行整合处理，获得与待审核数据相对应的目标数据；或者，利用门控循环单元GRU算法对关联度信息和词汇表征特征进行整合处理，获得与待审核数据相对应的目标数据；只要能够保证目标数据获取的准确可靠性即可，在此不再赘述。

通过上述方式获取目标数据，不仅保证了目标数据获取的准确可靠性，并且实现方式多种多样，使得用户可以根据不同的设计需求采用不同的方式来获取目标数据，有效地提高了该审核方法使用的灵活可靠性。

具体应用时，参考附图12-13所示，本应用实施例通过了一种数据的审核方法，该方法包括如下步骤：

(1)获取待审核数据和标签信息，其中，标签信息与待审核数据相对应。

(2)对待审核数据和标签信息进行分析处理，获得与待审核数据相对应的分词信息X和与标签信息相对应的分词标签Y。

(3)利用word2vec算法或GloVe算法分别对X和Y进行处理，获得与X相对应的词汇表征特征V和与Y相对应标签表征特征C。

其中，除了word2vec算法和GloVe算法来获取V和C之外，还可以采用其他的方法来获取，例如：汉语语言模型N-gram等等。

(4)对V和C进行处理，获得V与C的关联度信息G。

(5)将关联度信息G作为一个参数β与V进行整合处理，获得目标数据Z。

(6)利用分类器对目标数据T进行审核，获得分类结果T。

其中，分类器可以为softmax分类器，logistics regression分类器等等。

可以理解的是，本应用实施例中的方法还可以包括：

(7)根据分类结果和审核过程，获取与分类结果相对应的分类规则和分类标准，并可以将分类规则、分类标准与分类结果T向用户进行显示，例如：可以向用户显示以下信息：风险类别说明、标题风险相关的词、描述中风险相关词、图片风险相关点、违规点等等；使得用户可以直接地了解到分类结果的分类依据和分类说明，便于用户根据分类依据和分类说明对数据进行修改和调整。

本应用实施例提供的数据审核方法，在根据数据特征进行风险审核的的同时，加入了标签信息的特征，具体通过计算词汇表征特征和标签表征特征之间的相关性，可以获取到每个数据特征的权重，这样不仅提高了对数据审核的准确率，并且所获取的相关性信息和特征重要程度具有可解释性，这些信息可以作为辅助信息外化提供给用户，使得用户可以直接地了解到审核结果的依据信息，便于用户根据依据信息对数据进行修改和调整，从而提高了该方法的实用性。

图14为本发明实施例提供的一种数据的审核装置的结构示意图；参考附图14所示，本实施例提供了一种数据的审核装置，该审核装置可以执行上述的数据的审核方法，具体的，该审核装置可以包括：

获取模块11，用于获取待审核数据以及待审核数据的标签信息；

处理模块12，用于对待审核数据进行处理，获得与待审核数据相对应的词汇表征特征；

处理模块12，还用于对标签信息进行处理，获得与标签信息相对应的标签表征特征；

审核模块13，用于根据词汇表征特征和标签表征特征确定与待审核数据相对应的目标数据，并对目标数据进行审核。

可选地，在处理模块12对待审核数据进行处理，获得与待审核数据相对应的词汇表征特征时，该处理模块12可以用于执行：对待审核数据进行分词处理，获得与待审核数据相对应的分词信息；对分词信息进行处理，获得与待审核数据相对应的词汇表征特征。

可选地，在处理模块12对标签信息进行处理，获得与标签信息相对应的标签表征特征时，该处理模块12可以用于执行：对标签信息进行分词处理，获得与标签信息相对应的分词标签；获取分词标签的全局特征、时序特征和局部特征；将全局特征、时序特征和局部特征整合处理为与标签信息相对应的标签表征特征。

可选地，在处理模块12获取分词标签的全局特征、时序特征和局部特征时，该处理模块12可以用于执行：对分词标签进行one-hot编码处理，获得全局特征；利用word2vec算法对全局特征进行处理，获得时序特征和局部特征。

可选地，在处理模块12利用word2vec算法对全局特征进行处理，获得时序特征和局部特征时，该处理模块12可以用于执行：利用双向门控循环单元BIGRU算法对全局特征进行处理，获得时序特征；利用一维卷积神经网络CNN算法对时序特征进行处理，获得局部特征。

可选地，在审核模块13根据词汇表征特征和标签表征特征确定与待审核数据相对应的目标数据时，该审核模块13可以用于执行：获取词汇表征特征与标签表征特征的关联度信息；对关联度信息和词汇表征特征进行整合处理，获得与待审核数据相对应的目标数据。

可选地，在审核模块13获取词汇表征特征与标签表征特征的关联度信息时，该审核模块13可以用于执行：获取词汇表征特征与标签表征特征之间的距离信息；根据距离信息确定词汇表征特征与标签表征特征的关联度信息。

其中，距离信息包括以下至少之一：余弦距离、欧氏距离、马氏距离。

可选地，在审核模块13对关联度信息和词汇表征特征进行整合处理，获得与待审核数据相对应的目标数据时，该审核模块13可以用于执行：获取关联度信息和词汇表征特征的平均值；将平均值确定为与待审核数据相对应的目标数据。

可选地，在审核模块13对关联度信息和词汇表征特征进行整合处理，获得与待审核数据相对应的目标数据时，该审核模块13可以用于执行：获取关联度信息的第一权重信息和词汇表征特征的第二权重信息；根据第一权重信息和第二权重信息确定关联度信息与词汇表征特征的加权平均值；将加权平均值确定为与待审核数据相对应的目标数据。

可选地，在审核模块13获取关联度信息的第一权重信息时，该审核模块13可以用于执行：获取关联度信息的第一预设频率或第一预设关注度；根据第一预设频率或者第一预设关注度确定第一权重信息。

可选地，在审核模块13获取词汇表征特征的第二权重信息时，该审核模块13可以用于执行：获取词汇表征特征的第二预设频率或第二预设关注度；根据第二预设频率或者第二预设关注度确定第二权重信息。

其中，待审核数据包括以下至少之一：文本特征、图片特征、视频特征、非结构化特征。

图14所示装置可以执行图1-图13所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图13所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图13所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图14所示数据的审核装置的结构可实现为一电子设备，该电子设备可以是手机、平板电脑、服务器等各种设备。如图15所示，该电子设备可以包括：第一处理器21和第一存储器22。其中，第一存储器22用于存储支持电子设备执行上述图1-图13所示实施例中提供的数据的审核方法的程序，第一处理器21被配置为用于执行第一存储器22中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第一处理器21执行时能够实现如下步骤：

获取待审核数据以及待审核数据的标签信息；

对待审核数据进行处理，获得与待审核数据相对应的词汇表征特征；

对标签信息进行处理，获得与标签信息相对应的标签表征特征；

根据词汇表征特征和标签表征特征确定与待审核数据相对应的目标数据，并对目标数据进行审核。

可选地，第一处理器21用于执行前述图1-图13所示实施例中的全部或部分步骤。

其中，电子设备的结构中还可以包括第一通信接口23，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图1-图13所示方法实施例中数据的审核方法所涉及的程序。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器，使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据的审核方法，其特征在于，包括：

获取待审核数据以及所述待审核数据的标签信息；

2.根据权利要求1所述的方法，其特征在于，对所述待审核数据进行处理，获得与所述待审核数据相对应的词汇表征特征，包括：

对所述待审核数据进行分词处理，获得与所述待审核数据相对应的分词信息；

对所述分词信息进行处理，获得与所述待审核数据相对应的词汇表征特征。

3.根据权利要求1所述的方法，其特征在于，对所述标签信息进行处理，获得与所述标签信息相对应的标签表征特征，包括：

对所述标签信息进行分词处理，获得与所述标签信息相对应的分词标签；

获取所述分词标签的全局特征、时序特征和局部特征；

将所述全局特征、时序特征和局部特征整合处理为与所述标签信息相对应的标签表征特征。

4.根据权利要求3所述的方法，其特征在于，获取所述分词标签的全局特征、时序特征和局部特征，包括：

对所述分词标签进行one-hot编码处理，获得所述全局特征；

利用word2vec算法对所述全局特征进行处理，获得所述时序特征和局部特征。

5.根据权利要求4所述的方法，其特征在于，利用word2vec算法对所述全局特征进行处理，获得所述时序特征和局部特征，包括：

利用双向门控循环单元BIGRU算法对所述全局特征进行处理，获得所述时序特征；

利用一维卷积神经网络CNN算法对所述时序特征进行处理，获得所述局部特征。

6.根据权利要求1所述的方法，其特征在于，根据所述词汇表征特征和所述标签表征特征确定与所述待审核数据相对应的目标数据，包括：

获取所述词汇表征特征与所述标签表征特征的关联度信息；

对所述关联度信息和所述词汇表征特征进行整合处理，获得与待审核数据相对应的目标数据。

7.根据权利要求6所述的方法，其特征在于，获取所述词汇表征特征与所述标签表征特征的关联度信息，包括：

获取所述词汇表征特征与所述标签表征特征之间的距离信息；

根据所述距离信息确定所述词汇表征特征与所述标签表征特征的关联度信息。

8.根据权利要求7所述的方法，其特征在于，所述距离信息包括以下至少之一：

余弦距离、欧氏距离、马氏距离。

9.根据权利要求6所述的方法，其特征在于，对所述关联度信息和所述词汇表征特征进行整合处理，获得与待审核数据相对应的目标数据，包括：

获取所述关联度信息和所述词汇表征特征的平均值；

将所述平均值确定为与所述待审核数据相对应的目标数据。

10.根据权利要求6所述的方法，其特征在于，对所述关联度信息和所述词汇表征特征进行整合处理，获得与待审核数据相对应的目标数据，包括：

获取所述关联度信息的第一权重信息和所述词汇表征特征的第二权重信息；

根据所述第一权重信息和所述第二权重信息确定所述关联度信息与所述词汇表征特征的加权平均值；

将所述加权平均值确定为与所述待审核数据相对应的目标数据。

11.根据权利要求10所述的方法，其特征在于，获取所述关联度信息的第一权重信息，包括：

获取所述关联度信息的第一预设频率或第一预设关注度；

根据所述第一预设频率或者第一预设关注度确定所述第一权重信息。

12.根据权利要求10所述的方法，其特征在于，获取所述词汇表征特征的第二权重信息，包括：

获取所述词汇表征特征的第二预设频率或第二预设关注度；

根据所述第二预设频率或者第二预设关注度确定所述第二权重信息。

13.根据权利要求1-12中任意一项所述的方法，其特征在于，所述待审核数据包括以下至少之一：

文本特征、图片特征、视频特征、非结构化特征。

14.一种数据的审核装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至13中任一项所述的数据的审核方法。