CN110309388B

CN110309388B - 数据对象信息违法风险识别方法、装置以及计算机系统

Info

Publication number: CN110309388B
Application number: CN201810195185.4A
Authority: CN
Inventors: 周幼静
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2024-04-05
Anticipated expiration: 2038-03-09
Also published as: CN110309388A

Abstract

本申请实施例提供了数据对象信息违法风险识别方法、装置以及计算机系统，其中，所述方法包括：获得用于对特定数据对象进行宣传的目标信息；从所述目标信息中进行待分析内容的提取；根据预置的违法风险识别模型对所述待分析内容进行分析，确定所述目标信息是否存在违法风险。通过本申请实施例，能够提高违法风险识别的准确率和识别效率，避免出现漏审问题。

Description

数据对象信息违法风险识别方法、装置以及计算机系统

技术领域

本申请涉及互联网信息识别技术领域，特别涉及数据对象信息违法风险识别方法、装置以及计算机系统。

背景技术

新《广告法》将互联网上具有宣传性质的信息发布行为纳入管理范畴，其明确了针对互联网信息发布违法行为的罚则规定，并且发布了针对互联网信息发布行为予以规范的条款。具体的，《广告法》第四十五条规定，“公共场所的管理者或者电信业务经营者、互联网信息服务提供者对其明知或者应知的利用其场所或者信息传输、发布平台发送、发布违反广告的，应当予以制止”，根据此规定，“互联网信息服务提供者”对利用其平台发布违法信息的行为有“主动审查和主动制止”的义务。

例如，根据新广告法，在宣传过程中使用的最大、最低、独家等一系列极限用语不得出现在数据对象列表页、数据对象的标题、副标题、主图、详情页以及数据对象包装等为主。基于此，互联网各大平台需要采取措施对其平台上商家发布的数据对象信息进行排查，以保证符合法律法规。

目前，大部分信息发布平台采用人工筛查方式进行信息风险识别，但由于审核量巨大，审核人员经验限制等因素，这种人工审核不仅费时费力，还存在很多漏审情况。

发明内容

基于此，本申请提出了数据对象信息违法风险识别方法、装置以及计算机系统，能够提高违法风险识别的准确率和识别效率，避免出现漏审问题。

本申请提供了一种数据对象信息违法风险识别方法，包括：

获得用于对特定数据对象进行宣传的目标信息；

从所述目标信息中进行待分析内容的提取；

根据预置的违法风险识别模型对所述待分析内容进行分析，确定所述目标信息是否存在违法风险。

一种数据对象信息违法风险处理方法，包括：

接收服务器提供的关于目标数据对象的目标信息存在违法风险的信息，其中，所述目标信息是用于对所述目标数据对象进行宣传的信息；

提供用于对所述目标信息进行修改的操作选项；

通过所述操作选项接收修改后的目标信息，并进行重新你对所述数据对象的目标信息进行发布。

一种数据对象信息违法风险识别装置，包括：

目标信息获得单元，用于获得用于对特定数据对象进行宣传的目标信息；

内容提取单元，用于从所述目标信息中进行待分析内容的提取；

风险识别单元，用于根据预置的违法风险识别模型对所述待分析内容进行分析，确定所述目标信息是否存在违法风险。

一种数据对象信息违法风险处理装置，包括：

风险信息接收单元，用于接收服务器提供的关于目标数据对象的目标信息存在违法风险的信息，其中，所述目标信息是用于对所述目标数据对象进行宣传的信息；

操作选项提供单元，用于提供用于对所述目标信息进行修改的操作选项；

重新发布单元，用于通过所述操作选项接收修改后的目标信息，并进行重新你对所述数据对象的目标信息进行发布。

一种计算机系统，该系统包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:

获得用于对特定数据对象进行宣传的目标信息；

从所述目标信息中进行待分析内容的提取；

与现有技术相比，本申请提供的技术方案具有以下优点：

在本申请的技术方案中，通过抓取数据对象用于宣传的目标信息，将数据对象的目标信息中提取出待分析内容输入至违法风险识别模型，利用该违法风险识别模型识别所述数据对象信息是否存在违法风险。这种利用风险识别模型自动识别出数据对象信息中是否存在违法风险的实现方式，相比传统的人工筛查的方式，能够提高违法风险识别的准确率识别效率，避免出现漏审情况。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请在实际应用中的场景示例图；

图2是本申请实施例提供的方法的流程图；

图3是本申请实施例提供的模型库中的违法风险识别模型的示意图；

图4是本申请实施例提供的知识库的示意图；

图5是本申请实施例提供的另一方法的流程图；

图6是本申请实施例提供的装置的示意图；

图7是本申请实施例提供的另一装置的示意图；

图8是本申请实施例提供的计算机系统的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例为了解决现有技术中人工对数据对象信息进行审核过程中存在的成本高、效率低、容易出现纰漏等问题，提供了自动对数据对象信息进行违法风险识别的方法。在该方法中，可以预先获得各种风险样本，然后通过机器学习的方式，获得违法风险识别模型。进而，便可以获得具体数据对象关联的用于宣传的目标信息，通过对目标信息进行内容提取，再通过违法风险识别模型对提取出的内容进行分析，即可确定出具体的数据对象信息中是否存在违法风险。通过这种方式，能够实现对信息风险的自动识别，从而可以提升效率，降低成本。下面对具体的实现方案进行详细介绍。

为了便于解释，下面先对本申请在实际中的应用场景进行介绍。

参见图1，其示出了本申请在实际应用中的场景示例图，本申请提供的风险识别方法可以应用于计算设备101中；从硬件实现上来讲，该计算设备101可以是服务器，计算机等设备；例如，该计算设备101可以是部署在互联网平台的业务系统中的服务器；若计算设备101为服务器，则在实际应用中，可以采用独立的机器，也可以采用集群服务器；该计算设备101也可以为终端设备，如计算机，笔记本等；从软件实现上来讲，该方法可以以应用程序的形式装载于该计算设备101中，该计算设备101通过运行应用程序的方式实现该方法。

若某个互联网平台需要对平台中即将发布或者已经发布的数据对象信息进行识别，就可以利用该计算设备101自动对数据对象信息进行风险识别。如图1所示，计算设备101先进行数据对象相关目标信息的抓取，然后，通过对目标信息进行内容提取，可以输入到先建立的违法风险识别模型中。具体实现时，违法风险识别模型可能有多个，可以通过模型库102的形式进行保存。在从目标信息中提取出待分析内容后，可以从模型库102中选择一个违法风险识别模型，将该数据对象的待分析内容输入至对应的违法风险识别模型中，利用该违法风险识别模型自动对该数据对象对应的待分析内容进行识别得到识别结果，该识别结果表示该数据对象目标信息是否存在风险。例如，在网络销售平台中利用该计算设备101对平台上发布的数据对象广告进行识别，以识别该数据对象广告是否存在广告风险。假设，一个化妆品，其数据对象广告包含文本信息，则可以利用相应的违法风险识别模型进行识别，识别出其是否具有夸大宣传等方面的风险；若数据对象广告中包含名人肖像，则利用违法风险识别模型对图像内容进行识别，识别出其是否具有侵犯肖像权的风险，等等。在针对每个数据对象广告进行识别之后，得到对应的识别结果，一个数据对象广告可能会存在一种广告风险，也可能会存在多种不同类型的风险；计算设备101针对数据对象广告保存其对应的识别结果，如图1中所示，该计算设备可以以列表的形式保存各个识别结果。例如，数据对象广告A具有夸大宣传风险，数据对象广告B具有侵犯肖像风险，数据对象广告C不具有风险，等等。由于利用违法风险识别模型自动识别数据对象广告，其识别速度快，尤其是应用于互联网平台中，在数据对象广告量较大的场景下，其识别效率较高，满足风险识别业务需求，再者，其识别准确率较高，能够避免人工识别时所出现的漏审，主观判断失误等问题。

实施例一

基于以上应用场景，本申请提供了一种数据对象信息违法风险识别方法，下面对该方法进行介绍。

参见图2，其示出了本申请实施例提供的一种数据对象信息违法风险识别方法的流程图，该方法可以应用于计算设备101中，如图2所示，该方法包括以下步骤：

S201、获得用于对数据对象进行宣传的目标信息；

本申请实施例提供的风险识别方法可以应用于任何一个需要进行风险识别的互联网平台中，例如，该方法可以应用于搜索平台、资讯平台、电商平台等会发布数据对象广告的平台中。具体的，所述用于对数据对象进行宣传的目标信息可以包括数据对象的标题信息，主图信息，包装物图片信息，和/或详情描述信息，等等。其中，所述详情描述信息中可以包括文本描述信息、图片描述信息、音频描述信息和/或视频描述信息。

在本申请实施例中，数据对象的目标信息通常可以是以数据对象的销售或者宣传为目的，通过向目标受众介绍有关数据对象的描述信息，突出数据对象的特性，以引起目标受众和潜在消费者的关注的广告；该数据对象可以是具有实际形态的物品类数据对象，也可以是没有实际形态的服务类数据对象。

具体实现时，可以通过多种途径获得所述目标信息，例如，针对即将发布的信息，可以采用消息同步或者数据库同步的方式抓取所述目标信息。或者，针对已经投放的信息，可以从数据对象信息投放日志中抓取所述目标信息。另外，还可以从目标数据对象信息页面中抓取所述目标信息，等等。其中，所述目标数据对象信息页面可以包括数据对象列表页面、详情页面等等。数据对象列表页面可以包括搜索结果页面、店铺页面、按类目进行检索的页面、参加某大型促销活动的数据对象列表页面，等等。

为了便于理解，下面以应用于电商平台为例对该方法的实现进行说明。

若电商平台需要针对已经在平台中发布的数据对象信息进行抓取，则可以通过页面抓取方式，从页面上抓取已经发布的数据对象的相关信息；例如，电商平台需要针对指定页面上的数据对象信息进行抓取，则可以抓取该指定页面上的数据对象的相关信息；再例如，电商平台需要针对某一类目数据对象的相关信息进行抓取，则可以利用计算设备抓取属于该指定类目的数据对象相关的页面，例如，指定类目的数据对象列表页面等，然后从页面中抓取具体数据对象的相关信息。其中，对于这种情况，可以采用静态页面抓取方式进行数据对象相关信息的获取，也即，从静态页面中抓取相关的数据对象的信息；其中，静态页面是指静态化方式实现的页面，其无需经过服务器的编译，直接加载到客户端上显示出来；例如，电商平台中的主页，分类页，产品详情页等等。

若电商平台需要针对即将在平台中发布的数据对象的相关信息进行抓取，则可以通过消息同步或者数据库同步地方式，从电商平台的业务系统中抓取即将发布的数据对象的相关信息。具体的，由于在电商平台中，商家要发布数据对象信息时，需要先向电商平台的业务系统中上传待投放的数据对象的信息，业务系统接收到商家上传数据对象的信息时，可以采用信息同步的方式向计算设备同步数据对象的信息，以使计算设备抓取该数据对象的信息。或者，业务系统接收到数据对象的信息之后，还可以将该数据对象的信息存储在数据库中，然后通过数据库同步的方式向计算设备同步该数据对象的信息。

对于电商平台中已经发布的数据对象的相关信息，还可以通过抓取投放日志的方式，来获取具体数据对象的相关信息。例如，电商平台在投放数据对象信息时，会生成数据对象信息投放日志，在该数据对象信息投放日志中记录有在电商平台中已投放的数据对象的相关信息，例如，该数据对象信息投放日志中记录有数据对象的具体信息，发布时间等信息。

S202、从所述目标信息中进行待分析内容的提取；

具体在抓取到数据对象的相关信息后，由于相关信息的形式可能有多种，例如，具体通常是文本信息、图片信息、音频信息、视频信息，等等，因此，还可以对这些信息进行预处理，从中提取出待分析的信息。具体的，如果目标信息是数据对象的标题或者文本描述信息等文本内容信息，则可以进行分词等处理。如果是图片信息，可以通过OCR等技术从中进行文本内容识别，将所识别出的文本内容信息确定为待分析内容。或者，还可以判断所述图片信息中是否存在与模特肖像相关的内容，如果存在，则从所述图片信息中提取出与所述模特肖像相关的图像内容，将所述图像内容确定为所述待分析内容。如果目标信息包括音频信息，则可以对所述音频信息进行语音识别，转化为文本内容信息，将所述转化得到的文本内容信息确定为待分析内容。如果目标信息包括视频信息，则对所述视频信息进行语音识别以及图像识别，然后将语音识别得到的文本内容信息，以及图像识别所得到的文本内容信息和/或与所述模特肖像相关的图像内容，确定为待分析内容。

S203：根据预置的违法风险识别模型对所述待分析内容进行分析，确定所述目标信息中是否存在违法风险。

在得到待分析内容后，便可以将其输入到具体的违法风险识别模型时，进而根据模型的输出结果，确定出当前的目标信息是否存在违法风险。具体的，如果待分析内容信息包括文本内容信息，则可以将所述文本内容信息输入到所述违法风险识别模型，由所述违法风险识别模型从所述文本内容信息中进行关键词识别，并根据关键词识别结果，确定所述目标信息中是否存在违法风险。例如，所述关键词可以根据具体法律中规定的非法情况进行确定，例如，法律规定数据对象的描述信息中不能存在夸大宣传的词，例如，“国家级”、“最高级”、“最佳”等，因此，可以将这种词语以及语义相近的词添加到识别模型中，用以识别出在这方面存在非法内容的数据对象信息。另外，还可以将一些在借用他人名义宣传时常用的表达句式等信息添加到识别模型中，用于对这种借用他人名义进行宣传的违法风险进行识别。

另外，如果待分析内容信息包括图像内容信息，则可以将所述图像内容信息输入到所述违法风险识别模型，由所述违法风险识别模型对所述图像内容进行人脸识别，或者目标人体器官识别，根据人脸或者人体器官识别结果，确定所述目标信息中是否存在违法风险。例如，可以判断出是否存在某些公众人物的肖像，是否存在一些涉黄的图像内容，等等。

如果所述待分析内容信息包括数据对象所属的类目信息以及所需资源信息，则可以将所述数据对象所属的类目信息以及所需资源信息输入到所述违法风险识别模型，由所述违法风险识别模型对同类目数据对象所需资源的正常区间信息进行判断，通过判断所述所需资源信息是否属于所述正常区域，确定所述目标信息中是否存在虚假宣传的违法风险。

具体实现时，由于对不同类型的待识别内容的识别算法方面通常具有比较大的差别，因此，所述违法风险识别模型可以有多个，分别用于识别不同类型的非法内容。例如，分别建立用于识别夸大宣传内容以及借用他人名义进行宣传的内容的识别模型，用于识别涉黄图像的识别模型，用于识别借用公众人物肖像的识别模型，用于识别虚假信息的识别模型，等等。

在从数据对象相关信息中提取出具体的待分析内容后，还可以根据这种待分析内容的类型信息，确定可能会具有的至少一种目标风险类型，以便通过所述目标风险类型对应的违法风险识别模型对所述待分析内容进行识别。不同的违法风险识别模型用于识别不同类型的非法内容。例如，如果待分析内容是文本内容，则可能会具有的非法内容类型可能是存在夸大宣传的内容、借用他人名义的内容、虚假宣传的内容等，因此，可以将上述各种类型的非法内容对应的识别模型，对该待分析内容进行识别，也即，可以将待分析内容分别输入到上述三个识别模型中，分别得到各自的识别结果。如果待分析内容是图像内容，则可能会具有的非法内容类型包括：存在侵犯肖像权的图像，或者，存在涉黄的图像等，因此，所需用到的模型可以包括用于识别涉黄图像的识别模型，用于识别借用公众人物肖像的识别模型。进而，可以将待分析的图像内容分别输入到上述两个识别模型中，分别得到各自的识别结果，等等。

为便于更好的理解，下面对这几种违法风险识别模型的功能进行简单说明。

其中，夸大宣传及借用他人名义宣传的识别模型能够识别出数据对象信息中是否包含夸大宣传用语，若包含，则识别出该数据对象信息具有夸大宣传的风险。例如，新广告法规定，若数据对象信息中使用“国家级”、“最高级”、“最佳”等绝对化用语，则该数据对象信息就存在涉及夸大宣传的风险；比如某化妆品的广告宣传用语为“国内最高级品牌化妆品”，则该广告就属于夸大宣传类数据对象广告，等等。另外，如果某数据对象的宣传语中包括“王某某力荐”，其中，“王某某”为社会知名的公众人物，则该广告可能存在借用他人名义宣传的违法风险，等等。

其中，涉黄类型的违法风险识别模型能够识别出数据对象相关信息中是否包含新广告法所禁止的涉嫌淫秽、色情等黄色内容，若包含，则识别出该数据对象广告具有涉黄风险。

其中，虚假广告类型的违法风险识别模型能够识别出数据对象信息所宣传的数据对象是否是真实的，即是否为真实存在的物品或者服务，若否，则识别出该数据对象信息具有虚假宣传的违法风险。虚假宣传具体是指具有消息虚假、品质虚假、功能虚假、价格虚假、证明材料虚假等形式的宣传内容；例如，某网站上投放关于低价旅游类数据对象信息，则利用该虚假广告违法风险识别模型识别出该数据对象存在价格虚假的问题，则识别出该广告具有虚假广告风险。

其中，侵权类型的违法风险识别模型能够识别出数据对象信息中是否包含涉及侵权问题的内容，若包含，则识别出该数据对象的相关信息具有侵权类型的违法风险；例如，某数据对象的相关信息中包含人物肖像，则利用该侵权类型违法风险识别模型能够识别出该数据对象的相关信息是否具有使用该人物肖像的合法权利，具体可以根据商家提供的人物肖像授权文件进行识别。

考虑到在一些互联网平台中，数据对象广告内容丰富多样，为了更好地识别数据对象广告可能存在的风险，提高识别结果的完整性和可靠性，本申请实施例还提供了一种可选的实现方式，具体的，建立了模型更丰富的模型库，参见图3，在该模型库中存储有粗粒度违法风险识别模型集和细粒度违法风险识别模型集。

其中，粗粒度广告违法风险识别模型集包括以下一种或者多种模型：

涉黄违法风险识别模型、夸大宣传违法风险识别模型、侵权违法风险识别模型、以及虚假广告违法风险识别模型；这几种模型的具体功能可以参见上文描述，此处不再赘述。

而细粒度广告违法风险识别模型集包括以下一种或者多种模型：

行业违法风险识别模型或者区域违法风险识别模型。

其中，行业违法风险识别模型用于识别数据对象信息是否具有该数据对象所属行业的违法风险；区域违法风险识别模型用于识别数据对象信息中是否具有该数据对象相关区域规定的违法风险。

在实际应用中，可以从模型库中先选择粗粒度违法风险识别模型，再调用细粒度违法风险识别模型进行识别。则在上述方法的基础上，该方法还可以包括：通过对所述的待分析内容进行预处理，识别所述数据对象所属行业和/或所面向的销售区域信息；根据所述数据对象所属行业和/或所面向的销售区域信息，从所述细粒度违法风险识别模型集合中调用匹配的违法风险识别模型，利用所述违法风险识别模型识别所述数据对象信息的待分析内容得到识别结果，所述识别结果用于表示所述数据对象的信息是否存在违法风险。

例如，针对一款猪肉的数据对象信息，首先选择粗粒度的违法风险识别模型集中的违法风险识别模型对该数据对象信息的可能存在的各种类型的违法风险进行识别，然后再选择细粒度的违法风险识别模型集中的违法风险识别模型对该数据对象信息可能存在违反一些行业或者区域特殊规定的违法风险进行识别。假设，识别该数据对象所销售的区域为伊斯兰国家地区，而伊斯兰国家地区是禁止食用猪肉类食品的，则识别出该数据对象信息具有一定风险；假设若识别该数据对象所销售的区域为非伊斯兰国家地区，则识别出该数据对象信息不具有风险，等等。

当然，针对一些不涉及特定行业，或者特定销售区域的数据对象，也可以仅从模型库中选择粗粒度的违法风险识别模型对数据对象信息中的待识别内容进行识别。例如，某茶叶商家在其数据对象信息中使用了“国家级顶级毛峰”等词语，则选择粗粒度的违法风险识别模型集中的夸大宣传违法风险识别模型进行风险识别即可，可以不使用细粒度的识别。

通过违法风险识别模型对数据对象信息进行风险识别之后，得到风险识别结果；这里需要说明的是，利用一个违法风险识别模型对数据对象信息进行一次识别就会得到一个风险识别结果，该风险识别结果能够标识该数据对象信息是否存在某种类型的违法风险，如果存在某种类型的违法风险，该风险识别结果还可以包括该数据对象信息中具体涉及该类型违法风险的局部信息内容。

例如，一个数据对象信息中包括文本类型的广告词，该广告词中包括“最高级”的词语，利用夸大宣传违法风险识别模型识别后，得到的识别结果具体为，该数据对象信息具有夸大宣传风险，且涉及该风险的局部广告内容具体为“最高级”。

再例如，一个数据对象信息中包括人物肖像，该人物肖像为一个明星，利用侵权违法风险识别模型识别，确定该数据对象信息宣传的数据对象确实是该明星所代言的，但不在合同期限内，因此得到的识别结果具体为，该数据对象信息具有侵权风险，且涉及该风险的局部信息内容具体为该人物肖像。

在实际应用中，电子商务平台对数据对象信息进行违法风险识别之后，可以仅在平台上投放不存在风险的数据对象信息，而针对一些涉及违法风险的数据对象信息，通常需要商家重新提供合法的数据对象信息之后，才可以投放。具体的，如果识别出所述特定数据对象的信息存在违法风险，则可以将所述风险信息提供给所述特定数据对象的发布者用户，以提示所述发布者用户对所述数据对象的所述目标信息进行修改后重新进行发布。

具体实现时，为了提高数据对象信息投放业务的正常进行，提升发布者用户重新投放数据对象信息时的体验，本申请实施例还可以在上述方法的基础上，在识别出某类型的违法风险后，提供相应的修改建议，并向发布者用户反馈所述修改建议。

具体实现时，可以预先建立风险规避建议信息库，其中，风险规避建议信息库中可以存储有不同类型的违法风险的内容所对应的修改建议。例如，针对夸大宣传类型的违法风险者所涉及的极限用语，与其对应的修改建议为将该极限用语修改为比较级用语，例如，将最、第一、顶级等极限用语修改为较、更、著名等委婉比较级相关词语。针对涉及侵犯人物肖像权类型的违法风险，与其对应的修改建议为提供不带人物肖像的数据对象信息，等等。

商家可以根据该修改建议进行修改，提交新的数据对象信息进行投放。在实际应用中，为了更好地维护和更新该风险规避建议库，本申请实施例还可以接收用户反馈的关于所述修改建议是否可用的评价意见；若所述评价意见表明所述修改建议不可用，则根据所述评价意见更新所述风险规避建议库；或者，根据用户输入的新修改文案更新所述风险规避建议库。

例如，商家用户收到具体的修改建议之后，可以给出评价意见，该评价意见用于表征该修改建议是否可用；若商家用户认为该修改建议不可用，而且，自己提出来一种修改方式，则该计算设备根据该商家用户的评价意见，更新该风险规避建议库，从而避免为其他用户提供不可用的修改建议，而且可以根据商家用户提供的修改方式，更新修改建议。具体的，可以收集多个商家用户针对一个修改建议的评价意见，综合多个评价意见来更新风险规避建议库，例如，当超过一半的商家用户反馈的评价意见为该修改建议不可用，此时，该计算设备更改风险规避建议库中的修改建议，同时，还可以将商家用户自定义的修改方案添加到风险规避建议库中。

例如，识别出一款茶叶数据对象的信息具有夸大宣传风险，具体内容为“国家级顶级毛峰茶叶”，根据风险规避建议库向商家用户提供的修改建议为将该内容替换为“高品质毛峰茶叶”；但商家用户觉得该修改建议不够好，自定义了修改方案，商家用户将该内容修改为“黄山毛峰，茶之精品”，则可以将商家用户自定义的该修改方案添加到风险规避建议库中，以丰富风险规避建议库。

在本申请实施例中主要是利用违法风险识别模型来自动识别数据对象信息是否具有违法风险，其中，违法风险识别模型具体是通过机器学习算法预先训练得到的，该模型是以数据对象信息中提取出的待分析内容作为输入，以用于识别数据对象信息是否具有违法风险。

不同类型的违法风险识别模型在工作时可以调用不同类型的知识库，知识库的广度和深度都决定了违法风险识别模型的识别能力，基于此，本申请实施例还创建了知识库，知识库是指知识图谱，是对实体、属性以及实体之间的关系进行建模和存储的系统，而知识图谱是以图的方式存储知识。具体可以参见图4。

在本申请实施例中，可以预先通过网络爬虫等方式收集各种类型的知识以建立知识库，也可以由人工收集各种类型的知识建立知识库。为了更好地丰富以及扩展知识库，则还可以通过机器学习算法对不同知识库中的信息进行学习，以扩展生成新的知识，并添加至对应的知识库中。

本申请实施例在具体实现时，可以针对具体违法风险识别模型的类型来建立对应的知识库，则与模型库所对应的，该知识库中可以包括以下一种或者多种类型的知识库：

绝对化用语知识库，用于存储新广告法所禁用的绝对化用语，用于识别数据对象广告中是否包含涉及夸大宣传风险的内容；例如，绝对化用语包括：国家级、世界级、最高级、政府唯一指定、最佳、最大、第一、唯一、首个、最好、精确、最高、最低、最具、最便宜、最先进、金牌、优秀、顶级、最新技术、最先进加工工艺、顶级工艺、最新科学、最新技术、最先进加工工艺、最时尚、极品、最受欢迎、绝无仅有、前无古人、万能等均属于极限用语。

功效词库，用于存储描述数据对象功能效果的词语；例如，保健品行业的数据对象所能使用的功效词语，如：缓解视力疲劳、改善睡眠、辅助降血压；保健品行业的数据对象禁止使用的功效词语，如涉及疾病预防、治疗功能的词语；禁止使用的药物功效词，如“包治百病”、“祖传秘方”。虚假信息风险识别模型、夸大宣传违法风险识别模型在进行识别时可以调用功效词库进行识别。行业知识库，用于存储新广告法所针对特定行业规定的禁止使用的广告宣传语，例如，针对食品行业的数据对象所禁止使用的广告宣传词，如“国家免检产品”、“对某某疾病有预防和治疗的作用”；针对保健品行业的数据对象所禁止使用的广告宣传语；针对化妆品行业的数据对象所禁止使用的广告宣传语等等。计算设备在利用行业的违法风险识别模型时可以调用对应行业的知识库进行识别。

国家地区知识库，用于存储不同国家/地区所禁止销售的数据对象的信息，或者所禁止发布的数据对象广告的信息。比如，在印度禁止投放牛肉类数据对象广告，在清真国家地区禁止投放猪肉类数据对象广告，禁止销售猪肉类数据对象。在具体实现时，计算设备在调用国家地区的违法风险识别模型时，需要调用该国家地区知识库进行风险识别。肖像库，用于存储人物肖像信息以及该人物肖像所对应的使用权限，如名人肖像图和名人肖像图的使用权限；例如，某明星对于商家在其数据对象上使用其肖像给予准予，不追究其法律责任。

广告代言库，用于存储数据对象的合法代言相关信息，包括代言人姓名和代言期限等；则当数据对象广告中包含关于代言内容时，则计算设备通过侵权违法风险识别模型，调用该广告代言库以识别出该数据对象广告是否存在侵权风险。例如，在广告代言库中记录的信息具体为某品牌面膜的代言人是A明星，代言日期是2016年1月1日至2017年1月1日；若在2017年1月2日其仍旧使用该数据对象广告，在数据对象广告中注明该A明星代言，则利用计算设备对该数据对象广告进行识别时，识别出该数据对象广告存在侵权风险。

在本申请的技术方案中，通过抓取数据对象的相关信息，将其中的待分析内容输入至预先建立的违法风险识别模型，利用该违法风险识别模型识别所述数据对象广告得到识别结果，通过识别结果表示该数据对象信息是否存在违法风险。相比传统的人工筛查的方式，该方法能够提高广告风险识别的准确率识别效率，避免出现漏审情况。

实施例二

该实施例二是与实施例一相对应的，从发布者用户客户端的角度，提供了一种数据对象信息违法风险处理方法，参见图5，该方法具体可以包括：

S501：接收服务器提供的关于目标数据对象的目标信息存在违法风险的信息，其中，所述目标信息是用于对所述目标数据对象进行宣传的信息；

S502：提供用于对所述目标信息进行修改的操作选项；

S503：通过所述操作选项接收修改后的目标信息，并进行重新对所述数据对象的目标信息进行发布。

具体实现时，还可以接收服务器提供的修改建议信息，以便根据所述修改建议对所述目标信息进行修改。

其中，当所述违法风险为夸大宣传类型的风险时，所述修改建议信息包括建议替换的目标文本内容。

关于该实施例二中其他的具体实现可以参见前述实施例一中的记载，这里不再赘述。

与实施例一相对应，本申请实施例还提供了一种数据对象信息违法风险识别装置，参见图6，该装置可以包括：

目标信息获得单元601，用于获得用于对特定数据对象进行宣传的目标信息；

内容提取单元602，用于从所述目标信息中进行待分析内容的提取；

风险识别单元603，用于根据预置的违法风险识别模型对所述待分析内容进行分析，确定所述目标信息是否存在违法风险。

具体的，所述目标信息获得单元具体可以用于：

针对即将发布的数据对象的信息，采用消息同步或者数据库同步的方式抓取所述目标信息。

或者，所述目标信息获得单元具体可以用于：

针对已经投放的数据对象的信息，从数据对象信息投放日志中抓取所述目标信息。

或者，所述目标信息获得单元具体也可以用于：

从目标数据对象信息页面中抓取所述目标信息。

其中，所述用于对特定数据对象进行宣传的目标信息包括数据对象的标题信息，主图信息，包装物图片信息，和/或详情描述信息，所述详情描述信息中包括文本描述信息、图片描述信息、音频描述信息和/或视频描述信息。

具体实现时，所述目标信息包括图片信息；

所述内容提取单元具体可以用于：

从所述目标信息中进行文本内容识别，将所识别出的文本内容信息确定为待分析内容。

或者，所述内容提取单元具体可以用于：

判断所述图片信息中是否存在与模特肖像相关的内容，如果存在，则从所述图片信息中提取出与所述模特肖像相关的图像内容，将所述图像内容确定为所述待分析内容。

所述目标信息也可以包括音频信息；

此时，所述内容提取单元具体可以用于：

对所述音频信息进行语音识别，转化为文本内容信息，将所述转化得到的文本内容信息确定为待分析内容。

所述目标信息包括视频信息；

此时，所述内容提取单元具体可以用于：

对所述视频信息进行语音识别以及图像识别；

将语音识别得到的文本内容信息，以及图像识别所得到的文本内容信息和/或与所述模特肖像相关的图像内容，确定为待分析内容。

具体实现时，所述待分析内容信息包括文本内容信息；

所述风险识别单元具体可以用于：

将所述文本内容信息输入到所述违法风险识别模型，由所述违法风险识别模型从所述文本内容信息中进行关键词、预置句式和/或人名识别，并根据识别结果，确定所述目标信息中是否存在夸大宣传或借用名人名义进行宣传的违法风险。

另外，所述违法风险识别模型还可以用于：根据所识别出的目标关键词，提供关键词替换建议，所述替换建议中包括至少一个可替换的文本内容。

如果所述待分析内容信息包括图像内容信息；

所述风险识别单元具体可以用于：

将所述图像内容信息输入到所述违法风险识别模型，由所述违法风险识别模型对所述图像内容进行人脸识别，或者目标人体器官识别，根据人脸或者人体器官识别结果，确定所述目标信息中是否存在侵犯肖像权或涉黄的违法风险。

或者，所述待分析内容信息可以包括数据对象所属的类目信息以及所需资源信息；

所述风险识别单元具体可以用于：

将所述数据对象所属的类目信息以及所需资源信息输入到所述违法风险识别模型，由所述违法风险识别模型对同类目数据对象所需资源的正常区间信息进行判断，通过判断所述所需资源信息是否属于所述正常区域，确定所述目标信息中是否存在虚假宣传的违法风险。

具体实现时，所述违法风险识别模型包括不同行业对应的多个不同的违法风险识别模型；

此时，所述装置还可以包括：

行业信息确定单元，用于通过对所述的待分析内容进行预处理，确定所述目标信息关联的数据对象所属的行业信息；

第一模型确定单元，用于根据所述所属的行业信息确定对应的目标违法风险识别模型。

或者，所述违法风险识别模型包括不同区域对应的多个不同的违法风险识别模型；

所述装置还包括：

销售区域信息确定单元，用于通过对所述的待分析内容进行预处理，确定所述目标信息关联的数据对象所面向的销售区域信息；

第二模型确定单元，用于根据所述面向的销售区域，确定对应的目标违法风险识别模型。

其中，所述违法风险识别模型包括多种风险类型分别对应的不同违法风险识别模型；

所述装置还可以包括：

模型选择单元，用于根据所述待分析内容的类型信息，确定可能会具有的至少一种目标风险类型，以便通过所述目标风险类型对应的违法风险识别模型对所述待分析内容进行识别。

具体实现时，所述违法风险识别模型是根据预先获得的知识库中保存的关于违法内容的样本信息进行机器学习而建立的。

另外，该装置还可以包括：

风险信息提供单元，用于如果所述特定数据对象的信息存在违法风险，则将所述风险信息提供给所述特定数据对象的发布者用户，以提示所述发布者用户对所述数据对象的所述目标信息进行修改后重新进行发布。

与实施例二相对应，本申请实施例还提供了一种数据对象信息违法风险处理装置，参见图7，该装置可以包括：

风险信息接收单元701，用于接收服务器提供的关于目标数据对象的目标信息存在违法风险的信息，其中，所述目标信息是用于对所述目标数据对象进行宣传的信息；

操作选项提供单元702，用于提供用于对所述目标信息进行修改的操作选项；

重新发布单元703，用于通过所述操作选项接收修改后的目标信息，并进行重新你对所述数据对象的目标信息进行发布。

具体实现时，该装置还可以包括：

修改建议接收单元，用于接收服务器提供的修改建议信息，以便根据所述修改建议对所述目标信息进行修改。

另外，本申请实施例还提供了一种计算机系统，该系统可以包括：

一个或多个处理器；以及

获得用于对特定数据对象进行宣传的目标信息；

从所述目标信息中进行待分析内容的提取；

其中，图8示例性的展示出了计算机系统的架构，具体可以包括处理器810，视频显示适配器811，磁盘驱动器812，输入/输出接口813，网络接口814，以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820之间可以通过通信总线830进行通信连接。

其中，处理器810可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器820可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器820可以存储用于控制计算机系统800运行的操作系统821，用于控制计算机系统800的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器823，数据存储管理系统824，以及违法风险识别处理系统825等等。上述违法风险识别处理系统825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行。

输入/输出接口813用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口814用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线830包括一通路，在设备的各个组件(例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820)之间传输信息。

另外，该计算机系统800还可以从虚拟资源对象领取条件信息数据库841中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，存储器820，总线830等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的数据对象信息违法风险识别方法、装置以及计算机系统进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据对象信息违法风险识别方法，其特征在于，包括：

获得用于对特定数据对象进行宣传的目标信息；

从所述目标信息中进行待分析内容的提取；

根据预置的违法风险识别模型对所述待分析内容进行分析，确定所述目标信息是否存在违法风险；所述违法风险识别模型包括粗粒度的违法风险识别模型集和/或细粒度的违法风险识别模型集中的违法风险识别模型，所述粗粒度的违法风险识别模型集用于识别目标信息的各种类型的违法风险，所述细粒度的违法风险识别模型集用于识别目标信息在所属行业或者区域的违法风险；

其中，在所述分析内容信息包括数据对象所属的类目信息以及所需资源信息时，所述违法风险识别模型用于对同类目数据对象所需资源的正常区间信息进行判断，通过判断所述所需资源信息是否属于所述正常区域，确定所述目标信息中是否存在违法风险。

2.根据权利要求1所述的方法，其特征在于，

所述获得用于对特定数据对象进行宣传的目标信息，包括：

3.根据权利要求1所述的方法，其特征在于，

所述获得用于对特定数据对象进行宣传的目标信息，包括：

4.根据权利要求1所述的方法，其特征在于，

所述获得用于对特定数据对象进行宣传的目标信息，包括：

从目标数据对象信息页面中抓取所述目标信息。

5.根据权利要求1所述的方法，其特征在于，

所述用于对特定数据对象进行宣传的目标信息包括数据对象的标题信息，主图信息，包装物图片信息，和/或详情描述信息，所述详情描述信息中包括文本描述信息、图片描述信息、音频描述信息和/或视频描述信息。

6.根据权利要求1所述的方法，其特征在于，

所述目标信息包括图片信息；

所述从所述目标信息中进行待分析内容的提取，包括：

7.根据权利要求1所述的方法，其特征在于，

所述目标信息包括图片信息；

所述从所述目标信息中进行待分析内容的提取，包括：

8.根据权利要求1所述的方法，其特征在于，

所述目标信息包括音频信息；

所述从所述目标信息中进行待分析内容的提取，包括：

9.根据权利要求1所述的方法，其特征在于，

所述目标信息包括视频信息；

所述从所述目标信息中进行待分析内容的提取，包括：

对所述视频信息进行语音识别以及图像识别；

10.根据权利要求1所述的方法，其特征在于，

所述待分析内容信息包括文本内容信息；

所述根据预置的违法风险识别模型对所述待分析内容进行分析，包括：

11.根据权利要求10所述的方法，其特征在于，

所述违法风险识别模型还用于：根据所识别出的目标关键词，提供关键词替换建议，所述替换建议中包括至少一个可替换的文本内容。

12.根据权利要求1所述的方法，其特征在于，

所述待分析内容信息包括图像内容信息；

13.根据权利要求1所述的方法，其特征在于，

所述违法风险识别模型包括不同行业对应的多个不同的违法风险识别模型；

所述方法还包括：

通过对所述的待分析内容进行预处理，确定所述目标信息关联的数据对象所属的行业信息；

根据所述所属的行业信息确定对应的目标违法风险识别模型。

14.根据权利要求1所述的方法，其特征在于，

所述违法风险识别模型包括不同区域对应的多个不同的违法风险识别模型；

所述方法还包括：

通过对所述的待分析内容进行预处理，确定所述目标信息关联的数据对象所面向的销售区域信息；

根据所述面向的销售区域，确定对应的目标违法风险识别模型。

15.根据权利要求1所述的方法，其特征在于，

所述违法风险识别模型包括多种风险类型分别对应的不同违法风险识别模型；

所述方法还包括：

根据所述待分析内容的类型信息，确定可能会具有的至少一种目标风险类型，以便通过所述目标风险类型对应的违法风险识别模型对所述待分析内容进行识别。

16.根据权利要求1至15任一项所述的方法，其特征在于，

所述违法风险识别模型是根据预先获得的知识库中保存的关于违法内容的样本信息进行机器学习而建立的。

17.根据权利要求1至15任一项所述的方法，其特征在于，还包括：

如果所述特定数据对象的信息存在违法风险，则将所述风险信息提供给所述特定数据对象的发布者用户，以提示所述发布者用户对所述数据对象的所述目标信息进行修改后重新进行发布。

18.一种数据对象信息违法风险处理方法，其特征在于，包括：

接收服务器提供的关于目标数据对象的目标信息存在违法风险的信息，其中，所述目标信息是用于对所述目标数据对象进行宣传的信息；所述目标信息存在违法风险的信息基于预置的违法风险识别模型分析得到，所述违法风险识别模型包括粗粒度的违法风险识别模型集和/或细粒度的违法风险识别模型集中的违法风险识别模型，所述粗粒度的违法风险识别模型集用于识别目标信息的各种类型的违法风险，所述细粒度的违法风险识别模型集用于识别目标信息在所属行业或者区域的违法风险；其中，在分析内容信息包括数据对象所属的类目信息以及所需资源信息时，所述违法风险识别模型用于对同类目数据对象所需资源的正常区间信息进行判断，并通过判断所述所需资源信息是否属于所述正常区域，以确定所述目标信息中是否存在违法风险；

提供用于对所述目标信息进行修改的操作选项；

通过所述操作选项接收修改后的目标信息，并进行重新对所述数据对象的目标信息进行发布。

19.根据权利要求18所述的方法，其特征在于，还包括：

接收服务器提供的修改建议信息，以便根据所述修改建议对所述目标信息进行修改。

20.根据权利要求19所述的方法，其特征在于，

当所述违法风险为夸大宣传类型的风险时，所述修改建议信息包括建议替换的目标文本内容。

21.一种数据对象信息违法风险识别装置，其特征在于，包括：

风险识别单元，用于根据预置的违法风险识别模型对所述待分析内容进行分析，确定所述目标信息是否存在违法风险；所述违法风险识别模型包括粗粒度的违法风险识别模型集和/或细粒度的违法风险识别模型集中的违法风险识别模型，所述粗粒度的违法风险识别模型集用于识别目标信息的各种类型的违法风险，所述细粒度的违法风险识别模型集用于识别目标信息在所属行业或者区域的违法风险；

22.一种数据对象信息违法风险处理装置，其特征在于，包括：

风险信息接收单元，用于接收服务器提供的关于目标数据对象的目标信息存在违法风险的信息，其中，所述目标信息是用于对所述目标数据对象进行宣传的信息；所述目标信息存在违法风险的信息基于预置的违法风险识别模型分析得到，所述违法风险识别模型包括粗粒度的违法风险识别模型集和/或细粒度的违法风险识别模型集中的违法风险识别模型，所述粗粒度的违法风险识别模型集用于识别目标信息的各种类型的违法风险，所述细粒度的违法风险识别模型集用于识别目标信息在所属行业或者区域的违法风险；其中，在所述分析内容信息包括数据对象所属的类目信息以及所需资源信息时，所述违法风险识别模型用于对同类目数据对象所需资源的正常区间信息进行判断，通过判断所述所需资源信息是否属于所述正常区域，确定所述目标信息中是否存在违法风险；

重新发布单元，用于通过所述操作选项接收修改后的目标信息，并进行重新对所述数据对象的目标信息进行发布。

23.一种计算机系统，该系统包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作:

获得用于对特定数据对象进行宣传的目标信息；

从所述目标信息中进行待分析内容的提取；