CN111950360A

CN111950360A - 一种识别侵权用户的方法及装置

Info

Publication number: CN111950360A
Application number: CN202010642144.2A
Authority: CN
Inventors: 曹敏隆; 张大虎; 段光磊
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-11-17
Anticipated expiration: 2040-07-06
Also published as: CN111950360B

Abstract

本发明实施例提供了一种识别侵权用户的方法及装置，该方法包括：获取待检测用户在网络平台上传的多个第一视频的特征信息；在预先建立的领域标签集中，分别查找与每一个所述第一视频的特征信息相匹配的领域标签，并确定为所述第一视频的领域标签，所述领域标签集中包括用于描述属于版权作者的视频的视频特征的词语，一个词语为一个领域标签；根据所述多个第一视频的领域标签，确定所述待检测用户是否为侵权用户。因此，本发明的方案，可以识别出盗用版权作者的视频进行二次创作的侵权用户。

Description

一种识别侵权用户的方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种识别侵权用户的方法及装置。

背景技术

4G的普及为视频带了一次蓬勃发展的机会，这使得视频行业的利益急剧增加。同时也使视频版权的问题日益凸显。

其中，部分人员盗窃他人视频，上传到网络平台来获取利益。这种行为窃取了版权作者的利益，不仅极大的打击了原创作者的创作热情，也对网络平台的生态造成了非常恶劣的影响。

目前来看，侵权的识别大多是针对视频介质的，即如果用户上传视频与版权视频相同即为侵权，这种做法能够从本质上识别侵权行为，但是难度较高。并且，很多侵权用户通过视频的二次创作来规避这种检测，从而获得非法利益。

由此可知，现有技术中，无法识别盗用版权作者的视频进行二次创作的侵权用户。

发明内容

本发明实施例的目的在于提供一种识别侵权用户的方法及装置，以识别盗用版权作者的视频进行二次创作的侵权用户。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种识别侵权用户的方法，所述方法包括：

获取待检测用户在网络平台上传的多个第一视频的特征信息；

在预先建立的领域标签集中，分别查找与每一个所述第一视频的特征信息相匹配的领域标签，并确定为所述第一视频的领域标签，所述领域标签集中包括用于描述属于版权作者的视频的视频特征的词语，一个词语为一个领域标签；

根据所述多个第一视频的领域标签，确定所述待检测用户是否为侵权用户。

在本发明实施的第二方面，还提供了一种识别侵权用户的装置，所述装置包括：

信息获取模块，用于获取待检测用户在网络平台上传的多个第一视频的特征信息；

查找模块，用于在预先建立的领域标签集中，分别查找与每一个所述第一视频的特征信息相匹配的领域标签，并确定为所述第一视频的领域标签，所述领域标签集中包括用于描述属于版权作者的视频的视频特征的词语，一个词语为一个领域标签；

判断模块，用于根据所述多个第一视频的领域标签，确定所述待检测用户是否为侵权用户。

在本发明实施的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述所述的识别侵权用户的方法。

在本发明实施的第四方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的识别侵权用户的方法。

在本发明实施的第五方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的识别侵权用户的方法。

本发明实施例提供的识别侵权用户的方法，预先获取用于描述属于版权作者的视频的视频特征的词语，从而由这些词语构成一个领域标签集，然后在需要对待检测用户进行识别时，获取该待检测用户在网络平台上传的第一视频的特征信息，然后在该领域标签集中，分别查找与第一视频的特征信息相匹配的领域标签，进而可以根据与第一视频的特征信息相匹配的领域标签，来识别待检测用户是否属于侵权用户。其中，版权作者往往专注于特定的几个领域来创作视频，而侵权用户则到处搬运，即便是专一搬运，也会侵犯版权作者的相关领域。由此可见，版权作者与侵权用户在网络平台上传的视频的领域存在一定的区别，因而即使侵权用户盗用版权作者的视频后进行了二次创作，也不会改变视频的领域，因此，仍然可以通过获取该用户在网络平台上传的视频所涉及的领域，识别出其为侵权用户。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种识别侵权用户的方法的步骤流程图；

图2为本发明实施例提供的另一种识别侵权用户的方法的步骤流程图；

图3为本发明实施例中建立领域标签集的步骤流程图；

图4为本发明实施例中建立检测模型的步骤流程图；

图5为本发明实施例中利用检测模型识别待检测用户的具体实施方式的流程示意图；

图6为本发明实施例提供的一种识别侵权用户的装置的框图；

图7为本发明实施例提供的另一种识别侵权用户的装置的框图；

图8为本发明实施例提供的电子设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

图1是本发明实施例提供的一种识别侵权用户的方法。如图1所示，该识别侵权用户的方法可以包括以下步骤：

步骤101：获取待检测用户在网络平台上传的多个第一视频的特征信息。

上述网络平台可以包括一个网络平台，也可以包括多个网络平台，即在需要检测一个用户是侵权用户，还是版权作者时，可以从一个或者多个网络平台上获取该用户上传的视频。

其中，版权作者为作品的原始创作者，侵权用户为窃取版权作者创作的作品的用户。窃取版权作者的利益，不仅会打击原创作者的创作热情，也对网络平台的生态造成非常恶劣的影响。因此，识别网络平台上上传视频的用户是否为侵权用户，能够优化网络平台的生态，提升版权作者的创作热情。

步骤102：在预先建立的领域标签集中，分别查找与每一个所述第一视频的特征信息相匹配的领域标签，并确定为所述第一视频的领域标签。

其中，所述领域标签集中包括用于描述属于版权作者的视频的视频特征的词语，一个词语为一个领域标签。

由此可知，本发明实施例提供的侵权用户的识别方法，会预先获取用于描述属于版权作者的视频的视频特征的词语，作为版权作者所涉及的领域的标签。从而，在需要检测一个用户是否是侵权用户时，可以在该领域标签集中，依次查找与待检测用户的视频的特征信息相匹配的领域标签。其中，查找到的领域标签，即为待检测用户会涉及版权作者所涉及的领域中的哪些领域，进而可以根据这些领域确定待检测用户是否是侵权用户。

例如在步骤101中获取到待检测用户在网络平台上传了视频A、B、C，则需要在上述领域标签集中，查找与视频A的特征信息相匹配的领域标签，并将查找到的领域标签，确定为视频A的领域标签；然后，特征信息相匹配的领域标签，并将查找到的领域标签，确定为视频B的领域标签；再次，查找与视频C的特征信息相匹配的领域标签，并将查找到的领域标签，确定为视频C的领域标签。其中，若查找到的视频A的领域标签为a1，视频B的领域标签为b1、b2，视频C的领域标签为c1，则a1、b1、b2、c1即为该待检测用户的领域标签，进而可以根据a1、b1、b2、c1，来确定待检测用户是否为侵权用户。

另外，还需要说明的是，上述特征信息包括至少一个关键词，则针对每一个第一视频，可以在领域标签集中，依次查找该第一视频的特征信息中包括的每一个关键词相匹配的领域标签。例如一个特征信息中包括关键词E和关键词F，则需要在领域标签集中查找与关键词E匹配的领域标签，以及与关键词F匹配的领域标签，然后将查找到的所有领域标签均作为该特征信息所属第一视频的领域标签。

此外，领域标签与特征信息中包括的一个关键词相匹配，即为领域标签和这个关键词中存在相同的词语。

步骤103：根据所述多个第一视频的领域标签，确定所述待检测用户是否为侵权用户。

由上述可知，本发明实施例提供的识别侵权用户的方法，预先获取用于描述属于版权作者的视频的视频特征的词语，从而由这些词语构成一个领域标签集，然后在需要对待检测用户进行识别时，获取该待检测用户在网络平台上传的第一视频的特征信息，然后在该领域标签集中，分别查找与第一视频的特征信息相匹配的领域标签，进而可以根据与第一视频的特征信息相匹配的领域标签，来识别待检测用户是否属于侵权用户。

其中，版权作者往往专注于特定的几个领域来创作视频，而侵权用户则到处搬运，即便是专一搬运，也会侵犯版权作者的相关领域。由此可见，版权作者与侵权用户在网络平台上传的视频的领域存在一定的区别，因而即使侵权用户盗用版权作者的视频后进行了二次创作，也不会改变视频的领域，因此，仍然可以通过获取该用户在网络平台上传的视频所涉及的领域，识别出其为侵权用户。

图2是本发明实施例提供的另一种识别侵权用户的方法。如图2所示，该识别侵权用户的方法可以包括以下步骤：

步骤201：获取待检测用户在网络平台上传的多个第一视频的特征信息。

步骤202：在预先建立的领域标签集中，分别查找与每一个所述第一视频的特征信息相匹配的领域标签，并确定为所述第一视频的领域标签。

步骤203：根据第一预设公式

获取所述待检测用户的目标参数。

上述视频特征包括至少一种视频特征，即本发明实施例提供的识别侵权用户的方法中，领域标签集中包括属于至少一种视频特征的领域标签。

其中，n表示所述视频特征的种类数量，k_i表示预先确定的与第i种视频特征对应的权重值，x_i表示所述多个第一视频的领域标签中，属于第i种视频特征的领域标签的数量，n、i、k_i均大于零，x_i大于或等于零。

由上述可知，领域标签集中的领域标签可以根据其所属的视频特征，划分为多个类别，一种视频特征对应一种类别的领域标签。则经过步骤202，获取到每一个第一视频的领域标签之后，可以统计所有第一视频的领域标签中，属于各个视频特征的领域标签的数量。例如，经统计，所有第一视频的领域标签中，属于第一视频特征的领域标签的数量是d1，属于第二视频特征的领域标签的数量是d2，属于第一视频特征的领域标签的数量是d3，则待检测用户的目标参数N＝k₁*d1+k₂*d2+k₃₁*d3。

由上述可知，待检测用户的目标参数，表示待检测用户的第一视频所涉及的领域的数量的多少。

可选的，所述视频特征包括视频标签、视频标题、上传视频的用户的昵称中的至少一种，所述特征信息包括视频标签和视频标题中的至少一种。

其中，版权作者往往专注于特定的几个领域来创作视频，而侵权用户则到处搬运，即便是专一搬运，也会侵犯版权作者的相关领域。目前对视频的分类有32种，这是一种非常粗犷的品类划分，比如游戏品类，可以细分英雄联盟，DOTA2等等。而对于视频的分类，更加详细的品类信息其实体现在视频标签、视频标题以及上传视频的用户的昵称中。因而，将用于描述属于版权作者的视频的视频标签、视频标题、上传视频的用户的昵称的词语，作为领域标签，可以将版权作者所涉及的视频的领域进行更加细化的分类，从而根据待检测用户在网络平台上传的视频的视频标签以及视频标题，能够判断出待检测用户会涉及版权作者所涉及的哪些领域，进而更加准确的识别出待检测用户是否为侵权用户。

即本发明实施例提供的侵权用户的识别方法中，领域标签集中包括属于视频标签的词语、属于视频标题的词语、属于昵称的词语中的至少一种。在需要识别一个待检测用户是否是侵权用户时，可以获取该待检测用户在网络平台上传的第一视频的视频标签和视频标题中的至少一种，并作为第一视频的特征信息，然后从领域标签集中，依次查找与每一个第一视频的特征信息相匹配的领域标签。

其中，若获取的是待检测用户在网络平台上传的第一视频的视频标签和视频标题，则需要针对每一个第一视频，在领域标签集中，查找与该第一视频的视频标签相匹配的领域标签，以及与该第一视频的视频标题相匹配的领域标签，并将查找到的所有标签，均作为该第一视频的领域标签。

此处需要说明的是，与各个视频特征对应的权重值之间可以相同，也可以不同。其中，当各个视频特征对应的权重值均相同时，待检测用户的目标参数即为所有第一视频的领域标签的数量之和。当与各个视频特征对应的权重值不同时，若该视频特征包括视频标题、视频标签和上传视频的用户的昵称这三种特征，则可以设置昵称的权重值较高，视频标签和视频标题的权重值较低(即设置昵称的权重值高于视频标签的权重值和视频标题的权重值)。

其中，如果一个视频标题或者视频标签，与领域标签集中的一个属于昵称的领域标签相匹配，即一个视频的视频标题或者视频标签中包含了一个版权作者的昵称，则该视频的用户很可能是盗用了该昵称的版权作者的视频，即该视频的用户属于侵权用户的可能性较大，因此，可以设置昵称具有较高的权重值，视频标签和视频标题具有较低的权重值，以便能够更加准确的依据待检测用户的上述目标参数，识别出其是否为侵权用户。

步骤204：获取所述多个第一视频中属于预设类型的视频的数量，与所述多个第一视频的总数量的比值，并确定为所述待检测用户的领域标签覆盖率。

其中，属于所述预设类型的视频，为在所述领域标签集中存在与视频的特征信息相匹配的领域标签的视频。

例如步骤201中获取到待检测用户在网络平台上传了S个第一视频，其中，R个第一视频在领域标签集中存在相匹配的领域标签，则该待检测用户的领域标签覆盖率＝R/S。

步骤205：根据所述待检测用户的目标参数和领域标签覆盖率，确定所述待检测用户是否为侵权用户。

其中，待检测用户的目标参数，表示在版权作者所涉及的领域中，待检测用户的视频所涉及的领域的数量的多少，待检测用户的领域标签覆盖率表示待检测用户的视频中，属于版权作者所涉及的领域的视频的比例，因而，可以根据目标参数和领域标签覆盖率，确定出待检测用户是否是侵权用户。

另外，具体根据待检测用户的目标参数和领域标签覆盖率，确定待检测用户是否是侵权用户的方式，可以为如下方式一和方式二中的任一种。

方式一：利用检测模型确定。

可选的，所述根据所述待检测用户的目标参数和领域标签覆盖率，确定所述待检测用户是否为侵权用户，包括：

将所述待检测用户的目标参数和领域标签覆盖率，输入预先建立的检测模型中，输出所述待检测用户属于侵权用户的结果，或者所述待检测用户属于版权作者的结果。

即如图5所示，分别获取待检测用户的目标参数和领域标签覆盖率，然后输入至检测模型，即可得到侵权结果(即待检测用户是否为侵权用户的结果)。

其中，所述检测模型的建立过程包括：

获取多个样本用户的目标参数和领域标签覆盖率，其中，所述多个样本用户中包括多个版权作者和多个侵权用户；

根据所述多个样本用户的目标参数和领域标签覆盖率，建立所述检测模型。

其中，获取多个样本用户的目标参数和领域标签覆盖率，包括：

获取所述多个样本用户在网络平台上传的第二视频的特征信息；

在所述领域标签集中，分别查找与每一个所述第二视频的特征信息相匹配的领域标签，并确定为所述第二视频的领域标签；

根据第二预设公式

获取每一个所述样本用户的目标参数，其中，n表示所述视频特征的种类数量，k_i表示第i种视频特征对应的权重值，

表示第j个样本用户的第二视频的领域标签中，属于第i种视频特征的领域标签的数量，M^j表示第j个样本用户的目标参数，n、i、j、k_i均大于零，

大于或等于零；

获取每一个所述样本用户的第二视频中属于所述预设类型的视频的数量，与所述样本用户的第二视频的总数量的比值，并确定为所述样本用户的领域标签覆盖率。

由此可知，本发明实施例提供的识别侵权用户的方法中，可以预先建立一个检测模型，然后将上述待检测用户的目标参数和领域标签覆盖率，输入至该检测模块，从而可以输出该检测用户是否为侵权用户。

其中，在建立检测模型时，需要预先采集多个版权作者在网络平台上传的视频，以及多个侵权用户在网络平台上传的视频(此处的“网络平台”也可以包括一个或者多个网络平台)；然后，获取这些视频的特征信息(例如可以为视频标题和视频标签)；再次，针对每一个视频，分别在领域标签集中查找与该视频的特征信息相匹配的领域标签；再次，针对每一个版权作者，以及每一个侵权用户，统计同一个用户的视频的领域标签中，属于各个视频特征的领域标签的数量；再次，根据统计的数量，计算每一个版权作者的目标参数，以及每一个侵权用户的目标参数；再次，计算每一个版权作者的领域标签覆盖率，每一个侵权作者的领域标签覆盖率；再次，将一个用户属于版权作者还是属于侵权用户的结果，以及该用户的目标参数和领域标签覆盖率，作为一条样本信息，进而对大量这样的样本信息，进行训练，则可以获取的用于检测一个用户是否是侵权用户的检测模型。

由此可知，检测模型是基于大量样本用户属于侵权用户还是版权作者的结果，以及样本用户的目标参数和领域标签覆盖率建立的，即该检测模型的输入是目标参数和领域标签覆盖率，输出是属于侵权用户还是版权作者，因此，在需要识别待检测用户是否为侵权用户时，可以将该待检测用户的目标参数和领域标签覆盖率，输入至该检测模型，则可以输出待检测用户是否为侵权用户。

其中，由于检测模型是对大量样本用户属于侵权用户还是版权作者的结果，以及样本用户的目标参数和领域标签覆盖率，进行训练后获得的，因而利用该检测模型，可以更加准确的识别出待检测用户是否为侵权用户。

另外，在建立检测模型时，上述样本用户中版权作者的数量和侵权用户的数量的比值可以为1，即版权作者和侵权用户各占一半。此外，需要说明的是，针对上述第二预设公式中，与各个视频特征对应的权重值之间可以相同，也可以不同。其中，当各个视频特征对应的权重值均相同时，样本用户的目标参数即为该样本用户的所有第二视频的领域标签的数量之和。当与各个视频特征对应的权重值不同时，若该视频特征包括视频标题、视频标签和上传视频的用户的昵称这三种特征，则可以设置昵称的权重值较高，视频标签和视频标题的权重值较低。

可选的，所述根据所述样本用户的目标参数和领域标签覆盖率，建立所述检测模型包括：采用梯度下降树算法，对所述样本用户的目标参数和领域标签覆盖率进行训练，获得所述检测模型。

具体的，本发明的实施例中，建立检测模型的具体实施方式的步骤流程可如图4所示。即挑选1000个样本用户(版权作者和侵权用户各占一半)，然后分别获取版权作者的目标参数和领域标签覆盖率，以及侵权作者的目标参数和领域标签覆盖率，并将一个样本用户的目标参数、领域标签覆盖率以及是否属于侵权用户作为一个训练样本，则得到1000个训练样本；再次，将这1000个训练样本进行拆分，其中，80％作为训练集，20％作为验证集；再次，新建gbdt模型，并将训练集作为参数，输入该模型中，从而在训练完成后保存gbdt模型文件；再次，使用20％验证集，对保存的gbdt模型文件，进行验证，并在验证完成后，通过混淆矩阵查看准确率，从而根据准确率判断保存的gbdt模型文件是否合格。

其中，在准确率未超过预先设定的阈值时，此时的gbdt模型文件不合格，则需要调整gbdt模型或者目标参数、领域标签覆盖率的计算方式，直到准确率超过预先设定的阈值时，此时的gbdt模型文件则合格，则此时的gbdt模型文件，即为上述用于识别待检测用户是否为侵权用户的检测模型。

另外，梯度下降树算法(gbdt)是通过采用加法模型(即基函数的线性组合)，以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。并且，gbdt对数据质量要求较低，对特征有详尽的分析，能够优化参数，其预测准确率较高，因此，采用gbdt对样本用户的目标参数和领域标签覆盖率进行训练，得到的检测模型，可以更加准确的识别出待检测用户是否为侵权用户。

此外，还可以采用极端梯度提升算法(eXtreme Gradient Boosting，XGBoost)或者随机森林(Random Forest，RF)算法，对样本用户的目标参数和领域标签覆盖率进行训练，从而建立检测模型。

方式二：阈值判断法

在所述待检测用户的目标参数大于第四预设阈值，且所述待检测用户的领域标签覆盖率大于第五预设阈值的情况下，确定所述待检测用户为侵权用户；

在所述待检测用户的目标参数小于或等于所述第四预设阈值，或者所述待检测用户的领域标签覆盖率小于或等于所述第五预设阈值的情况下，确定所述待检测用户为版权作者。

即可以预先确定第四预设阈值，以及第五预设阈值，则在待检测用户的目标参数大于第四预设阈值时，则表示待检测用户涉及的领域与版权作者所涉及的领域相同的数量较多；在待检测用户的领域覆盖率大于第五预设预设值，则表示待检测用户的视频中，较多视频涉及了版权作者的领域。因此，在待检测用户的目标参数大于第四预设阈值，且待检测用户的领域标签覆盖率大于第五预设阈值的情况下，则可以确定其属于侵权用户。

其中，采用阈值判断法来确定待检测用户是否为侵权用户，算法简单方便，但准确度取决于第四预设阈值和第五预设阈值的选取，因此，此种方式相较于上述方式一而言，识别是否为侵权用户的准确性较低。

可选的，所述领域标签集的建立过程包括：

获取多个版权作者在网络平台上传的第三视频的视频特征；

在所述视频特征包括目标特征的情况下，从所述第三视频的所述目标特征中，选择至少一个所述目标特征，作为领域标签存储在预先建立的领域标签集中，其中，所述目标特征为视频标签或者上传视频的用户的昵称；

在所述视频特征包括视频标题的情况下，从所述视频标题中，提取至少一个词语，作为领域标签存储在所述领域标签集中；

对存储在所述领域标签集中的词语进行去重处理。

由上述可知，在建立领域标签集时，若上述视频特征包括视频标签，则需要从所述第三视频的视频标签中，选择至少一个视频标签，作为领域标签存储在预先建立的领域标签集中；若上述视频特征包括在所述网络平台上传视频的用户的昵称，则需要从上传第三视频使用的昵称中，选择至少一个昵称，作为领域标签存储在所述领域标签集中；若上述视频特征包括视频标题，则需要从第三视频的视频标题中，提取至少一个词语，作为领域标签存储在所述领域标签集中；最后，再对存储在所述领域标签集中的词语进行去重处理。

由上述可知，领域标签集中可以包括属于视频标签的词语、属于视频标题的词语以及属于昵称的词语中的至少一种。在领域标签集中包括前述中的任意其中一种词语时，都需要预先获取版权作者的视频的相关信息，然后从中提取部分词语，来作为领域标签。

可选的，所述从所述第三视频的所述目标特征中，选择至少一个所述目标特征，作为领域标签存储在预先建立的领域标签集中，包括：

获取每一种所述目标特征对应的第三视频的第一数量；

分别计算每一个所述第一数量与所述第三视频的总数量的比值，并确定为与所述第一数量对应的所述目标特征的占比；

选择占比大于第一预设阈值的所述目标特征，并作为领域标签存储所述领域标签集中。

即具体的，从所述第三视频的视频标签中，选择至少一个视频标签，作为领域标签存储在预先建立的领域标签集中的过程，包括：

获取每一种视频标签对应的第三视频的第二数量；

分别计算每一个所述第二数量与所述第三视频的总数量的比值，并确定为与所述第一数量对应的视频标签的占比；

选择占比大于第一预设阈值的视频标签，并作为领域标签存储所述领域标签集中。

例如获取的多个版权作者在网络平台上传的第三视频的视频标签包括标签u1、标签u2和标签u3三种，则需要分别统计标签u1对应的第三视频的数量n1，标签u2对应的第三视频的数量n2，标签u3对应的第三视频的数量n3，则标签u1的占比为：n1/(n1+n2+n3)，标签u2的占比为：n2/(n1+n2+n3)，标签u3的占比为：n3/(n1+n2+n3)。

由上述可知，在版权作者在网络平台上传的第三视频中，每一个第三视频均存在一个视频标签，而这些视频标签中，一种视频标签可能对应有一个或者多个第三视频。本发明实施例提供的识别侵权用户的方法中，会统计每一种视频标签对应的第三视频的数量，并计算每一种视频标签对应的第三视频的数量与所有第三视频的总数量的比值，从而选取比值大于第一预设阈值的视频标签，作为领域标签。

其中，一种视频标签对应的第三视频的数量与所有第三视频的总数量的比值，表示版权作者的视频涉及属于该视频标签所表示的领域的多少。因而，选取比值大于第一预设阈值的视频标签作为领域标签，则使得领域标签集中包括的词语表示的是版权作者的视频专注的领域，从而进一步提升识别待检测用户是否是侵权用户的准确率。

此处需要说明的是，对于“从第三视频的视频标签中，选择至少一个视频标签，作为领域标签存储在预先建立的领域标签集”的过程，并不局限于此处的描述。例如，还可以将大于第六预设阈值的上述第二数量对应的视频标签，作为领域标签存储在预先建立的领域标签集中，即哪一种视频标签对应的第三视频的第二数量大于第六预设阈值，则将哪一种视频标签作为一个领域标签。

具体的，从上传第三视频使用的昵称中，选择至少一个昵称，作为领域标签存储在所述领域标签集中的过程，包括：

在所述多个版权作者在所述网络平台上传的第三视频的视频标题中，依次查找与每一个昵称相匹配的视频标题，并确定为与昵称对应的视频标题；

获取与每一个昵称对应的视频标题的第三数量；

分别计算每一个所述第三数量与所述第三视频的总数量的比值，并确定为与所述第三数量对应的昵称的占比；

选择占比大于第二预设阈值的昵称，并作为领域标签存储在所述领域标签集中。

其中，一个昵称与一个视频标题中存在相同的词语，则表示该昵称与该视频标题相匹配。

例如获取的在网络平台上传视频的用户的昵称包括昵称f1、昵称f2和昵称f3三种，则需要分别统计与昵称f1匹配的第三视频的视频标题的数量n4，与昵称f2匹配的第三视频的视频标题的数量n5，与昵称f3匹配的第三视频的视频标题的数量n6，则昵称f1的占比为：n4/(n4+n5+n6)，昵称f2的占比为：n5/(n4+n5+n6)，昵称f3的占比为：n6/(n4+n5+n6)。

由上述可知，在版权作者在网络平台上传的第三视频中，每一个第三视频均存在一个昵称，而这些昵称中，一种昵称可能匹配有一个或者多个视频标题。本发明实施例提供的识别侵权用户的方法中，会统计每一种昵称所匹配的视频标题的数量，并计算每一种昵称所匹配的视频标题的数量与所有第三视频的总数量的比值，从而选取比值大于第二预设阈值的昵称，作为领域标签。

其中，一种昵称所匹配的视频标题的数量与所有第三视频的总数量的比值，表示版权作者的视频涉及属于该昵称所表示的领域的多少。因而，选取比值大于第二预设阈值的昵称作为领域标签，则使得领域标签集中包括的词语表示的是版权作者的视频专注的领域，从而进一步提升识别待检测用户是否是侵权用户的准确率。

此处需要说明的是，对于“从上传第三视频使用的昵称中，选择至少一个昵称，作为领域标签存储在所述领域标签集中”的过程，并不局限于此处的描述。例如，还可以将大于第七预设阈值的上述第三数量对应的昵称，作为领域标签存储在预先建立的领域标签集中，即哪一个昵称对应的视频标题的第三数量大于第七预设阈值，则将哪一个昵称作为一个领域标签。

可选的，所述从所述第三视频的视频标题中，提取至少一个词语，作为领域标签存储在所述领域标签集中，包括：

获取所述第三视频中每两个视频的视频标题中的相同词语，并确定为候选词语；

获取每一种所述候选词语的出现次数；

分别计算每一种所述候选词语的出现次数与所述候选词语的总数的比值，并确定为所述候选词语的占比；

选择占比大于第三预设阈值的候选词语，并作为领域标签存储在所述领域标签集中。

其中，上述第三视频的视频标题中，每两个视频标题中出现的相同词语，表示这两个视频标题所属的第三视频所涉及的领域相同或相似。而将每两个视频标题的相同词语作为一个候选词语，然后统计这些候选词语的出现次数，其中，出现次数大于第三预设阈值的候选词语，表示的是版权作者所专注的领域，因而，选取出现次数大于第三预设阈值候选词语为领域标签，则使得领域标签集中包括的词语表示的是版权作者的视频专注的领域，从而进一步提升识别待检测用户是否是侵权用户的准确率。

另外，若直接将视频标题作为领域标签，则在判断待检测用户的一个第一视频的视频标题是否与领域标签集中属于视频标题的领域标签相匹配时，需要将待检测用户的第一视频的视频标题，以及领域标签集中属于视频标题的领域标签分别进行分词处理，然后依据分词处理结果进行判断，如果二者的分词结果中存在语义相同或者相近的词语，则二者相匹配。

而若视频标题之间相同的词语，作为领域标签，则在判断待检测用户的一个第一视频的视频标题是否与领域标签集中属于视频标题的领域标签相匹配时，只需要对待检测用户的第一视频的视频标题进行分词处理，然后判断分词后的结果中是否包括与领域标签集中属于视频标题的领域标签，语义相同或者相近的词语即可。

由上述对比可知，相较于直接将视频标题作为领域标签，本发明的实施例中，将视频标题之间相同的词语，作为领域标签，能够节省在领域标签集中查找与待检测的用户的第一视频的视频标题匹配的领域标签的时间，进而在一定程度上提升判断待检测用户是否为侵权用户的时间。

此处需要说明的是，对于“从所述视频标题中，提取至少一个词语，作为领域标签存储在所述领域标签集中”的过程，并不局限于此处的描述。例如，还可以将出现次数大于第八预设阈值的候选词语，作为领域标签存储在预先建立的领域标签集中。

由上述可知，建立领域标签集的具体实施方式的步骤流程可如图3所示。即：对该版权作者所有在线视频的视频标签做分组计数，然后提取标签占比大于第一预设阈值(例如为10％)的视频标签；并对该用户的昵称与视频标题匹配，提取昵称占比大于第二预设阈值(例如10％)的昵称当作标签；并对该用户的不同视频的视频标题之间进行匹配，获得“匹配词语(即视频标题之间存在的相同词语)”，提取匹配词汇出现比例大于第三预设阈值(例如10％)的“匹配词汇”当作标签；最后，进行去重处理，从而得到一个类型更为细致的领域标签集。

其中，目前视频的分类有32种，这是一种非常粗犷的品类划分，比如游戏品类，可以细分英雄联盟，刀塔等等。版权作者大多涉及领域很少，专注于某几个领域，而侵权作者则到处搬运，即便是专一搬运，也会侵犯版权作者的相关领域。而这些更加详细的品类信息其实体现在视频的标签、视频的标题、用户的昵称中。

因而，本发明的实施例，提出领域标签的概念，即从版权作者的视频标签、视频标题、昵称等信息中提取细分的领域，从而构建一个领域标签集。然后，使用待检测的用户的视频标签、视频标题与领域标签集中的领域标签做匹配，得到用于表示待检测用户涉及的领域标签的多少的目标参数，以及待检测用户的视频中涉及领域标签集中的领域的视频的比例(即领域标签覆盖率)。其中，如果该用户涉及的领域标签少，并且领域标签覆盖率低，则该用户侵权的可能性越小。

综上所述，本发明实施例的识别侵权用户的方法，预先获取用于描述属于版权作者的视频的视频特征的词语，从而由这些词语构成一个领域标签集，然后在需要对待检测用户进行识别时，获取该待检测用户在网络平台上传的第一视频的特征信息，然后在该领域标签集中，分别查找与第一视频的特征信息相匹配的领域标签，进而可以根据与第一视频的特征信息相匹配的领域标签，来识别待检测用户是否属于侵权用户。其中，版权作者往往专注于特定的几个领域来创作视频，而侵权用户则到处搬运，即便是专一搬运，也会侵犯版权作者的相关领域。由此可见，版权作者与侵权用户在网络平台上传的视频的领域存在一定的区别，因而即使侵权用户盗用版权作者的视频后进行了二次创作，也不会改变视频的领域，因此，仍然可以通过获取该用户在网络平台上传的视频所涉及的领域，识别出其为侵权用户，从而可以增加侵权用户的召回渠道，进而可以减少侵权所带来的利益损失。

此外，本发明的实施例，通过建立领域标签集，能够更加细化版权作者所涉及的领域。

图6是本发明实施例提供的一种识别侵权用户的装置的结构框图。如图6所示，该识别侵权用户的装置60可以包括：

信息获取模块601，用于获取待检测用户在网络平台上传的多个第一视频的特征信息；

查找模块602，用于在预先建立的领域标签集中，分别查找与每一个所述第一视频的特征信息相匹配的领域标签，并确定为所述第一视频的领域标签，所述领域标签集中包括用于描述属于版权作者的视频的视频特征的词语，一个词语为一个领域标签；

判断模块603，用于根据所述多个第一视频的领域标签，确定所述待检测用户是否为侵权用户。

由此可知，本发明实施例提供的识别侵权用户的装置，预先获取用于描述属于版权作者的视频的视频特征的词语，从而由这些词语构成一个领域标签集，然后在需要对待检测用户进行识别时，获取该待检测用户在网络平台上传的第一视频的特征信息，然后在该领域标签集中，分别查找与第一视频的特征信息相匹配的领域标签，进而可以根据与第一视频的特征信息相匹配的领域标签，来识别待检测用户是否属于侵权用户。其中，版权作者往往专注于特定的几个领域来创作视频，而侵权用户则到处搬运，即便是专一搬运，也会侵犯版权作者的相关领域。由此可见，版权作者与侵权用户在网络平台上传的视频的领域存在一定的区别，因而即使侵权用户盗用版权作者的视频后进行了二次创作，也不会改变视频的领域，因此，仍然可以通过获取该用户在网络平台上传的视频所涉及的领域，识别出其为侵权用户。

图7是本发明实施例提供的另一种识别侵权用户的装置的结构框图。如图6所示，该识别侵权用户的装置70可以包括：

信息获取模块701，用于获取待检测用户在网络平台上传的多个第一视频的特征信息；

查找模块702，用于在预先建立的领域标签集中，分别查找与每一个所述第一视频的特征信息相匹配的领域标签，并确定为所述第一视频的领域标签，所述领域标签集中包括用于描述属于版权作者的视频的视频特征的词语，一个词语为一个领域标签；

判断模块703，用于根据所述多个第一视频的领域标签，确定所述待检测用户是否为侵权用户。

可选的，在所述视频特征包括至少一种视频特征的情况下，所述判断模块703包括：

第一计算子模块7031，用于根据第一预设公式

获取所述待检测用户的目标参数，其中，n表示所述视频特征的种类数量，k_i表示预先确定的与第i种视频特征对应的权重值，x_i表示所述多个第一视频的领域标签中，属于第i种视频特征的领域标签的数量，n、i、k_i均大于零，x_i大于或等于零；

第二计算子模块7032，用于获取所述多个第一视频中属于预设类型的视频的数量，与所述多个第一视频的总数量的比值，并确定为所述待检测用户的领域标签覆盖率，其中，属于所述预设类型的视频，为在所述领域标签集中存在与视频的特征信息相匹配的领域标签的视频；

判断子模块7033，用于根据所述待检测用户的目标参数和领域标签覆盖率，确定所述待检测用户是否为侵权用户。

可选的，所述判断子模块7033具体用于：

将所述待检测用户的目标参数和领域标签覆盖率，输入预先建立的检测模型中，输出所述待检测用户属于侵权用户的结果，或者所述待检测用户属于版权作者的结果；

其中，所述识别侵权用户的装置还包括模型建立模块704，所述模型建立模块704包括：

信息获取子模块7041，用于获取多个样本用户的目标参数和领域标签覆盖率，其中，所述多个样本用户中包括多个版权作者和多个侵权用户；

训练子模块7042，用于根据所述多个样本用户的目标参数和领域标签覆盖率，建立所述检测模型；

其中，所述信息获取子模块7041具体用于：

根据第二预设公式

大于或等于零；

可选的，所述训练子模块7042具体用于：

采用梯度下降树算法，对所述样本用户的目标参数和领域标签覆盖率进行训练，获得所述检测模型。

可选的，所述识别侵权用户的装置还包括：领域标签集建立模块705，所述领域标签集建立模块705包括：

特征获取子模块7051，用于获取多个版权作者在网络平台上传的第三视频的视频特征；

第一选择子模块7052，用于在所述视频特征包括目标特征的情况下，从所述第三视频的所述目标特征中，选择至少一个所述目标特征，作为领域标签存储在预先建立的领域标签集中，其中，所述目标特征为视频标签或者上传视频的用户的昵称；

第二选择子模块7053，用于在所述视频特征包括视频标题的情况下，从所述第三视频的视频标题中，提取至少一个词语，作为领域标签存储在所述领域标签集中；

去重子模块7054，用于对存储在所述领域标签集中的词语进行去重处理。

可选的，所述第一选择子模块7052具体用于：

获取每一种所述目标特征对应的第三视频的第一数量；

可选的，所述第二选择子模块7053具体用于：

获取每一种所述候选词语的出现次数；

可选的，所述判断模块703包括：

第一确定子模块7034，用于在所述待检测用户的目标参数大于第四预设阈值，且所述待检测用户的领域标签覆盖率大于第五预设阈值的情况下，确定所述待检测用户为侵权用户；

第二确定子模块7035，用于在所述待检测用户的目标参数小于或等于所述第四预设阈值，或者所述待检测用户的领域标签覆盖率小于或等于所述第五预设阈值的情况下，确定所述待检测用户为版权作者。

由上述可知，本发明实施例提供的识别侵权用户的装置，预先获取用于描述属于版权作者的视频的视频特征的词语，从而由这些词语构成一个领域标签集，然后在需要对待检测用户进行识别时，获取该待检测用户在网络平台上传的第一视频的特征信息，然后在该领域标签集中，分别查找与第一视频的特征信息相匹配的领域标签，进而可以根据与第一视频的特征信息相匹配的领域标签，来识别待检测用户是否属于侵权用户。其中，版权作者往往专注于特定的几个领域来创作视频，而侵权用户则到处搬运，即便是专一搬运，也会侵犯版权作者的相关领域。由此可见，版权作者与侵权用户在网络平台上传的视频的领域存在一定的区别，因而即使侵权用户盗用版权作者的视频后进行了二次创作，也不会改变视频的领域，因此，仍然可以通过获取该用户在网络平台上传的视频所涉及的领域，识别出其为侵权用户。

本发明实施例还提供了一种电子设备，如图8所示，包括处理器81、通信接口82、存储器83和通信总线84，其中，处理器81，通信接口82，存储器83通过通信总线84完成相互间的通信；

存储器83，用于存放计算机程序；

处理器81，用于执行存储器83上所存放的程序时，实现如下步骤：

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的识别侵权用户的方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的识别侵权用户的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种识别侵权用户的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的识别侵权用户的方法，其特征在于，在所述视频特征包括至少一种视频特征的情况下，所述根据所述多个第一视频的领域标签，确定所述待检测用户是否为侵权用户，包括：

根据第一预设公式

获取所述多个第一视频中属于预设类型的视频的数量，与所述多个第一视频的总数量的比值，并确定为所述待检测用户的领域标签覆盖率，其中，属于所述预设类型的视频，为在所述领域标签集中存在与视频的特征信息相匹配的领域标签的视频；

根据所述待检测用户的目标参数和领域标签覆盖率，确定所述待检测用户是否为侵权用户。

3.根据权利要求2所述的识别侵权用户的方法，其特征在于，所述根据所述待检测用户的目标参数和领域标签覆盖率，确定所述待检测用户是否为侵权用户，包括：

其中，所述检测模型的建立过程包括：

根据所述多个样本用户的目标参数和领域标签覆盖率，建立所述检测模型；

获取所述多个样本用户在网络平台上传的第二视频的特征信息

根据第二预设公式

大于或等于零；

4.根据权利要求3所述的识别侵权用户的方法，其特征在于，所述根据所述样本用户的目标参数和领域标签覆盖率，建立所述检测模型包括：

5.根据权利要求1所述的识别侵权用户的方法，其特征在于，所述视频特征包括视频标签、视频标题、上传视频的用户的昵称中的至少一种，所述特征信息包括视频标签和视频标题中的至少一种。

6.根据权利要求1所述的识别侵权用户的方法，其特征在于，所述领域标签集的建立过程包括：

获取多个版权作者在网络平台上传的第三视频的视频特征；

在所述视频特征包括视频标题的情况下，从所述第三视频的视频标题中，提取至少一个词语，作为领域标签存储在所述领域标签集中；

对存储在所述领域标签集中的词语进行去重处理。

7.根据权利要求6所述的识别侵权用户的方法，其特征在于，所述从所述第三视频的所述目标特征中，选择至少一个所述目标特征，作为领域标签存储在预先建立的领域标签集中，包括：

获取每一种所述目标特征对应的第三视频的第一数量；

8.根据权利要求6所述的识别侵权用户的方法，其特征在于，所述从所述第三视频的视频标题中，提取至少一个词语，作为领域标签存储在所述领域标签集中，包括：

获取每一种所述候选词语的出现次数；

9.一种识别侵权用户的装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一项所述的识别侵权用户的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8任一项所述的识别侵权用户的方法。