CN103123634A

CN103123634A - 一种版权资源识别方法及装置

Info

Publication number: CN103123634A
Application number: CN2011103718886A
Authority: CN
Inventors: 徐兴军; 吴羡; 刘婵
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-11-21
Filing date: 2011-11-21
Publication date: 2013-05-29
Anticipated expiration: 2031-11-21
Also published as: CN103123634B

Abstract

本发明提供了一种版权资源识别方法及装置，其中方法包括：S1、利用已有的版权资源和非版权资源的标题获取正样本语料和负样本语料；S2、提取正样本语料和负样本语料的分类特征，并采用机器学习训练得到各分类特征在所属类别中的权值，建立分类模型；S3、获取待识别的资源，对获取的待识别资源执行步骤S31至步骤S33：S31、利用待识别资源的标题获得待预测语料；S32、提取待预测语料的分类特征，利用建立的分类模型确定待识别资源属于版权资源或非版权资源的置信度；S33、根据得到待识别资源属于版权资源或者非版权资源的置信度，识别待识别资源是否为版权资源。本发明可以在保证准确率和召回率的同时，节约人力资源，提高效率。

Description

一种版权资源识别方法及装置

【技术领域】

本发明涉及计算机技术领域，特别涉及一种版权资源识别方法及装置。

【背景技术】

随着网络技术的不断发展，人们越来越习惯于利用互联网进行资源的分享和获取。一些资源分享平台，如百度贴吧、百度文库、MP3、视频、豆丁网、道客巴巴等，是供网友在线分享文档、音频、视频等资源的开放平台，用户可以自由地上传资源进行分享，也可以在平台上在线观看视频、收听歌曲，还可以在线阅览或下载关于课件、习题、考试题库、论文报告、专业资料、公函模板、法律文件、文学小说等多个领域的文档资料。开放平台上所累积的资源，均来自用户的上传，开放平台本身并不编纂或修改用户上传的资源内部实质意义，资源经由用户上传后，资源分享平台即提供该资源的分享和下载。这样的方式给网友带来了很大的便利，然而，由于平台系统并不能自动对这些资源的版权进行判断，使得资源分享平台很可能会面临版权问题。例如：如果上传的资源是具有版权的资源，则需要进一步对上传者进行验证，确定上传者是否是版权拥有者。因而，对上传的资源是否具有版权进行识别是非常有必要的。

现有的版权资源识别方法主要有以下三种方式：

1)通过人工举报或人工审核的方式，对上传的资源进行版权资源的识别。这种方式不仅耗费人力资源、效率较低、反应相对滞后，而且无法发现内容相同的其他版权资源，对于未举报的版权资源，无法进行判定。

2)基于题目检索的识别方式，通过获取版权资源的题目进行识别，由于不对资源正文内容进行识别，其准确率和召回率都无法得到保证，对于无法获取题目的资源，无法进行判定。

3)基于正文匹配的识别方式，通过获取版权资源的正文进行识别，其依赖于对正确获取正文内容，因而，资源构建难度较大，对于无法获得正文内容的资源，无法进行判定。

【发明内容】

本发明提供了一种版权资源识别方法及装置，基于有限的已有资源信息，可以对任意资源定量识别其版权风险，在保证准确率和召回率的同时，节约人力资源，提高效率。

具体技术方案如下：

一种版权资源识别方法，该方法包括：

S1、利用已有的版权资源的标题进行搜索获取正样本语料，并利用非版权资源的标题进行搜索获取负样本语料；

S2、提取正样本语料的特征作为版权资源对应的分类特征，提取负样本语料的特征作为非版权资源对应的分类特征，并计算各分类特征在所属类别中的权值，构成分类模型；

S3、获取待识别资源，对所述待识别资源执行步骤S31至步骤S33：

S31、利用所述待识别资源的标题进行搜索，获得待预测语料；

S32、提取待预测语料的分类特征，利用所述分类模型确定所述待识别资源属于版权资源或非版权资源的置信度；

S33、根据所述待识别资源属于版权资源或者非版权资源的置信度，识别所述待识别资源是否为版权资源。

根据本发明一优选实施例，步骤S1中具体包括：

获取已有的版权资源和非版权资源的标题；

利用获取到的标题在搜索引擎中进行搜索，将利用已有的版权资源的标题搜索得到的搜索结果、已有的版权资源的标题和已有的版权资源的内容作为正样本语料；将利用已有的非版权资源的标题搜索得到的搜索结果、已有的非版权资源的标题和已有的非版权资源的内容作为负样本语料。

根据本发明一优选实施例，步骤S2中，提取正样本语料和负样本语料的特征，具体包括：

对正样本语料和负样本语料进行预处理，分别得到正样本词项集合和负样本词项集合；

用得到的正样本词项集合与预设的特征列表进行匹配，将匹配的词项作为正样本语料的特征；

用得到的负样本词项集合与预设的特征列表进行匹配，将匹配的词项作为负样本语料的特征；

所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。

根据本发明一优选实施例，所述计算各分类特征在所属类别中的权值是基于各分类特征在所述正样本语料或负样本语料中出现的词频，或者各分类特征的词频-倒文档率计算的。

根据本发明一优选实施例，步骤S31中具体包括：

获取所述待识别资源的标题；

利用获取到的标题在搜索引擎中进行搜索，将搜索得到的搜索结果、所述待识别资源的标题和所述待识别资源的内容作为待预测语料。

根据本发明一优选实施例，步骤S32中，提取待预测语料的分类特征，具体包括：

对待预测语料进行预处理，得到待预测词项集合；

用得到的待预测词项集合与预设的特征列表进行匹配，将匹配的词项作为待预测语料的分类特征；

根据本发明一优选实施例，步骤S33具体为：

如果所述待识别资源属于版权资源的置信度大于预设第一阈值N1，将所述待识别资源识别为版权资源；

如果所述待识别资源属于版权资源的置信度小于预设第二阈值N2，将所述待识别资源识别为非版权资源，其中，0＜N2≤N1＜1；

或者，如果所述待识别资源属于非版权资源的置信度大于预设第三阈值N3，将所述待识别资源识别为非版权资源；

如果所述待识别资源属于非版权资源的置信度小于预设第四阈值N4，将所述待识别资源识别为版权资源，其中，0＜N4≤N3＜1。

一种版权资源识别装置，该装置包括：

训练语料获取模块，用于利用已有的版权资源的标题进行搜索获取正样本语料，并利用非版权资源的标题进行搜索获取负样本语料；

分类模型建立模块，用于提取正样本语料的特征作为版权资源对应的分类特征，提取负样本语料的特征作为非版权资源对应的分类特征，并计算各分类特征在所属类别中的权值，构成分类模型；

待预测语料获取模块，用于获取待识别资源，利用所述待识别资源的标题进行搜索，获得待预测语料；

置信度获取模块，用于提取待预测语料的分类特征，利用所述分类模型确定所述待识别资源属于版权资源或非版权资源的置信度；

识别模块，用于根据所述待识别资源属于版权资源或者非版权资源的置信度，识别所述待识别资源是否为版权资源。

根据本发明一优选实施例，所述训练语料获取模块包括标题获取模块和搜索模块，

所述标题获取模块用于获取已有的版权资源和非版权资源的标题；

所述搜索模块用于利用标题获取模块获取的标题在搜索引擎中进行搜索，将利用已有的版权资源的标题搜索得到的搜索结果和已有的版权资源的信息作为正样本语料；将利用已有的非版权资源的标题搜索得到的搜索结果和已有的非版权资源的信息作为负样本语料。

根据本发明一优选实施例，所述分类模型建立模块提取正样本语料和负样本语料的特征时，先对语料进行预处理，用得到的词项集合与预设的特征列表进行匹配，将匹配的词项作为对应语料的特征，所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。

根据本发明一优选实施例，所述分类模型建立模块计算各分类特征在所属类别中的权值是基于各分类特征在所述正样本语料或负样本语料中出现的词频，或者各分类特征的词频-倒文档率计算的。

根据本发明一优选实施例，所述待预测语料获取模块包括标题获取模块和搜索模块，

所述标题获取模块用于获取所述待识别资源的标题；

所述搜索模块用于利用标题获取模块获取到的标题在搜索引擎中进行搜索，将搜索得到的搜索结果、所述待识别资源的标题和所述待识别资源的内容作为待预测语料。

根据本发明一优选实施例，所述置信度获取模块提取待预测语料的分类特征时，先对待预测语料进行预处理，用得到的词项集合与预设的特征列表进行匹配，将匹配的词项作为待预测语料的分类特征，所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。

根据本发明一优选实施例，所述识别模块如果识别到所述待识别资源属于版权资源的置信度大于预设第一阈值N1，将所述待识别资源识别为版权资源；

如果识别到所述待识别资源属于版权资源的置信度小于预设第二阈值N2，将所述待识别资源识别为非版权资源；其中，0＜N2≤N1＜1；

或者，如果识别到所述待识别资源属于非版权资源的置信度大于预设第三阈值N3，将所述待识别资源识别为非版权资源；

如果识别到所述待识别资源属于非版权资源的置信度小于预设第四阈值N4，将所述待识别资源识别为版权资源，其中，0＜N4≤N3＜1。

由以上技术方案可以看出，本发明提供的方法及装置通过这种方式基于有限的版权资源和非版权资源训练得到分类模型，利用该分类模型对于任意资源定量给出版权风险判定，无需人工参与，节约了人力资源提高了效率，同时也保证了准确率、召回率以及审核结果的一致性。

【附图说明】

图1为本发明实施例一提供的方法流程图；

图2为本发明实施例二提供的一种装置结构图；

图3为本发明实施例三提供的另一种装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、以文档资源为例

图1为本发明实施例一提供的方法流程图，如图1所示，该方法包括以下步骤：

步骤S101：利用已有的版权资源的标题进行搜索获取正样本语料，并利用非版权资源的标题进行搜索获取负样本语料。

获取已有的版权资源和非版权资源，提取已有的版权资源的标题，用提取到的标题作为搜索词(query)在搜索引擎中进行搜索，得到搜索结果，这些搜索结果包含与已有的版权资源的标题相关的页面，具体包括页面标题、摘要、站点信息、链接信息等信息，将搜索结果和已有的版权资源的信息，包括已有的版权资源的标题和已有的版权资源的正文内容等，构成正样本语料。

提取已有的非版权资源的标题，用提取到的标题作为query在搜索引擎中进行搜索，得到搜索结果，将搜索结果和已有的非版权资源的信息，包括已有的非版权资源的标题和已有的非版权资源的正文内容等，构成负样本语料。

上述已有版权资源和非版权资源可以通过人工标注的方式，或者直接获取已知版权资源的文档。

比如，《长安乱》、《狼性商道》等作品是已经出版的文学作品，为版权资源。利用“长安乱”“狼性商道”在搜索引擎中搜索得到相关的搜索结果，包括标题、摘要、站点信息、链接信息等信息，将这些搜索结果加入到正样本语料中。长安乱的搜索结果中有百科结果、在线版权资源网站、豆瓣等信息，狼性商道的搜索结果中有当当网站信息等，将所有的搜索结果加入到正样本语料中。

比如，文档名称为“[中级职称考试]内科样题测试”“数字图像处理实验1”预先通过人工标注为非版权资源，则利用“[中级职称考试]内科样题测试”“数字图像处理实验1”在搜索引擎中进行搜索，得到相关的搜索结果，将这些搜索结果加入到负样本语料中。

利用有限数量的版权资源和非版权资源，在搜索引擎中获取搜索结果，构成正样本语料和负样本语料。

步骤S102：提取正样本语料的特征作为版权资源对应的分类特征，提取负样本语料的特征作为非版权资源对应的分类特征，并采用机器学习的方式训练得到各分类特征在所属类别(版权资源或者非版权资源)中的权值，建立分类模型，所述分类模型包括分类特征和分类特征的权值。

拥有版权文档资源通常都具有明显的特征，比如纸质图书正在售卖，在线阅读平台的大量展现，用户标明免费下载等；而非版权文档资源的表现，则通常不具有这些特征，而那些不属于版权保护领域的文档资源，如考试题、文书模板、读后感等一般不具有版权。本发明则通过提取这些明显的特征作为分类特征，采用机器学习训练分类器，对文档资源进行分类。

其中，提取正样本语料和负样本语料的分类特征，具体包括：

对正样本语料和负样本语料进行分词和过滤等预处理，分别得到正样本词项集合和负样本词项集合。所述预处理过程可采用现有的分词方法和过滤方法进行。

用得到的正样本词项集合与预设的特征列表进行匹配，将命中的词项作为正样本语料的分类特征。用得到的负样本词项集合与预设的特征列表进行匹配，将命中的词项作为负样本语料的分类特征。

所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种，可以采用统一的特征列表的形式，可以通过设置白名单和黑名单的方式分别罗列资源的版权或者非版权特征信息。

预设的特征列表可以通过人工设定的方式进行设定，也可以是一个动态形成的列表，利用一定规模的语料通过机器学习的方式自动产生。下面对特征列表中包含的内容进行举例说明：

关键字特征包括能够标识版权资源或者非版权资源的词项，如“免费下载”“番外”“全文下载”“全文阅读”“在线版权资源”等为标识版权资源的词项。比如，“读后感”等为标识非版权资源的词项。

领域特征主要用于按领域区分著作权的资源特征。比如“考试题库”“课件”“习题”“模板”为非版权文档资源的特征。

站点特征包括含有版权资源的站点名和站点的url，如“当当网”“晋江文学”“起点网”“卓越亚马逊”“http://www.dangdang.com/”等。

在本步骤中，各分类特征在其所属类别中的权值可以基于但不限于：各分类特征在正样本语料或负样本语料中的词频(TF)或者TF-倒文档率IDF。也可以进一步通过机器学习训练的方式进行权值的调整。所述的机器学习优选地采用有监督的机器学习模型，如最大熵模型、支持向量机模型(SVM)等，这些成熟的机器分类模型，有成熟的估计算法，都是基于最优化方法进行自动调权的。针对提取的分类特征，利用机器学习模型中的调权公式，反复地根据分类结果进行特征调权，直到达到满意的分类正确率或指定的最大迭代次数。

通过上述机器学习训练后，得到各个分类特征在版权资源中的权值和在非版权资源中的权值，建立分类模型，所述分类模型包括分类特征和分类特征的权值。

步骤S103：获取待识别资源，对待识别资源执行步骤S1031至步骤S1033。

步骤S1031：利用待识别资源的标题进行搜索，获得待预测语料。

用待识别资源的标题作为query在搜索引擎中进行搜索，得到搜索结果，将搜索结果、待识别资源的标题和待识别资源的正文内容作为待预测语料。

待预测语料不仅包括搜索引擎的搜索结果，还包括文档的标题、文档摘要或内容、文档内部包含站点信息等。

步骤S1032：提取待预测语料的分类特征，利用步骤S102建立的分类模型确定待识别资源属于版权资源或非版权资源的置信度。

其中，提取待预测语料的分类特征，具体包括：

对待预测语料进行分词和过滤等预处理，得到待预测词项集合。

用得到的待预测词项集合与预设的特征列表进行匹配，将匹配的词项作为待预测语料的分类特征。优选地，所述预设的特征列表采用与步骤S102中相同的特征列表，包括关键字特征、领域特征以及站点特征中的至少一种。

将得到的待预测语料的分类特征，放入机器学习的分类模型中打分，得到待识别资源属于版权资源或非版权资源的置信度。以最大熵模型为例，其打分值的公式可以采用但不限于以下公式：

p (y | X) = {ce}^{\underset{x_{i} &Element; X}{Σ} λ_{i} f (x_{i}, y)} - - - (1)

其中，y是版权资源类别或者非版权资源类别，X为待预测语料的分类特征的集合。c为归一化因子，x_i是属于X的第i个分类特征，λ_i为x_i在分类模型中属于y的权值。f(x_i，y)是特征函数，p(y|X)为条件概率，表示待预测语料属于版权资源或者属于非版权资源的概率。当计算待预测语料属于版权资源的概率时，所述特征函数f(x_i，y)可以为：

当y属于版权资源时，f(x_i，y)＝1；否则f(x_i，y)＝0。

p(当前文档为版权|文档信息)+p(当前文档为非版权|文档信息)＝1。

最终，计算得到待识别资源属于版权资源或者非版权资源的置信度。

步骤S1033：根据步骤S1032得到待识别资源属于版权资源或者非版权资源的置信度，识别待识别资源是否为版权资源。

如果待识别资源属于版权资源的置信度大于预设第一阈值N1，将待识别资源识别为版权资源。如果待识别资源属于版权资源的置信度小于预设第二阈值N2，将待识别资源识别为非版权资源。其中，0＜N2≤N1＜1。置信度越高，待识别资源为版权资源的可能性越大。或者，如果待识别资源属于非版权资源的置信度大于预设的第三阈值N3，则将待识别资源识别为非版权资源，如果待识别资源属于非版权资源的置信度小于预设第四阈值N4，则将待识别资源识别为版权资源，其中，0＜N4≤N3＜1。

为了减少网络的盗版行为，对于识别为版权资源的资源，系统平台将会拒绝用户上传或者进行删除操作，同时允许用户申诉，对于有用户申诉的资源才通过审核人力进行审核。对于识别为非版权资源的资源，则允许用户上传。对于既不属于版权资源又不属于非版权资源的资源，例如待识别资源属于版权资源的置信度处于(N2，N1)之间的资源处于模糊地带，系统平台将结合用户举报和人工审核进行处理。当然，所述预设第一阈值N1和预设第二阈值N2可以设置为同一个值，没有模糊地带，对于被拒绝上传或被删除的资源，则可以通过用户申诉的方式进行后续处理。

值得一提的是，经过人工审核确定的文档资源也可以作为已有的版权资源或非版权资源输入到步骤S101中，用以修正和调整分类模型。

针对步骤S1031至步骤S1033举一个例子，假设用户上传一篇《中国足球黑幕》的文档资源，利用文档标题“中国足球黑幕”在搜索引擎中进行搜索，将得到的搜索结果和文档的信息作为待预测语料。用户上传的文档资源通常包括标题、简要介绍、文档分类及文档内容等信息，将这些信息均加入到待预测语料中。提取待预测语料的分类特征，在搜索结果中包含有“当当网”、“起点中文小说网”“免费小说”“http://www.qidian.com”等特征，经过分词和过滤等预处理后，提取上述特征作为分类特征，并放入到步骤S102所述机器学习的分类模型中打分，可以计算得到该文档资源《中国足球黑幕》属于版权资源的置信度为0.8794，假设预设第一阈值N1为0.7，则将《中国足球黑幕》识别为版权资源。为了避免网络盗版行为，系统将直接拒绝用户的上传。

对于音频和视频等其他资源进行版权资源识别时，与文档资源类似。以视频资源为例，获取视频资源，包括名称、简介/摘要、导演/作者以及类别等信息。在构建分类模型时，首先，利用已有的版权资源和非版权资源的标题进行搜索，获取搜索结果，将搜索结果和已有的资源信息构成正样本语料和负样本语料。提取正样本语料和负样本语料的特征，其中预设的特征列表中，可以包括“原创”“广告”“新闻”“自拍”等词项，“乐视网”“搜狐视频”等站点信息。采用机器学习训练得到各特征属于各类别(即版权资源和非版权资源)的权值，建立分类模型。对于待识别的视频资源，先利用标题进行搜索，将得到的搜索结果和待识别的视频资源信息作为待预测语料。提取待预测语料的分类特征，利用分类模型确定该视频资源属于版权资源的置信度。最后，再根据该置信度，判断该视频资源是否为版权资源。

以上是对本发明所提供的方法进行的详细描述，下面对本发明提供的版权资源识别装置进行详细描述。

实施例二、

图2为本发明实施例二提供的装置结构图，如图2所示，该装置可以包括：训练语料获取模块101、分类模型建立模块102、待预测语料获取模块103、置信度获取模块104和识别模块105。

训练语料获取模块101，用于利用已有的版权资源的标题进行搜索获取正样本语料，并利用非版权资源的标题进行搜索获取负样本语料。

训练语料获取模块101获取已有的版权资源和非版权资源的标题，利用获取的标题作为query在搜索引擎中进行搜索，得到搜索结果，这些搜索结果包含与已有的版权资源的标题相关的页面，具体包括页面标题、摘要、站点信息、链接信息等信息。将利用已有的版权资源的标题搜索得到的搜索结果、已有的版权资源的标题和已有的版权资源的内容作为正样本语料。将利用已有的非版权资源的标题搜索得到的搜索结果、已有的非版权资源的标题和已有的非版权资源的内容作为负样本语料。

已有的版权资源和非版权资源可以通过人工标注的方式，或者直接获取已知版权资源的文档。比如，《长安乱》、《狼性商道》等作品是已经出版的文学作品，为版权资源。训练语料获取模块101利用“长安乱”“狼性商道”在搜索引擎中搜索得到相关的搜索结果，包括标题、摘要、站点信息、链接信息等信息，将这些搜索结果加入到正样本语料中。长安乱的搜索结果中有百科结果、在线版权资源网站、豆瓣等信息，狼性商道的搜索结果中有当当网站信息等，将所有的搜索结果加入到正样本语料中。

分类模型建立模块102，用于提取正样本语料的特征作为版权资源对应的分类特征，提取负样本语料的特征作为非版权资源对应的分类特征，并采用机器学习的方式训练得到各分类特征在所属类别(版权资源或者非版权资源)中的权值，建立分类模型，所述分类模型包括分类特征和分类特征的权值。

分类模型建立模块102包括训练语料特征提取模块1021和训练语料机器学习模块1022。

训练语料特征提取模块1021，用于提取正样本语料和负样本语料的分类特征，先对语料进行预处理，用得到的词项集合与预设的特征列表进行匹配，将匹配的词项作为语料的分类特征。

用得到的正样本词项集合与预设的特征列表进行匹配，将匹配的词项作为正样本语料的分类特征。用得到的负样本词项集合与预设的特征列表进行匹配，将匹配的词项作为负样本语料的分类特征。

预设的特征列表可以通过人工设定的方式进行设定，也可以是一个动态形成的列表，利用一定规模的语料通过机器虚席的方式自动产生。下面对特征列表中包含的内容进行举例说明：

训练语料机器学习模块1022，用于采用机器学习的方式训练得到各分类特征在版权资源中的权值和在非版权资源中的权值，建立分类模型。

训练语料机器学习模块1022计算各分类特征在其所属类别中的权值可以基于但不限于：各分类特征在正样本语料或负样本语料中的TF或者TF-IDF。也可以进一步通过机器学习训练的方式进行权值的调整。优选地采用有监督的机器学习模型，如最大熵模型、支持向量机模型(SVM)等，这些成熟的机器分类模型，有成熟的估计算法，都是基于最优化方法进行自动调权的。针对提取的分类特征，利用机器学习模型中的调权公式，反复地根据分类结果进行特征调权，直到达到满意的分类正确率或指定的最大迭代次数。

通过训练语料机器学习模块1022的机器学习训练后，得到各个分类特征在版权资源中的权值和在非版权资源中的权值，建立分类模型，所述分类模型包括分类特征和分类特征的权值。

待预测语料获取模块103，用于获取待识别的资源，利用待识别资源的标题进行搜索，获得待预测语料。

待预测语料获取模块103包括标题获取模块和搜索模块(图2中未示出)。

其中，标题获取模块用于获取待预测资源的标题。

搜索模块用于利用标题获取模块获取到的标题作为query在搜索引擎中进行搜索，将搜索得到的搜索结果、待识别资源的标题和待识别资源的内容作为待预测语料。

置信度获取模块104，用于提取待预测语料的分类特征，利用分类模型建立模块102建立的分类模型确定待识别资源属于版权资源或非版权资源的置信度。

置信度获取模块104包括待预测语料特征提取模块1041和打分模块1042。

待预测语料特征提取模块1041用于提取待预测语料的分类特征，先对待预测语料进行预处理，用得到的词项集合与预设的特征列表进行匹配，将匹配的词项作为待预测语料的分类特征。

所述预设的特征列表采用与训练语料特征提取模块1021相同的特征列表，包括关键字特征、领域特征以及站点特征中的至少一种。

打分模块1042用待预测语料特征提取模块1041得到待预测语料的分类特征，放入机器学习的分类模型中打分，得到待识别资源属于版权资源或非版权资源的置信度。以最大熵模型为例，其打分值的公式可以为：

p (y | X) = {ce}^{\underset{x_{i} &Element; X}{Σ} λ_{i} f (x_{i}, y)}

当y属于版权资源时，f(x_i，y)＝1；否则f(x_i，y)＝0。

识别模块105，用于根据置信度获取模块104获取的待识别资源属于版权资源或者非版权资源的置信度，识别待识别资源是否为版权资源。

识别模块105如果识别到待识别资源属于版权资源的置信度大于预设第一阈值N1，将待识别资源识别为版权资源。如果识别到待识别资源属于版权资源的置信度小于预设第二阈值N2，将待识别资源识别为非版权资源；其中，0＜N2≤N1＜1。或者，如果识别到待识别资源属于非版权资源的置信度大于预设的第三阈值N3，则将待识别资源识别为非版权资源，如果识别到待识别资源属于非版权资源的置信度小于预设第四阈值N4，则将待识别资源识别为版权资源，其中，0＜N4≤N3＜1。

在图2所示的实施例中，训练语料获取模块101和待预测语料获取模块103的功能可以由一个模块通过功能复用的方式完成，置信度获取模块104和分类模型建立模块102的功能可以由一个模块通过功能复用的方式完成，具体参见图3。图3为本发明实施例三提供的另一装置结构图，如图3所示，该装置包括：语料获取模块201、分类模型建立模块202和识别模块203。

语料获取模块201中包括标题获取模块2011和搜索模块2012。

标题获取模块2011获取已有的版权资源和非版权资源的标题。

搜索模块2012利用标题获取模块2011获取的标题作为query在搜索引擎中进行搜索，得到搜索结果，这些搜索结果包含与已有的版权资源的标题相关的页面，具体包括页面标题、摘要、站点信息、链接信息等信息。将利用已有的版权资源的标题搜索得到的搜索结果、已有的版权资源的标题和已有的版权资源的内容作为正样本语料；将利用已有的非版权资源的标题搜索得到的搜索结果、已有的非版权资源的标题和已有的非版权资源的内容作为负样本语料。

语料获取模块201还用于获取待识别的资源，利用待识别资源的标题在搜索引擎中搜索，获得待预测语料。标题获取模块2011获取待识别的资源的标题。搜索模块2012利用获取的标题在搜索引擎中进行搜索，将利用待识别资源的标题搜索得到的搜索结果、待识别资源的标题和待识别资源的内容作为待预测语料。

分类模型建立模块202，用于提取所述语料获取模块获取的语料的分类特征，并计算分类特征的权值，建立分类模型。所述分类模型包括分类特征和分类特征的权值。

分类模型建立模块202用于提取正样本语料的特征作为版权资源对应的分类特征，提取负样本语料的特征作为非版权资源对应的分类特征，并采用机器学习的方式训练得到各分类特征在所属类别(版权资源或者非版权资源)中的权值，建立分类模型。

分类模型建立模块202还用于提取待预测语料的分类特征，利用建立的分类模型确定待识别资源属于版权资源或非版权资源的置信度。

分类模型建立模块202包括特征提取模块2021和机器学习模块2022。

特征提取模块2021提取语料的分类特征，先对所述语料获取模块得到的语料进行预处理得到词项集合，将词项集合与预设的特征列表进行匹配，将匹配的词项作为分类特征。

具体地，特征提取模块2021对正样本语料进行预处理，得到正样本词项集合，将正样本词项集合与预设的特征列表进行匹配，将匹配的词项作为正样本语料的分类特征。

特征提取模块2021对负样本语料进行预处理，得到负样本词项集合，将负样本词项集合与预设的特征列表进行匹配，将匹配的词项作为负样本语料的分类特征。

特征提取模块2021对待预测语料进行预处理，得到待预测词项集合，将待预测词项集合与预设的特征列表进行匹配，将匹配的词项作为待预测语料的分类特征。

机器学习模块2022用于采用机器学习的方式训练得到各分类特征在版权资源中的权值和在非版权资源中的权值，建立分类模型。

机器学习模块2022，还用于利用建立的分类模型基于待预测语料的分类特征确定待识别资源属于版权资源或非版权资源的置信度。

识别模块30，用于根据分类模型建立模块202得到的待识别资源属于版权资源或者非版权资源的置信度，识别待识别资源是否为版权资源。

识别模块30如果识别到待识别资源属于版权资源的置信度大于预设第一阈值N1，将待识别资源识别为版权资源。如果识别到待识别资源属于非版权资源的置信度小于预设第二阈值N2，将待识别资源识别为非版权资源，其中，0＜N2≤N1＜1。或者，如果识别到待识别资源属于非版权资源的置信度大于预设的第三阈值N3，则将待识别资源识别为非版权资源，如果识别到待识别资源属于非版权资源的置信度小于预设第四阈值N4，则将待识别资源识别为版权资源，其中，0＜N4≤N3＜1。

对于识别为版权资源的资源，系统平台将会拒绝用户上传或者进行删除操作，同时允许用户申诉，对于有用户申诉的资源才通过审核人力进行审核。对于识别为非版权资源的资源，则允许用户上传。对于既不属于版权资源又不属于非版权资源的资源，例如待识别资源属于版权资源的置信度处于(N2，N1)之间的资源，处于模糊地带，系统平台将结合用户举报和人工审核进行处理。当然，所述预设第一阈值N1和预设第二阈值N2可以设置为同一个值，没有模糊地带，对于被拒绝上传或被删除的资源，则可以通过用户申诉的方式进行后续处理。

本发明的识别方法及装置基于有限的已知的版权语料和非版权资源训练得到分类模型，利用建立的分类模型可以对于任意资源定量给出版权风险判定，无需人工参与，节约了人力资源提高了效率，同时也保证了准确率、召回率以及审核结果的一致性。

本发明的识别方法及装置可以用在系统接收用户上传资料时，也可以对系统平台上累积的资源做整体扫描，对历史资源进行版权资源的识别；还可以对搜索引擎的搜索结果显示页面进行版权分类，防止版权信息，如作品的图书名，存在于摘要或正文等位置。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种版权资源识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤S1中具体包括：

获取已有的版权资源和非版权资源的标题；

3.根据权利要求1所述的方法，其特征在于，步骤S2中，提取正样本语料和负样本语料的特征，具体包括：

4.根据权利要求1所述的方法，其特征在于，所述计算各分类特征在所属类别中的权值是基于各分类特征在所述正样本语料或负样本语料中出现的词频，或者各分类特征的词频-倒文档率计算的。

5.根据权利要求1所述的方法，其特征在于，步骤S31中具体包括：

获取所述待识别资源的标题；

6.根据权利要求1所述的方法，其特征在于，步骤S32中，提取待预测语料的分类特征，具体包括：

对待预测语料进行预处理，得到待预测词项集合；

7.根据权利要求1所述的方法，其特征在于，步骤S33具体为：

8.一种版权资源识别装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述训练语料获取模块包括标题获取模块和搜索模块，

10.根据权利要求8所述的装置，其特征在于，所述分类模型建立模块提取正样本语料和负样本语料的特征时，先对语料进行预处理，用得到的词项集合与预设的特征列表进行匹配，将匹配的词项作为对应语料的特征，所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。

11.根据权利要求8所述的装置，其特征在于，所述分类模型建立模块计算各分类特征在所属类别中的权值是基于各分类特征在所述正样本语料或负样本语料中出现的词频，或者各分类特征的词频-倒文档率计算的。

12.根据权利要求8所述的装置，其特征在于，所述待预测语料获取模块包括标题获取模块和搜索模块，

所述标题获取模块用于获取所述待识别资源的标题；

13.根据权利要求8所述的装置，其特征在于，所述置信度获取模块提取待预测语料的分类特征时，先对待预测语料进行预处理，用得到的词项集合与预设的特征列表进行匹配，将匹配的词项作为待预测语料的分类特征，所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。

14.根据权利要求8所述的装置，其特征在于，所述识别模块如果识别到所述待识别资源属于版权资源的置信度大于预设第一阈值N1，将所述待识别资源识别为版权资源；