标题处理方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种标题处理方法和装置。
背景技术
在互联网视频的标题中,除了包括视频本身特征的内容外,通常还包括以许多营销为目的的内容。这些内容会干扰用户对视频本身内容的浏览。
目前,对互联网视频标题中的营销内容进行定向清除,通常的做法有两种:1.采用人工编辑的方式,逐一手工修改已有的内容标题。2.采用用户协同编辑的社会化模式,人人可以修改其标题。
但是,这些清除方法存在清除效率较低、处理时机滞后、处理方式趋同等问题。
发明内容
技术问题
有鉴于此,本发明要解决的技术问题是,如何提高对标题中的营销内容进行清除的效率。
解决方案
为了解决上述技术问题,根据本发明的一实施例,提供了一种标题处理方法,包括:
从待处理标题中提取候选内容;
提取所述候选内容的关联特征;
根据所述候选内容的关联特征,计算所述候选内容的营销评分;
根据所述营销评分和判定阈值,确定所述候选内容是否是营销内容;
在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。
对于上述方法,在一种可能的实现方式中,所述候选内容包括以下至少一种:
具有社交账号的文本片段、具有通话账号的文本片段、具有价格的文本片段、具有网址的文本片段、具有营销词汇的文本片段。
对于上述方法,在一种可能的实现方式中,所述候选内容的关联特征包括以下至少一种:
所述候选内容的长度、所述候选内容是否出现营销词汇、所述候选内容是否出现数字、所述候选内容是否出现通话账号、所述候选内容是否出现网址、所述候选内容是否出现社交账号和所述待处理标题的资源发布者的用户是否优质用户。
对于上述方法,在一种可能的实现方式中,根据所述候选内容的关联特征,计算所述候选内容的营销评分,包括:
根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分。
对于上述方法,在一种可能的实现方式中,根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分,包括:
采用式1的S型函数,计算所述候选内容的营销评分,
在式1中,y表示所述候选内容的营销评分,x表示所述候选内容的特征向量,w表示与x具有相同维度的权重向量;
其中,采用下式2所示的向量内积来计算wx的值,
在式2中,wi为所述候选内容的特征向量中的第i个特征的特征值,xi为所述第i个特征对应的权重值,i的取值范围为从0到n的整数,n为x和w的维度。
对于上述方法,在一种可能的实现方式中,根据所述营销评分和判定阈值,确定所述候选内容是否是所述营销内容,包括:
将所述营销评分大于判定阈值的所述候选内容确定为所述营销内容。
对于上述方法,在一种可能的实现方式中,还包括:
获取各训练样本,所述训练样本包括待训练标题以及所述待训练标题的营销内容;
根据所述训练样本生成正样本的特征向量和标注结果,所述正样本的特征向量为所述待训练标题的营销内容对应的第一特征向量;
根据所述训练样本生成负样本的特征向量和标注结果,所述负样本的特征向量为所述待训练标题的非营销内容对应的第二特征向量;
从各所述第一特征向量和各所述第二特征向量中选取预定数量的特征向量,代入逻辑回模型或支持向量机模型进行训练,得到权重向量。
对于上述方法,在一种可能的实现方式中,还包括:
根据训练得到的权重向量,对各所述第一特征向量和各所述第二特征向量中未参与训练的特征向量进行评分;
选择不同的阈值统计未参与训练的特征向量对应的正样本,以判断准确率;
将准确率最高的阈值确定为判定阈值。
本发明实施例还提供一种标题处理装置,包括:
内容提取模块,用于从待处理标题中提取候选内容;
特征提取模块,用于提取所述候选内容的关联特征;
第一评分模块,用于根据所述候选内容的关联特征,计算所述候选内容的营销评分;
内容确定模块,用于根据所述营销评分和判定阈值,确定所述候选内容是否是营销内容;
内容删除模块,用于在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。
对于上述装置,在一种可能的实现方式中,所述候选内容包括以下至少一种:
具有社交账号的文本片段、具有通话账号的文本片段、具有价格的文本片段、具有网址的文本片段、具有营销词汇的文本片段。
对于上述装置,在一种可能的实现方式中,所述候选内容的关联特征包括以下至少一种:
所述候选内容的长度、所述候选内容是否出现营销词汇、所述候选内容是否出现数字、所述候选内容是否出现通话账号、所述候选内容是否出现网址、所述候选内容是否出现社交账号和所述待处理标题的资源发布者的用户是否优质用户。
对于上述装置,在一种可能的实现方式中,所述第一评分模块还用于根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分。
对于上述装置,在一种可能的实现方式中,所述第一评分模块还用于:
采用式1的S型函数,计算所述候选内容的营销评分,
在式1中,y表示所述候选内容的营销评分,x表示所述候选内容的特征向量,w表示与x具有相同维度的权重向量;
其中,采用下式2所示的向量内积来计算wx的值,
在式2中,wi为所述候选内容的特征向量中的第i个特征的特征值,xi为所述第i个特征对应的权重值,i的取值范围为从0到n的整数,n为x和w的维度。
对于上述装置,在一种可能的实现方式中,所述内容确定模块还用于将所述营销评分大于判定阈值的所述候选内容确定为所述营销内容。
对于上述装置,在一种可能的实现方式中,还包括:
样本获取模块,用于获取各训练样本,所述训练样本包括待训练标题以及所述待训练标题的营销内容;
正样本生成模块,用于根据所述训练样本生成正样本的特征向量和标注结果,所述正样本的特征向量为所述待训练标题的营销内容对应的第一特征向量;
负样本生成模块,用于根据所述训练样本生成负样本的特征向量和标注结果,所述负样本的特征向量为所述待训练标题的非营销内容对应的第二特征向量;
训练模块,用于从各所述第一特征向量和各所述第二特征向量中选取预定数量的特征向量,代入逻辑回模型或支持向量机模型进行训练,得到权重向量。
对于上述装置,在一种可能的实现方式中,还包括:
第二评分模块,用于根据训练得到的权重向量,对各所述第一特征向量和各所述第二特征向量中未参与训练的特征向量进行评分;
准确率判断模块,用于选择不同的阈值统计未参与训练的特征向量对应的正样本,以判断准确率;
阈值确定模块,用于将准确率最高的阈值确定为判定阈值。
有益效果
本发明实施例与人工清除相比,能够对大量标题自动进行营销内容的识别与清除,时间延迟短,清除效率高。此外,有利于使得标题的发布规范化,提高用户观看各种多媒体资源的数量。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面,并且用于解释本发明的原理。
图1示出根据本发明一实施例的标题处理方法的流程图;
图2示出根据本发明一实施例的标题处理方法中训练过程的流程图;
图3示出根据本发明另一实施例的标题处理方法的示意图;
图4示出根据本发明一实施例的标题处理装置的结构框图;
图5示出根据本发明另一实施例的标题处理装置的结构框图;
图6示出根据本发明另一实施例的标题处理装置的结构框图。
具体实施方式
以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。
实施例1
图1示出根据本发明一实施例的标题处理方法的流程图。如图1所示,该标题处理方法可以包括:
步骤101、从待处理标题中提取候选内容;
步骤102、提取所述候选内容的关联特征;
步骤103、根据所述候选内容的关联特征,计算所述候选内容的营销评分;
步骤104、根据所述营销评分和判定阈值,确定所述候选内容是否是营销内容;
步骤105、在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。
在一种可能的实现方式中,所述候选内容包括但不限于以下至少一种:具有社交账号的文本片段、具有通话账号的文本片段、具有价格的文本片段、具有网址的文本片段、具有营销词汇的文本片段。其中,社交账号可以包括但不限于QQ号、微信号、微博号、Facebook号、Twitter号等。通话账号包括但不限于手机号、固定电话号等。营销词汇可以包括营销词典中的各种关键词,营销词典中包括的关键词可以不断更新。
本发明实施例中,将对于发布者故意在标题中加入的以网络营销为目的的内容简称为营销内容,这类内容与资源例如视频的内容本身关系不大。
在一种可能的实现方式中,所述候选内容的关联特征包括但不限于以下至少一种:所述候选内容的长度、所述候选内容是否出现营销词汇、所述候选内容是否出现数字、所述候选内容是否出现通话账号、所述候选内容是否出现网址、所述候选内容是否出现社交账号和所述待处理标题的资源发布者的用户是否优质用户。
在一种可能的实现方式中,根据所述候选内容的关联特征,计算所述候选内容的营销评分(步骤103)包括:根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分。
示例性地,根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分,可以包括:
采用式1的S型函数,计算所述候选内容的营销评分,
在式1中,y表示所述候选内容的营销评分,x表示所述候选内容的特征向量,w表示与x具有相同维度的权重向量;
其中,采用下式2所示的向量内积来计算wx的值,
在式2中,wi为所述候选内容的特征向量中的第i个特征的特征值,xi为所述第i个特征对应的权重值,i的取值范围为从0到n的整数,n为x和w的维度。
在一种可能的实现方式中,根据所述营销评分和判定阈值,确定所述候选内容是否是所述营销内容(步骤104)包括:将所述营销评分大于判定阈值的所述候选内容确定为所述营销内容。
其中,上述的权重向量和判定阈值可以通过离线的样本训练学习过程来得到。
在一种可能的实现方式中,如图2所示,该标题处理方法还包括训练得到权重向量的过程,具体可以包括:
步骤201、获取各训练样本,所述训练样本包括待训练标题以及所述待训练标题的营销内容;
步骤202、根据所述训练样本生成正样本的特征向量和标注结果,所述正样本的特征向量为所述待训练标题的营销内容对应的第一特征向量;
步骤203、根据所述训练样本生成负样本的特征向量和标注结果,所述负样本的特征向量为所述待训练标题的非营销内容对应的第二特征向量;
步骤204、从各所述第一特征向量和各所述第二特征向量中选取预定数量的特征向量,代入逻辑回模型或支持向量机模型进行训练,得到权重向量。
在一种可能的实现方式中,如图2所示,该标题处理方法还包括确定判定阈值的过程,具体可以包括:
步骤205、根据训练得到的权重向量,对各所述第一特征向量和各所述第二特征向量中未参与训练的特征向量进行评分;
步骤206、选择不同的阈值统计未参与训练的特征向量对应的正样本,以判断准确率;
步骤207、将准确率最高的阈值确定为判定阈值。
本实施例的标题处理方法,能够从标题中自动识别出营销内容并从清除,而只保留标题中描述视频本身内容的部分。与人工清除相比,本发明实施例能够对大量标题进行营销内容的识别与清除,时间延迟短,清除效率高。此外,有利于使得标题的发布规范化,提高用户观看各种多媒体资源的数量。
实施例2
本实施例的标题处理方法,可以结合人工智能和人工编辑两种优势,对任意资源例如视频的标题进行全自动的定向营销内容清除,能够从标题中识别出营销内容并从清除,而只保留标题中描述视频本身内容的部分。如图3所示,整个方法在逻辑上可以分为两个互相独立的部分:离线模块31和在线模块33。离线模块31用于进行标注样本、训练识别模型、检验识别效果(参见图2及其相关描述)。在线模块33用于实现串行处理环节中的一部分,包括提取候选片段及关联特征、识别营销内容、实时清除营销内容(参见图1及其相关描述)。
举例而言,参见图3,在线模块33实现的部分流程可以包括:
步骤1、从原始标题(即待处理标题)中提取候选片段。对输入的原始标题,按照设定的规则提取“疑似”营销内容(或称为候选内容或候选片段)。其中,提取规则可以包括但不限于以下任意一项或者多项:
规则1:出现QQ号或微信号等社交账号的文本片段。
规则2:出现手机号等通话账号的文本片段。
规则3:出现价格的文本片段。
规则4:出现网址的文本片段。
规则5:出现营销词典中关键词等营销词汇的文本片段。
其中,文本片段的截取方法有多种,例如按照常用标点符号(如句号、省略号、感叹号、空格、制表符、结尾符等)为边界截取。根据上述规则所提取出的文本片段,即是候选内容(也可以称为候选片段)。
步骤2、提取候选片段的关联特征。这个关联特征可以用于判定每一个候选片段是否真的是营销内容。其中,关联特征可以包括但不限于以下任意一项或者多项:
1)候选片段长度(整数,需归一化)。
2)候选片段是否出现营销词汇(是为1,否为0)。
3)候选片段是否出现数字(是为1,否为0)。
4)候选片段是否出现手机号等通话账号(是为1,否为0)。
5)候选片段是否出现网址(是为1,否为0)。
6)候选片段是否出现微信号等社交账号(是为1,否为0)。
7)视频发布者的用户是否优质用户(是为1,否为0)。
采用上述示例的各关联特征,可以将某一候选片段的特征表示成7维向量的形式。
举例而言,某候选片段为:“联系电话1888888888”。提取上述关联特征,可以得到特征向量为[0.9,1,1,1,0,0,0]。该特征向量从左至右对应上述7个特征维度。
需要说明的是,尽管以上述7个特征作为示例介绍了特征向量的计算方法如上,但本领域技术人员能够理解,本发明应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定特征的数量与含义。
步骤3、用S型函数(即sigmod函数)计算每一个候选片段的营销评分。
在式1中,y表示该候选片段的营销评分,x表示该候选片段的特征向量。其中,x的每一个维度对应一个上述特征。w是一个和x相同维度的向量,表示对应特征的权重,向量权重w的具体取值可以在下述的离线流程中确定。
在式1中,wx的运算规则为如下式2所示的向量内积:
在式2中,wi为候选文本的特征向量中的第i个特征的特征值,xi为第i个特征对应的权重值。其中,i的取值范围为从0到n的整数。n为x和w的维度。采用式2,可以逐一将对应维度(特征)取值和对应权重相乘,并将各自乘积结果累加。
步骤4、从原始标题中删除营销内容。计算所得到营销评分的分数范围通常在(0,1)之间。如果判定阈值为例如0.85(可以在离线阶段确定该判定阈值),可以将营销评分大于该阈值的候选片段被判定为营销内容,并将营销内容从原始标题中删除。
举例而言,参见图3,离线模块31可以确定特征的权重大小和判定阈值。具体流程可以包括:
步骤1、准备营销内容的训练样本,用于给计算机提供学习数据,每一条样本要包含:原始标题内容、以及人工标注出其中的营销内容。
实例如下:
样本1:
原始标题:“515”首届水兵舞节—北京水兵舞第八套闪亮登场QQ群号197788862
营销内容:QQ群号197788862
样本2:
原始标题:美味一品蛋酥210g仅售25#美拍
营销内容:仅售25
步骤2、训练识别模型。
具体地,可以对每一个原始的训练样本做如下处理:
1)生成正样本的特征向量和标注结果。正样本就是营销内容片断对应的特征向量(同在线阶段的特征向量生成方法相同),并且标注为1(代表正样本),形如:1:[0.9,1,1,1,0,0,0]。
2)生成一条负样本的特征向量标注结果。负样本就是非营销内容片断对应的特征向量(同在线阶段的特征向量生成方法相同),负样本来自该标题中排除已被标注为营销片断内容之外的部分,如果标题中非营销内容有多个片断(即有多个分割片断),则随机选择一个片断作为负样本,提取特征向量病标注为-1(代表负样本),最终结果形如:-1:[0.9,1,1,1,0,0,0]
3)从将处理后的特征向量中选取设定数量例如80%的特征向量,送入任意包含逻辑回归(Logistic Regression,LR)模型或者支持向量机(Support Vector Machine,SVM)模型的机器学习工具或平台中进行训练,优化得到最佳预测效果的模型参数。这些模型参数可以作为在线部分的权重向量w使用。
步骤3、检验识别效果。
具体地,可以用模型训练得到的权重向量w,对未参与训练的20%特征向量进行打分(参见在线部分的打分流程,以及式1和式2)。选择不同的阈值来统计各特征向量对应的正样本(具有营销内容的样本),以判断准确率。其中,根据所统计的正样本的数量,与之前已标注的正样本的数量,可以计算准确率。然后,可以将准确率最高的阈值,确定为在线阶段的判定阈值。
另外,可以采用下式3对离线阶段和在线阶段的一些特征进行归一化处理,然后再计算营销评分:
在式3中,l是要归一化的特征的特征值,如“候选片段长度”。max和min是所有正、负样本中的“候选样本长度”的最小值和最大值。如果在线阶段,遇到超出(min,max)的取值,可以取默认归一化结果为0.01(小于min的取值归一化默认结果)和0.99(大于max的取值归一化默认结果)。
采用人工清除标题中的营销内容,存在以下缺点:
1.清除效率较低。由于人工的精力有限,往往只能对少数热门视频内容标题中包含的营销内容进行定向清除。
2.处理时机滞后。常常在内容被观看了一定次数之后,才可能处理,而不能在内容生成的同时进行处理;
3.处理方式趋同。由于标题中营销内容的处理依赖少数编辑的经验知识,处理的全面性存在一定的缺陷。
比较而言,通过本实施例的标题处理方法,具有以下优点:
1.可以实时对每个视频标题的营销内容进行识别清除,时间延迟可以忽略,例如达到毫秒(ms)级别的延迟。
2.可以同时大量对每个视频标题进行营销内容识别清除,是人工所能处理数量的数十万倍。
3.可以对视频标题中的营销内容进行定向清除,而不用舍弃整个标题。
4.可以示范视频发布者标题的基本规范。
5.可以提高用户观看视频的数量。
实施例3
图4示出根据本发明一实施例的标题处理装置的结构框图。如图4所示,该标题处理装置可以包括:
内容提取模块41,用于从待处理标题中提取候选内容;
特征提取模块42,用于提取所述候选内容的关联特征;
第一评分模块43,用于根据所述候选内容的关联特征,计算所述候选内容的营销评分;
内容确定模块44,用于根据所述营销评分和判定阈值,确定所述候选内容是否是所述营销内容;
内容删除模块45,用于在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。
在一种可能的实现方式中,所述候选内容包括以下至少一种:
具有社交账号的文本片段、具有通话账号的文本片段、具有价格的文本片段、具有网址的文本片段、具有营销词汇的文本片段。
在一种可能的实现方式中,所述候选内容的关联特征包括以下至少一种:
所述候选内容的长度、所述候选内容是否出现营销词汇、所述候选内容是否出现数字、所述候选内容是否出现通话账号、所述候选内容是否出现网址、所述候选内容是否出现社交账号和所述待处理标题的资源发布者的用户是否优质用户。
实施例4
图5示出根据本发明另一实施例的标题处理装置的结构框图。图5中标号与图4相同的组件具有相同的功能,为简明起见,省略对这些组件的详细说明。
如图5所示,与上一实施例的主要区别在于,所述第一评分模块43还用于根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分。
在一种可能的实现方式中,所述第一评分模块43还用于:
采用式1的S型函数,计算所述候选内容的营销评分,
在式1中,y表示所述候选内容的营销评分,x表示所述候选内容的特征向量,w表示与x具有相同维度的权重向量;
其中,采用下式2所示的向量内积来计算wx的值,
在式2中,wi为所述候选内容的特征向量中的第i个特征的特征值,xi为所述第i个特征对应的权重值,i的取值范围为从0到n的整数,n为x和w的维度。
在一种可能的实现方式中,所述内容确定模块44还用于将所述营销评分大于判定阈值的所述候选内容确定为所述营销内容。
在一种可能的实现方式中,该装置还包括:
样本获取模块51,用于获取各训练样本,所述训练样本包括待训练标题以及所述待训练标题的营销内容;
正样本生成模块52,用于根据所述训练样本生成正样本的特征向量和标注结果,所述正样本的特征向量为所述待训练标题的营销内容对应的第一特征向量;
负样本生成模块53,用于根据所述训练样本生成负样本的特征向量和标注结果,所述负样本的特征向量为所述待训练标题的非营销内容对应的第二特征向量;
训练模块54,用于从各所述第一特征向量和各所述第二特征向量中选取预定数量的特征向量,代入逻辑回模型或支持向量机模型进行训练,得到权重向量。
在一种可能的实现方式中,该装置还包括:
第二评分模块55,用于根据训练得到的权重向量,对各所述第一特征向量和各所述第二特征向量中未参与训练的特征向量进行评分;
准确率判断模块56,用于选择不同的阈值统计未参与训练的特征向量对应的正样本,以判断准确率;
阈值确定模块57,用于将准确率最高的阈值确定为判定阈值。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
实施例5
图6示出根据本发明另一实施例的标题处理装置的结构框图。所述标题处理装置1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。
所述标题处理装置1100包括处理器(processor)1110、通信接口(CommunicationsInterface)1120、存储器(memory)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网络设备通信,其中网络设备包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于存放文件。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。
在一种可能的实施方式中,上述程序可为包括计算机操作指令的程序代码。该程序具体可用于:执行实施例1或实施例2的标题处理方法。
本领域普通技术人员可以意识到,本文所描述的实施例中的各示例性单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件形式来实现,取决于技术方案的特定应用和设计约束条件。专业技术人员可以针对特定的应用选择不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
如果以计算机软件的形式来实现所述功能并作为独立的产品销售或使用时,则在一定程度上可认为本发明的技术方案的全部或部分(例如对现有技术做出贡献的部分)是以计算机软件产品的形式体现的。该计算机软件产品通常存储在计算机可读取的非易失性存储介质中,包括若干指令用以使得计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各实施例方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。