发明内容
本发明的实施例要解决的技术问题是提供内容相关广告识别方法和内容相关广告服务器,可以提高内容相关广告识别的准确性。
为解决上述技术问题,本发明的实施例提供以下技术方案:
一种内容相关广告识别方法,包括:
获取目标文档的特征词集合;
根据所述特征词集合对所述目标文档进行分类,获得所述目标文档所属的类别;
根据所述目标文档所属的类别,判断广告是否符合与所述目标文档属于同一类别,且其特征词与所述目标文档的特征词集合中的特征词匹配的条件,若是,则确认该广告与所述目标文档相关。
一种内容相关广告服务器,包括:
特征词获取单元,用于获取并输出目标文档的特征词集合;
分类单元,用于根据所述特征词集合对所述目标文档进行分类,获得所述目标文档所属的类别并输出;
内容相关广告识别单元,用于根据所述目标文档所属的类别,判断广告是否符合与所述目标文档属于同一类别,且其特征词与所述目标文档的特征词集合中的特征词匹配的条件,若是,则确认该广告与所述目标文档相关。
从以上技术方案可以看出,在本发明实施例中,识别广告是否为与目标文档相关的广告时,不但要使广告与目标文档的关键字匹配,还要保证广告与目标文档的类别相同,从而保证查找到的广告与目标文档的主题也具有较好的相关性;当出现广告与目标文档的关键字匹配,而两者的主题不同,甚至相差很远的情况时,由于广告与目标文档的主题不相关时,两者各自所属的类别通常也不相同,因此,该广告并不会被识别成与目标文档相关的广告;综上所述,与现有技术相比,本发明实施例可以提高内容相关广告识别的准确性。
具体实施方式
下面结合附图,对本发明提供的内容相关广告识别方法和内容相关广告服务器的推荐实施例进行详细描述。
请参考图1,本发明内容相关广告识别方法实施例一的流程图,所述方法包括以下流程:
A1、获取目标文档的特征词集合;
在本发明实施例中,文档的特征词可以广义理解为字、词、词组或字串等,可以是从文档中提取出的关键词,和/或能够表征文档主题的主题词等;
在本发明实施例中,目标文档主要指将要提供给客户端的文档,例如网页等;
此外,还可以进一步获取特征词集合中特征词的权值;特征词的权值用于表征特征词相对于文档主题的相关程度,特征词的权值越高,表示该特征词越能够代表文档主题;特征词的权值具体可以是特征词在文档中出现的频度,或者依据特征词的频度通过具体算法计算获得;
文档的特征词集合,以及集合中特征词的权值主要是通过智能分词、特征词提取等技术对文档进行处理而获得,在具体实现时,可以根据实际需求,参考智能分词、特征词提取等技术领域的相关算法加以实现,在此不做赘述;
A2、根据所获取的目标文档的特征词集合对所述目标文档进行分类,获得所述目标文档所属的类别;
对目标文档的分类主要通过文本自动分类技术实现,其中一种可选的分类方法实例是:分别获取各类别的分类样本集与所获取的目标文档的特征词集合的相似度,并确定与所述特征词集合的相似度最大的分类样本集;将所述目标文档划分到所确定的分类样本集对应的类别;在具体实现时,可以参考自动分类技术领域的相关算法;
其中,分类样本集主要是指与相应类别的主题相关的多个特征词的集合,特征词可以是字、词、词组或字串等;
服务器端根据业务环境的需求建立类别树,类别树可以只有一级,也可以为多级,当类别数为多级时,可以根据实际需求将目标文档分类到所需深度的级别,分类到越深的级别,分类的粒度越细;
图2给出具有两级拓扑结构的类别树的实例图,在图中,财经、娱乐、体育属于第一级(以下称为大类),而足球、篮球、游泳是体育的子类,属于第二级(以下称为小类);
当根据上述的分类方法实例将目标文档分类到大类时,可以将上述分类方法中获取相似度的类限制在大类中,即只对各大类的分类样本集进行处理;
当根据上述的分类方法实例将目标文档分类到小类时,可以通过两种方式实现;一种是:将上述分类方法中获取相似度的类限制在小类中,即只对各小类的分类样本集进行处理,该方式较适用于各大类中所包括的小类无重复的情况,由于需要对所有小类的分类样本集进行处理,因此运算量较大;另外一种是:先对各大类的分类样本集进行处理,将目标文档分类到相应的大类的相应类别,接着对该类别内包括的各类别的分类样本集进行处理,将目标文档分类到相应的小类;
对目标文档进行分类时,还可以参考目标文档的特征词集合中各特征词的权值;
A3、根据所述目标文档所属的类别,判断广告是否符合与所述目标文档属于同一类别,且其特征词与所述目标文档的特征词集合中的特征词匹配的条件,若是,则确认所述广告与所述目标文档相关;
广告具有类别属性,以及对应的特征词集合;通常,根据广告登记信息,以及从广告链接网站上的相关信息等内容确定广告的类别,以及广告的特征词集合;
其中,广告与目标文档属于同一类别主要是指广告和目标文档在规定级别下的类别相同,且所属上级类别也相同,以保证广告的主题与目标文档的主题具有较好的相关性;较佳的,可设置该规定级别具有较粗粒度,即,使该规定级别的深度较小,从而在相对大的范围内保证与目标文档的主题不同的广告不会被识别为目标文档相关的广告;
其中,所述广告的特征词与目标文档的特征词集合中的特征词匹配具体可以是:广告和目标文档有一个或多个特征词相匹配;广告和目标文档的匹配程度可以作为广告投放顺序的标准之一;
在本方法实施例中,识别广告是否为与目标文档相关的广告时,不但要使广告与目标文档的关键字匹配,还要保证广告与目标文档的类别相同,从而保证查找到的广告与目标文档的主题也具有较好的相关性;当出现广告与目标文档的关键字匹配,而两者的主题不同,甚至相差很远的情况下,由于广告与目标文档的主题不相关时,两者各自所属的类别通常也不相同,因此,该广告并不会被识别成与目标文档相关的广告;综上所述,与现有技术相比,本发明实施例可以提高内容相关广告识别的准确性。
本发明内容相关广告识别方法实施例二;本实施例与上述实施例一基本相同,主要区别在于,在步骤A2和A3之间还包括:
A2′、根据所述目标文档所属类别的相关信息,对所获取的目标文档的特征词集合进行扩展;
其中,所述相关信息具体可以是目标文档所属类别的分类样本集,和/或目标文档所属类别的主题信息等;
根据目标文档所属类别的分类样本集,对目标文档的特征词集合进行扩展具体可以是:将目标文档所属类别的分类样本集中符合预定条件的样本词增加到目标文档的特征词集合;所述符合预定条件的样本词具体可以是在目标所属类别的分类样本集中的权值较大,且在目标文档中不存在的样本词;
根据目标文档所属类别的主题信息,对目标文档的特征词集合进行扩展具体可以是:将目标文档所属类别的主题词增加到目标文档的特征词集合;
在本方法实施例中,较佳的,可以根据目标文档在较细粒度级别下所属类别的相关信息,对目标文档的特征词集合进行扩展,使得扩展后的目标文档的特征词集合中的特征词更加具体,从而提高所述特征词集合的覆盖面。
在本方法实施例中,在对目标文档进行分类后,根据目标文档所属类别的相关信息,对目标文档的特征词集合进行扩展,使得目标文档的特征词集合中不仅包括从所述文档中提取的特征词,还包括与所属类别对应的特征词,从而提高了目标文档的特征词集合的覆盖面,因此当广告和目标文档的主题较相关,而关键字无法匹配时,可以提高该广告被识别为目标文档相关广告的可能性,从而进一步提高内容相关广告识别的准确性。
参考图3本发明内容相关广告服务器实施例一的结构图;所述内容相关广告服务器包括特征词获取单元310、分类单元320和内容相关广告识别单元330:
特征词获取单元310,用于获取并输出目标文档的特征词集合;
分类单元320,用于根据特征词获取单元310输出的特征词集合对所述目标文档进行分类,获得目标文档所属的类别后输出;
内容相关广告识别单元330,用于根据分类单元320输出的目标文档所属的类别,判断广告是否符合与所述目标文档属于同一类别,且其特征词与特征词获取单元310输出的目标文档的特征词集合中的特征词匹配的条件,若是,则确认该广告与所述目标文档相关。
所述内容相关广告服务器实施例一具体可以采用内容相关广告识别方法实施例一中的方法实现。
参考图4本发明内容相关广告服务器实施例二的结构图;所述内容相关广告服务器包括特征词获取单元410、分类单元420、扩展单元430和内容相关广告识别单元440:
特征词获取单元410,用于获取并输出目标文档的特征词集合;
分类单元420,用于根据特征词获取单元410输出的特征词集合对所述目标文档进行分类,获得目标文档所属的类别并输出;
扩展单元430,用于根据目标文档所属类别的相关信息,对特征词获取单元410输出的目标文档的特征词集合进行扩展并输出;
内容相关广告识别440,用于根据分类单元420输出的目标文档所属的类别,判断广告是否符合与所述目标文档属于同一类别,且其特征词与扩展单元430输出的目标文档的特征词集合中的特征词匹配的条件,若是,则确认该广告与所述目标文档相关。
所述内容相关广告服务器实施例二具体可以采用内容相关广告识别方法实施例二中的方法实现。
以上对本发明实施例所提供的内容相关广告识别方法和内容相关广告服务器进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。