CN104572775B - 广告分类方法、装置及服务器 - Google Patents
广告分类方法、装置及服务器 Download PDFInfo
- Publication number
- CN104572775B CN104572775B CN201310516732.1A CN201310516732A CN104572775B CN 104572775 B CN104572775 B CN 104572775B CN 201310516732 A CN201310516732 A CN 201310516732A CN 104572775 B CN104572775 B CN 104572775B
- Authority
- CN
- China
- Prior art keywords
- classification
- commodity
- title
- default
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computational Linguistics (AREA)
Abstract
本发明公开了一种广告分类方法、装置及服务器,属于信息技术领域。所述方法包括:根据待分类的广告的文本信息,得到该文本信息的多个特征词;根据每个特征词在该文本信息中的统计信息以及该每个特征词在已知商品标题中的统计信息,获取该每个特征词的词频‑逆文档频率TFIDF值作为该每个特征词的权值;根据该每个特征词的权值、该广告的分类信息以及预设分类模型,获取该广告的类目。本发明通过将每个预设类目对应的商品标题作为已知商品标题和语料库,避免了采用人工标注的方式来选取广告中的数据,从而减少了对广告分类所消耗的时间,同时将广告的分类信息对应的特征也加入到预设分类模型中计算,从而提高了广告分类的精度。
Description
技术领域
本发明涉及信息技术领域,特别涉及一种广告分类方法、装置及服务器。
背景技术
随着广告的快速发展,如何将一则广告准确的推送给对该广告感兴趣的用户是亟需解决的问题。现有技术中,一般应用广告分类,将广告分为不同的类目,从而根据类目向该类目的目标用户推送广告。
一般地,在进行广告分类时,需要利用特征向量表示广告的文本信息,并通过人工标注的方式对广告中的数据进行标注,然后对其标注的数据进行特征提取,得到与所属类别语义相关的特征,最后根据得到的特征与分类模型,如朴素贝叶斯分类模型或SVM(Support Vector Machine,支持向量机)分类模型等,对广告进行分类。进而在进行广告推送时,根据分类模型对广告进行分类得到的类目进行推送。由于这些广告可以由企业自主设计推广时间、地域和预算等,同时这些广告还降低了企业的广告成本,提高了用户的点击率,因此而受到企业的普遍关注。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
在广告分类的过程中,通常采用人工标注的方式来选取广告中的数据,分类所消耗的时间长。尽管SVM分类模型和朴素贝叶斯分类模型对广告的分类效果较好,但是面对复杂多样的广告,仅仅利用文本信息中得到的特征和一个单独的模型对广告进行分类的精度较低。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种广告分类方法、装置及服务器。所述技术方案如下:
第一方面,提供了一种广告分类方法,该方法包括:
根据待分类的广告的文本信息,得到该文本信息的多个特征词;
根据每个特征词在该文本信息中的统计信息以及该每个特征词在已知商品标题中的统计信息,获取该每个特征词的词频-逆文档频率TFIDF值作为该每个特征词的权值;
根据该每个特征词的权值、该广告的分类信息以及预设分类模型,获取该广告的类目。
第二方面,提供了一种广告分类装置,该装置包括:
特征词获取模块,用于根据待分类的广告的文本信息,得到该文本信息的多个特征词;
权值获取模块,用于根据每个特征词在该文本信息中的统计信息以及该每个特征词在已知商品标题中的统计信息,获取该每个特征词的词频-逆文档频率TFIDF值作为该每个特征词的权值;
类目获取模块,用于根据该每个特征词的权值、该广告的分类信息以及预设分类模型,获取该广告的类目。
第三方面,提供了一种服务器,该服务器包括:处理器和存储器,该处理器与该存储器相连接,
该处理器,用于根据待分类的广告的文本信息,得到该文本信息的多个特征词;
该处理器还用于根据每个特征词在该文本信息中的统计信息以及该每个特征词在已知商品标题中的统计信息,获取该每个特征词的词频-逆文档频率TFIDF值作为该每个特征词的权值;
该处理器还用于根据该每个特征词的权值、该广告的分类信息以及预设分类模型,获取该广告的类目。
本发明实施例提供的技术方案带来的有益效果是:
通过根据待分类的广告的文本信息,得到该文本信息的多个特征词,并将每个预设类目对应的商品标题作为已知商品标题和语料库,避免了采用人工标注的方式来选取广告中的数据,从而减少了对广告分类所消耗的时间。同时,服务器在对广告进行分类时将广告的分类信息对应的特征也加入到预设分类模型中计算,进而得到广告的类目,避免了仅仅利用文本信息中得到的特征词和一个单独的预设分类模型对广告进行分类的精度较低的情况,从而提高了广告分类的精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种广告分类方法流程图;
图2是本发明实施例提供的一种广告分类方法流程图;
图3是本发明实施例提供的一种建立预设分类模型的流程图;
图4是本发明实施例提供的一种对广告进行分类的流程图;
图5是本发明实施例提供的一种广告分类装置结构示意图;
图6是本发明实施例提供的一种服务器结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种广告分类方法流程图。参见图1,该实施例的执行主体为服务器,该方法包括:
101、根据待分类的广告的文本信息,得到该文本信息的多个特征词;
102、根据每个特征词在该文本信息中的统计信息以及该每个特征词在已知商品标题中的统计信息,获取该每个特征词的词频-逆文档频率TFIDF值作为该每个特征词的权值;
103、根据该每个特征词的权值、该广告的分类信息以及预设分类模型,获取该广告的类目。
本发明实施例提供的方法,通过根据待分类的广告的文本信息,得到该文本信息的多个特征词,并将每个预设类目对应的商品标题作为已知商品标题和语料库,避免了采用人工标注的方式来选取广告中的数据,从而减少了对广告分类所消耗的时间。同时,服务器在对广告进行分类时将广告的分类信息对应的特征也加入到预设分类模型中计算,进而得到广告的类目,避免了仅仅利用文本信息中得到的特征词和一个单独的预设分类模型对广告进行分类的精度较低的情况,从而提高了广告分类的精度。
图2是本发明实施例提供的一种广告分类方法流程图。参见图2,该实施例的执行主体为服务器,该方法流程可以包括建立预设分类模型的过程以及应用该预设分类模型对广告进行分类的过程,下述步骤201~208为服务器建立预设分类模型的过程:
201、服务器获取多条广告对应的预设类目;
需要说明的是,本发明实施例中涉及到了预设类目和原类目,其中,预设类目是由广告商设定的类目,广告商在发布一条广告时,通过人工分类的方式确定该广告所属的预设类目。原类目为广告主所确定的类目,该原类目与预设类目可以相同,也可以不同,如对于一条广告来说,广告主在将广告委托给广告商发布之前,将该广告的原类目确定为“服饰配件”,而广告商在发布该广告时,为该广告确定的预设类目可能为“饰品”。当然,原类目可以是预设类目或商品类目中的一种,又或者,该原类目可以与至少一个预设类目或商品类目具有对应关系。
202、服务器根据该预设类目与商品类目之间的一对多的对应关系,获取与该多条广告对应的预设类目中每个预设类目对应的商品标题;
其中,商品类目是指电子商务中的商品类目,如商品类目可以包括拍拍网中的商品类目、淘宝网中的商品类目或是几个不同的运营商提供的商品类目的结合等,当然该商品类目也可以不限于上述两种购物网站中的商品类目,还可以包括其它电子商务的商品类目,本发明实施例对商品类目的来源不做限定。
经过对大量广告进行分类的过程,我们发现,在对广告的文本信息进行分析的过程中,广告的文本信息与商品类目对应的商品标题类似,即广告的文本信息中包含的特征词与商品标题中包含的特征词相同或相近,因此可以将电子商务的商品作为训练样本,通过预设类目与商品类目的映射关系,获取每个商品的预设类目,从而可以把商品的商品标题作为训练样本使用,从而将预设比例的商品标题作为语料库,根据大量的商品标题与商品类目之间的关系,建立预设分类模型。
该步骤202具体为,每个商品类目对应于多个商品标题,服务器在得到该多条广告对应的预设类目后,根据商品类目对应的商品标题,并利用建立的每个预设类目与商品类目之间的一对多的对应关系,得到多个预设类目中的每个预设类目对应的商品标题。
如,当预设类目为服装时,该预设类目对应的商品类目分别为男装和女装,其中,商品类目为男装的商品标题包括商品标题A、商品标题B,商品类目为女装的商品标题包括商品标题C、商品标题D、商品标题E、商品标题F,则服装对应的商品标题分别为商品标题A、商品标题B、商品标题C、商品标题D、商品标题E和商品标题F。
203、服务器根据每个原类目对应的广告数目,对该每个预设类目对应的商品标题进行调整,使得该每个预设类目对应的商品标题数目均衡;
由于通过步骤202的过程,得到该预设类目中每个预设类目对应的商品标题的数目可能比较多,这样势必会使得后续过程中对这些商品标题进行分词的过程更加繁琐,为了使后续对这些商品标题进行分词的过程简单有效,需要对每个预设类目对应的商品标题进行调整。则该步骤203具体为:服务器根据该广告的分类信息中原类目,得到每个原类目对应的广告数目,移动终端根据该每个原类目对应的广告数目在广告总数中所占的比例,对该每个预设类目对应的商品标题进行调整,使得商品标题数目在该预设类目中分布均衡。
可选地,服务器根据该广告的分类信息中原类目,得到每个原类目对应的广告数目,移动终端根据该每个原类目对应的广告数目在广告总数中所占的比例,根据原类目与预设类目之间的对应关系,对与该原类目对应的至少一个预设类目对应商品标题进行调整,使得该原类目对应的至少一个预设类目对应商品标题占总标题数目的比例数目接近或等于该原类目对应的广告数目在广告总数中所占的比例,从而使得商品标题数目在该预设类目中分布均衡。
例如,当某一原类目对应的广告数目占总广告数目的10%,则在调整预设类目对应的商品标题数目时,将该原类目对应的第一预设类目和第二预设类目对应的商品标题总数调整至占已知商品标题比例为10%。
需要说明的是,广告的原类目可以包括在广告的分类信息中,该广告的分类信息可以包括广告标题、广告描述、广告关键字、广告的原类目、广告图片特征(如图片的像素,图片的亮度等)、广告图片中的文字等,当然,广告的分类信息还可以包括上述信息以外的其它信息,本发明实施例对此不做限定。
204、服务器从调整后每个预设类目对应的商品标题中选出预设比例的商品标题,并对选出的该预设比例的商品标题进行分词,得到每个商品标题的分词结果;
为了对后续过程中建立的预设分类模型进行准确性验证,需要将调整后每个预设类目对应的商品标题根据预设比例分成两个部分,一部分用来建立预设分类模型,一部分用来对预设分类模型进行准确性验证。同时,由于商品标题中包含了很多内容,为了简化后续的分析过程,需要将商品标题中包含的词才分出来。因此,该步骤204具体为:服务器从调整后的每个预设类目对应的商品标题中选出预设比例的商品标题,将这些商品标题看做广告的文本信息,并对选出的该预设比例的商品标题进行分词,并对分词得到的初步结果进行过滤,得到每个商品标题的分词结果。其中,该过滤包括过滤停用词、合并数字和人名和过滤助词等,如过滤停用词“一些”,过滤助词“的”等。
例如,对于商品标题“三星S7898,全网价格最低,正在火热抢购中”,将该商品标题进行分词后可以包括:“三星”、“价格”、“最低”等。
需要说明的是,预设比例可以是技术人员在开发时设置,也可以是广告商在使用的过程中进行调整,本发明实施例对此不做限定。同时,该预设比例的具体数值可以为90%或80%等,当然,该预设比例也可以是100%,当该预设比例为100%时,对后续预设分类模型的准确性验证阶段,可以采用新加入的商品标题对预设分类模型进行准确性验证,本发明实施例对预设比例的具体数值不做限定。
205、服务器根据该每个商品标题的分词结果中的每一个词在该预设比例的商品标题中的出现次数,获取该出现次数大于第一预设阈值的词;
其中,出现次数可以为DF(Document Frequency,文档频率)。
由于对每个商品标题进行分词后得到的分词结果中仍然包含大量内容,为了简化后续的分析过程,需要在每个商品标题的分词结果中选取出现频率较大的词来代表该商品标题。则该步骤205具体为:服务器得到每个商品标题的分词结果后,该服务器统计分词结果中每一个词在预设比例的商品标题中的出现次数,根据每一个词在预设比例的商品标题中的出现次数,查找并提取出现次数大于第一预设阈值的词。
基于步骤204的示例,当第一预设阈值为4时,服务器根据分词结果中的每一个词在该预设比例的商品标题中的出现次数,确定“三星”和“最低”两个词在该预设比例的商品标题中的出现次数都大于4,则服务器获取“三星”和“最低”两个词。
需要说明的是,第一预设阈值可以是由技术人员在开发时设置,也可以是广告商在实际应用中调整,本发明实施例对此不做限定。如,当该第一预设阈值为4时,则服务器根据该每个商品标题的分词结果中的每一个词在该预设比例的商品标题中的出现次数,获取出现次数大于4的词。
206、服务器根据该出现次数大于第一预设阈值的词,利用预设统计算法进行特征提取,得到多个标题特征词;
为了选择更能够代表商品标题的特征词,需要对文档中出现频率较高的词进行进一步的提取。则该步骤206具体为:服务器将出现次数大于第一预设阈值的词分别利用预设统计算法计算其分值,根据DF大于第一预设阈值的词中每一个词的分值,选取分值的大小满足预设规则的词作为标题特征词。
其中,预设统计算法和预设规则可以是技术人员在开发时设置,还可以是广告商在使用的过程中调整,本发明实施例对预设统计算法和预设规则如何设置不做限定。选取分值的大小满足预设规则的词可以是以下任一情况:(1)根据分值的大小,从中选出一定数目的较大的分值对应的词。(2)根据分值的大小,从中选取分值大于第三预设阈值的词。当然,该过程的实现也可以是通过其他方式来进行,本发明实施例对选取分值的大小满足预设规则的词的实现过程不做限定。
例如,该预设统计算法可以是卡方统计,当该预设统计算法为卡方统计时,服务器将出现次数大于第一预设阈值的词,如步骤205示例中“三星”和“最低”两个词,将其分别代入以下公式进行计算:
其中,A表示预设类目为c的所有商品标题中包含有词t的商品标题数,B表示预设类目中除了c以外的所有商品标题中包含有词t的商品标题数,C表示预设类目为c的所有商品标题中不包含有词t的商品标题数,D表示预设类目中除了c以外的所有商品标题中不包含有词t的商品标题数,K=A+B+C+D,K表示预设比例的商品标题总数。
根据上述公式得到:出现次数大于第一预设阈值的词中每一个词与每一个预设类目的卡方值,然后将上述得到的卡方值代入以下任何一个公式中,计算出现次数大于第一预设阈值的词中每一个词的分值。
服务器可以根据该出现次数大于第一预设阈值的词中每一个词的分值的大小对这些词进行排序,得到由大到小排列的多个词,从中选出预设数目的词作为标题特征词;或服务器也可以根据该出现次数大于第一预设阈值的词中每一个词的分值的大小,从中选出分值大于第三预设阈值的多个词作为标题特征词。
207、服务器根据该每个标题特征词在对应的商品标题中出现的次数、预设比例的商品标题数和该每个标题特征词在该预设比例的商品标题中出现的次数,获取该每个标题特征词的TFIDF(Term Frequency Inverse Document Frequency,词频-逆文档频率)值作为该每个标题特征词的权值;
具体地,服务器统计每个标题特征词在对应的商品标题中出现的次数、预设比例的商品标题数目和每个标题特征词在预设比例的商品标题中出现的次数,并根据上述信息,通过以下公式得到每个标题特征词的TFIDF值,
其中,TFIDF(t,d)表示词t在商品标题d中的权重,TF(t,d)表示词t在商品标题d中出现的频率,N为语料库中商品标题总数,ni为语料库中出现词t的商品标题数目。
服务器将通过上述公式得到的每个标题特征词的TFIDF值作为该每个标题特征词的权值。
208、服务器根据该每个标题特征词的权值和预设分类算法,建立预设分类模型;
为了能够寻找到多个标题特征词对应的权值所遵循的规律,服务器需要利用每个标题特征词的权值和预设分类算法,找出该规律。则该步骤208具体为:服务器根据获取到的每个标题特征词的权值和该服务器中的预设分类算法,进行机器学习,服务器根据该机器学习的结果建立预设分类模型。
需要说明的是,预设分类算法可以有技术人员在开发时设置,也可以是广告商在使用的过程中调整,本发明实施例对此不做限定。该预设分类算法具体可以是朴素贝叶斯分类算法或SVM(Support Vector Machine,支持向量机)分类算法。
以上步骤201~208是服务器以商品标题看做是广告,并以预设比例的商品标题作为语料库,进而建立预设分类模型的过程。在服务器建立了预设分类模型后,该服务器需要确定该预设分类模型的准确率,以此来判断该预设分类模型是否可以用来对广告进行分类。因此,该服务器需要进行以下步骤209:
209、服务器将该预设比例的商品标题以外的商品标题作为广告,根据该预设分类模型对预设比例的商品标题以外的商品标题进行分类,并确定该预设分类模型的准确率;
该步骤209具体可以包括以下步骤209a~209g:
209a、服务器将该预设比例的商品标题以外的商品标题作为广告,对该预设比例的商品标题以外的商品标题中的每个商品标题进行分词,得到该每个商品标题的分词结果;
为了简化分析过程,服务器需要从预设比例的商品标题以外的商品标题中提取出一些有针对性的词,为了便于该提取操作,服务器需要对这些商品标题进行分词。该步骤209a具体为:服务器以预设比例的商品标题以外的商品标题为测试样本,该步骤209a与步骤204同理,在此不再赘述。
209b、服务器对该每个商品标题的分词结果中的词进行特征提取,得到多个词;
为了从商品标题中选出具有针对性的词,服务器可以预先设置多个特征词,从而根据该预先设置的多个特征词对每个商品标题的分词结果中的词进行特征提取。则该步骤209b具体包括:服务器根据预先设置的多个特征词,对每个商品标题的分词结果中的词进行特征提取,得到多个与预先设置的特征词相同的词。
其中,预先设置的多个特征词为服务器在建立预设分类模型的过程中,进行步骤206的过程后,得到的多个标题特征词。
例如,对于商品标题为“2013秋装新款,中年男装、外套,男士休闲夹克衫”当服务器对该商品标题进行分词,得到的分词结果为“秋装”、“男装”、“外套”、“夹克”,且服务器预先设置的多个特征词中包含“男装”和“秋装”时,服务器对“秋装”、“男装”、“外套”、“夹克”的分词结果中的词进行特征提取后得到“男装”和“秋装”。
209c、服务器根据该多个词中每个词在该每个词对应的商品标题中出现的次数、该预设比例的商品标题以外的商品标题数和该每个词在该预设比例的商品标题以外的商品标题中出现的次数,获取该多个词中每个词的TFIDF值作为该每个词的权值;
为了得到该多个词在该预设比例的商品标题以外的商品标题中的重要性,需要计算得到的该多个词的权值。该步骤209c与步骤207同理,在此不再赘述。
209d、服务器将该每个词的权值输入预设分类模型中进行计算,获取该预设比例的商品标题以外的商品标题中每个商品标题对应的类目;
为了判断通过预设分类模型对商品标题进行分类得到的类目是否与该商品标题的预设类目相同,需要将商品标题中经过分词和特征提取后得到的多个词中的每个词的权值代入预设分类模型。该步骤209d具体为:服务器将该多个词中的每个词的权值代入到预设分类模型进行计算,根据该预设分类模型的计算结果,得到该预设比例的商品标题以外的商品标题中每个商品标题对应的类目。
209e、服务器判断该每个商品标题对应的类目是否与该每个商品标题对应的预设类目相同;
具体地,服务器得到每个商品标题对应的类目后,根据步骤202中获取到的该预设类目中每个预设类目与商品标题的对应关系,判断每个商品标题对应的类目是否与该每个商品标题对应的预设类目相同,并统计该预设比例的商品标题以外的商品标题对应的类目与该商品标题对应的预设类目相同的商品标题的数目。
例如,当服务器通过步骤209d得到某个商品标题对应的类目为手机时,服务器根据预设类目与商品标题之间的对应关系,得到该商品标题对应的预设类目,并判断该商品标题对应的预设类目是否为手机。
如果经分类后得到的商品标题对应的类目与该商品标题对应的预设类目相同的数目达到第二预设阈值时,执行步骤209f;
如果经分类后得到的商品标题对应的类目与该商品标题对应的预设类目相同的数目未达到第二预设阈值时,执行步骤209g。
209f、当经分类后得到的商品标题对应的类目与该商品标题对应的预设类目相同的数目达到第二预设阈值时,服务器确定利用该预设分类模型得到广告的类目准确;
其中,第二预设阈值可以由技术人员在开发时设置,也可以由广告商在使用的过程中调整,本发明实施例对此不做限定。可选地,该第二预设阈值可以为经分类得到的类目与预设类目相同的商品标题数目在用于检验准确性时所用商品标题总数所占的比例,如90%等。
需要说明的是,当服务器确定利用该预设分类模型得到广告的类目准确时,服务器保存该预设分类模型,并可以利用该预设分类模型对广告进行分类。
209g、当经分类后得到的商品标题对应的类目与该商品标题对应的预设类目相同的数目未达到第二预设阈值时,服务器确定利用该预设分类模型得到广告的类目不准确;
需要说明的是,当服务器确定利用该预设分类模型得到广告的类目不准确时,服务器可以继续执行步骤201~208的过程,重新建立或调整预设分类模型。
图3是本发明实施例提供的一种建立预设分类模型的流程图。参见图3,该流程图包括步骤201~209的全部过程。其中,用于建立模型的广告以及电子商务的商品标题可以存储于分布式存储系统中,通过分析多条广告,得到每个原类目对应的广告数目,以便在以电子商务的商品标题作为训练样本的对应关系建立过程中,可以根据原类目和预设类目中的分布,调整对应关系,然后,对商品标题进行分词以及统计信息的计算,最终建立预设分类模型,并确定预设分类模型的准确率。
根据步骤209f的过程,当服务器确定利用该预设分类模型得到广告的类目准确时,服务器可以利用该预设分类模型对广告进行分类,即以下步骤210~214的过程:
210、服务器获取待分类的广告的文本信息;
当服务器得到待分类的广告时,该服务器获取该待分类的广告中的文本信息。进一步地,该服务器得到待分类的广告时,还可以获取到该广告的分类信息。
211、服务器对该文本信息进行分词,得到多个词;
具体地,根据步骤204的过程对广告中的文本信息进行分词,并过滤停用词等操作后,得到多个词。
212、服务器对该多个词进行特征提取,得到该文本信息的多个特征词;
具体地,根据步骤209b的过程对该多个词进行特征提取,最终得到该广告中的文本信息中的多个特征词。其中对该多个词进行特征提取的过程可以参照步骤209b所述的具体过程执行,在此不再赘述。
213、服务器根据每个特征词在该文本信息中的统计信息以及该每个特征词在已知商品标题中的统计信息,获取该每个特征词的词频-逆文档频率TFIDF值作为该每个特征词的权值;
具体地,服务器将步骤203中调整后的每个预设类目对应的商品标题作为语料库,将该预设类目对应的商品标题作为已知商品标题,则该服务器根据每个特征词在该文本信息中出现的次数、已知商品标题总数和该每个特征词在该已知商品标题中出现的次数,通过步骤207中提供的TFIDF值的计算公式,得到每个特征词的TFIDF值作为该每个特征词的权值。
214、服务器根据该每个特征词的权值、该广告的分类信息以及预设分类模型,获取该广告的类目;
服务器根据该广告中的分类信息,对该分类信息进行如步骤211的分词和步骤212的特征提取过程之后,得到分类信息中包含的多个分类信息特征词,通过对这些分类信息特征词进行如步骤213的过程之后,得到每个分类信息特征词的TFIDF值作为该每个分类信息特征词的权值,将该每个分类信息特征词的权值和该每个特征词的权值输入到预设分类模型中进行计算,根据该预设分类模型的计算结果,得到该广告的类目。
上述步骤210~214是服务器根据预设分类模型对广告进行分类的过程,在本发明实施例中,对广告的分类方法并不单单包括上述一种方法,本发明实施还包括如步骤215~217所述的分类方法:
215、当该广告的文本信息中包括指定商品信息时,服务器根据该指定商品信息,从预设商品信息与商品类目的对应关系中获取指定商品类目,该指定商品类目为该指定商品信息对应的商品类目,该指定商品信息为指定商品标识和/或指定商品标题;
具体地,根据步骤210的过程,服务器获取到待分类的广告的文本信息,当该服务器确定该文本信息中包含指定商品标识和/或指定商品标题时,服务器根据该服务器中商品标识和/或商品标题与商品类目之间的对应关系,查找到该指定商品标识和/或指定商品标题对应的商品类目。
需要说明的是,商品标识可以是商品的名称、商品的ID(Identity,身份标识号码)等,本发明实施例对此不做限定。
例如,当某条广告的文本信息中包括“三星S7898”这个指定商品名称,则服务器根据该服务器中商品标识和/或商品标题与商品类目之间的对应关系,查找到“三星S7898”对应的商品类目,如果其对应的商品类目为手机,则“三星S7898”对应手机。
216、服务器根据该指定商品类目,从预设类目与商品类目之间的一对多的对应关系中获取与该指定商品类目对应的预设类目;
具体地,服务器根据建立预设分类模型的过程,即步骤202所示的过程中的预设类目与商品类目之间的一对多的对应关系,从该对应关系中查找到该指定商品标识和/或指定商品标题对应的商品类目,从而得到将该商品类目对应的预设类目。
217、服务器将该指定商品类目对应的预设类目获取为该广告的类目;
本发明实施还包括如步骤218~221所述的分类方法:
218、当该多个特征词中包含至少一个已知的品牌特征词时,服务器根据该至少一个已知的品牌特征词中的每一个品牌特征词在该文本信息中的统计信息以及该每一个品牌特征词在已知商品标题中的统计信息,获取该每一个品牌特征词的TFIDF值作为该每一个品牌特征词的权值;
具体地,根据步骤212的过程,当服务器将广告的文本信息进行分词和特征提取后,得到多个特征词后,服务器会将这些特征词与服务器中的品牌特征词进行对比,确定该多个特征词中是否包含已知的品牌特征词。当该多个特征词中包含至少一个已知的品牌特征词时,服务器将步骤203中调整后的每个预设类目对应的商品标题作为语料库,将该预设类目对应的商品标题作为已知商品标题,该服务器根据该至少一个已知的品牌特征词中的每个品牌特征词在该文本信息中出现的次数、已知商品标题总数和该每个品牌特征词在该已知商品标题中出现的次数,得到该每个品牌特征词的权值。其中,得到该每个品牌特征词的权值的过程具体参见步骤207的过程,在此不再赘述。
其中,已知的品牌特征词可以由技术人员在开发是设置,也可以由广告商在使用的过程中调整,本发明实施例对此不做限定。该已知的品牌特征词可以包括三星、诺基亚、苹果、真维斯、阿迪达斯、耐克等。
例如,当该多个特征词中包含三星、诺基亚、苹果三个品牌特征词时,服务器通过步骤207的公式计算上述三个品牌特征词的权值。
219、服务器根据已知的品牌特征词与商品类目之间的对应关系、该预设类目与商品类目之间的一对多的对应关系,得到该每一个品牌特征词对应的预设类目;
具体的,服务器根据已知的品牌特征词与商品类目之间的对应关系,从中查找到该每一个品牌特征词对应的商品类目,然后根据该预设类目与商品类目之间的一对多的对应关系,得到该每一个品牌特征词对应的商品类目对应的预设类目,进而得到该每一个品牌特征词对应的预设类目。
基于步骤218的示例,当服务器根据已知的品牌特征词与商品类目之间的对应关系、该预设类目与商品类目之间的一对多的对应关系,得到三星和诺基亚两个品牌特征词对应的预设类目都是手机,而苹果这个品牌特征词对应的预设类目为水果。
220、服务器将属于同一预设类目的品牌特征词的权值相加,得到该每一个品牌特征词对应的预设类目的权值;
需要说明的是,该预设类目的权值是将该预设类目包含的所有的品牌特征词的权值相加而得到的。
基于步骤219的示例,当三星和诺基亚两个品牌特征词通过步骤218的计算得到的权值分别为:0.8和0.6,苹果这个品牌特征词的权值为:0.3,则预设类目为手机的权值为0.8+0.6=1.4,预设类目为水果的权值为0.3。
221、服务器根据该每一个品牌特征词对应的预设类目的权值的大小,将权值最大的预设类目作为该广告的类目;
基于步骤220的示例,由于预设类目为手机的权值1.4大于预设类目为水果的权值0.3,因此将手机这个预设类目作为该广告的类目,即该广告的类目为手机。
在本发明实施例中,在对待分类的广告进行分类时,服务器会根据上述三种分类方法中的一种或多种分类方法对广告进行分类,得到多个分类结果,当整个分类过程中包含按照步骤210~221的过程时,优选地,服务器将通过该步骤215~217过程得到的分类结果作为该广告最终所属的类目;当整个分类过程中包含步骤210~214和步骤218~221的过程时,服务器将通过该步骤218~221得到的分类结果作为该广告最终所属的类目;当整个分类过程中只包含步骤210~214的过程时,服务器将通过预设分类模型得到的分类结果作为该广告最终所属的类目。当然,上述过程只是一种优选的处理方式,在实际应用的过程中也可以存在其它的处理方式,本发明实施例对三种分类方法的分类结果的优先级的处理不做限定。
上述三种广告的分类方法是按照顺序进行的,上述三种广告的分类方法也可以是以任意的顺序进行,如首先进行步骤218~221所示的分类过程,其次进行215~217所示的分类过程,最后进行210~214所示的分类过程,上述三种广告的分类方法还可以是同时进行,本发明实施例对三种广告的分类方法的进行顺序不做限定。
在进行分类后,本发明实施例还可以包括:服务器根据该广告的类目对广告进行推送。如,当该广告的类目为手机时,服务器将该广告推送给对手机类目感兴趣的用户。在进行广告的推送时,通常采用曝光情况或用户点击情况等历史行为信息对用户感兴趣的广告进行推送,然而针对新出现的广告,由于这些广告在短时间内可能没有曝光或没有用户进行点击等任何历史行为信息,在现有技术中可能会进行无目的性的推送,使得广告的效果不佳,但是,采用本发明实施例提供的分类后进行的推送,由于以每个预设类目对应的商品标题作为语料库对广告进行分类,使得分类的准确性大大提高,从而解决了新出现的广告在无曝光或用户点击等历史行为信息时无法向用户推送其感兴趣的广告的问题,实现了对广告的个性化推送。
在进行分类后,还可以包括根据分类的结果对预设分类模型进行优化的过程,如步骤222:
222、当该类目与该广告的预设类目相同时,服务器利用该广告对该预设分类模型进行训练,得到优化的预设分类模型。
具体地,当服务器通过上述三种方法任一种得到广告的类目后,服务器根据三种分类方法的优先级确定广告最终所属的类目,将该类目与该广告的预设类目作对比,当该类目与该广告的预设类目相同时,服务器确定对该广告进行分类得到的结果正确,将这些分类正确的广告作为训练集,对预设分类模型进行训练,从而来对预设分类模型进行优化更新,得到优化的预设分类模型。
其中,得到该广告的预设类目的具体过程为:广告商通过对该广告进行分析,得到该广告所属的预设类目。
需要说明的是,当服务器得到优化的预设分类模型后,保存该优化的预设分类模型,当需要对广告进行分类时,服务器根据该优化的预设分类模型对广告进行分类。
图4是本发明实施例提供的一种对广告进行分类的流程图。参见图4,该流程图包括了对广告进行直接映射、品牌映射以及模型分类三种方法的分类过程,通过对一条广告的文本信息的分词,并对分词结果进行直接映射、品牌映射和模型分类三种方式,得到多个类目,再通过决策模块以优先级选取或多人投票选择的方式,获取到该广告的类目,当然,当确定分类准确时,还可以将该预测正确的广告加入到训练样本中。
本发明实施例提供的方法,通过根据待分类的广告的文本信息,得到该文本信息的多个特征词,并将每个预设类目对应的商品标题作为已知商品标题和语料库,避免了采用人工标注的方式来选取广告中的数据,从而减少了对广告分类所消耗的时间。同时,服务器在对广告进行分类时将广告的分类信息对应的特征也加入到预设分类模型中计算,进而得到广告的类目,避免了仅仅利用文本信息中得到的特征词和一个单独的预设分类模型对广告进行分类的精度较低的情况,从而提高了广告分类的精度。
图5是本发明实施例提供的一种广告分类装置结构示意图。参见图5,该装置包括:特征词获取模块501、特征词权值获取模块502和类目获取模块503。其中,该特征词获取模块501,用于根据待分类的广告的文本信息,得到该文本信息的多个特征词;该特征词获取模块501与该特征词权值获取模块502相连接,该特征词权值获取模块502,用于根据每个特征词在该文本信息中的统计信息以及该每个特征词在已知商品标题中的统计信息,获取该每个特征词的词频-逆文档频率TFIDF值作为该每个特征词的权值;该特征词权值获取模块502与该类目获取模块503相连接,该类目获取模块503,用于根据该每个特征词的权值、该广告的分类信息以及预设分类模型,获取该广告的类目。
可选地,该特征词权值获取模块502还用于根据每个特征词在该文本信息中出现的次数、已知商品标题总数和该每个特征词在该已知商品标题中出现的次数,获取该每个特征词的TFIDF值作为该每个特征词的权值。
可选地,该特征词获取模块501还用于获取待分类的广告的文本信息;对该文本信息进行分词,得到多个词;对该多个词进行特征提取,得到该文本信息的多个特征词。
可选地,该装置还包括:
指定商品类目获取模块,用于当该广告的文本信息中包括指定商品信息时,根据该指定商品信息,从预设商品信息与商品类目的对应关系中获取指定商品类目,该指定商品类目为该指定商品信息对应的商品类目,该指定商品信息为指定商品标识和/或指定商品标题;
预设类目获取模块,用于根据该指定商品类目,从预设类目与商品类目之间的一对多的对应关系中获取与该指定商品类目对应的预设类目;
该类目获取模块503还用于将该指定商品类目对应的预设类目获取为该广告的类目。
可选地,该装置还包括:
品牌特征词权值获取模块,用于当该多个特征词中包含至少一个已知的品牌特征词时,根据该至少一个已知的品牌特征词中的每一个品牌特征词在该文本信息中的统计信息以及该每一个品牌特征词在已知商品标题中的统计信息,获取该每一个品牌特征词的TFIDF值作为该每一个品牌特征词的权值;
该预设类目获取模块还用于根据已知的品牌特征词与商品类目之间的对应关系、该预设类目与商品类目之间的一对多的对应关系,得到该每一个品牌特征词对应的预设类目;
该装置还包括:预设类目权值获取模块,用于将属于同一预设类目的品牌特征词的权值相加,得到该每一个品牌特征词对应的预设类目的权值;
该类目获取模块503还用于根据该每一个品牌特征词对应的预设类目的权值的大小,将该权值最大的预设类目作为该广告的类目。
可选地,该装置还包括:
模型优化模块,用于当该类目与该广告的预设类目相同时,根据该广告对该预设分类模型进行训练,得到优化的预设分类模型。
可选地,预设类目获取模块,用于获取多条广告对应的预设类目;
该装置还包括:
商品标题获取模块,用于根据该预设类目与商品类目之间的一对多的对应关系,获取与该预设类目中每个预设类目对应的商品标题;
模型建立模块,用于根据该每个预设类目对应的商品标题,建立该预设分类模型。
可选地,该装置还包括:
商品标题调整模块,用于根据每个原类目对应的广告数目,对该每个预设类目对应的商品标题进行调整,使得该每个预设类目对应的商品标题数目均衡,该原类目是由广告主确定的类目;
商品标题选取模块,用于从调整后每个预设类目对应的商品标题中选出预设比例的商品标题,根据该预设比例的商品标题,执行该建立预设分类模型的步骤。
可选地,该模型建立模块包括:
标题特征词获取单元,用于根据调整后每个预设类目对应的商品标题中选出的预设比例的商品标题,获取多个标题特征词;
标题特征词权值获取单元,用于根据该每个标题特征词在对应的商品标题中出现的次数、预设比例的商品标题数和该每个标题特征词在该预设比例的商品标题中出现的次数,获取该每个标题特征词的TFIDF值作为该每个标题特征词的权值;
模型建立单元,用于根据该每个标题特征词的权值和预设分类算法,建立该预设分类模型。
可选地,该标题特征词获取单元,还用于对该调整后每个预设类目对应的商品标题中选出的预设比例的商品标题进行分词,得到每个商品标题的分词结果;根据该每个商品标题的分词结果中的每一个词在该预设比例的商品标题中的出现次数,获取该出现次数大于第一预设阈值的词;根据该出现次数大于第一预设阈值的词,利用预设统计算法进行特征提取,得到多个标题特征词。
可选地,该类目获取模块503还用于将该每个预设类目对应的商品标题中该预设比例的商品标题以外的商品标题作为广告,根据该预设比例的商品标题以外的商品标题和该预设分类模型,获取该预设比例的商品标题以外的商品标题中每个商品标题对应的类目;
该装置还包括:
判断模块,用于判断该每个商品标题对应的类目是否与该每个商品标题对应的预设类目相同;
准确率获取模块,用于当该预设比例的商品标题以外的商品标题中每个商品标题对应的类目与该商品标题对应的预设类目相同的数目达到第二预设阈值时,获取利用该预设分类模型得到广告的类目的准确率。
可选地,该类目获取模块503还用于对该预设比例的商品标题以外的商品标题中的每个商品标题进行分词,得到该每个商品标题的分词结果;对该每个商品标题的分词结果中的词进行特征提取,得到多个词;根据该多个词中每个词在该每个词对应的商品标题中出现的次数、该预设比例的商品标题以外的商品标题数和该每个提取词在该预设比例的商品标题以外的商品标题中出现的次数,获取该多个词中每个词的TFIDF值作为该每个词的权值;将该每个词的权值输入预设分类模型中进行计算,获取该预设比例的商品标题以外的商品标题中每个商品标题对应的类目。
综上所述,本发明实施例提供的装置,通过根据待分类的广告的文本信息,得到该文本信息的多个特征词,并将每个预设类目对应的商品标题作为已知商品标题和语料库,避免了采用人工标注的方式来选取广告中的数据,从而减少了对广告分类所消耗的时间。同时,终端设备在对广告进行分类时将广告的分类信息对应的特征也加入到预设分类模型中计算,进而得到广告的类目,避免了仅仅利用文本信息中得到的特征词和一个单独的预设分类模型对广告进行分类的精度较低的情况,从而提高了广告分类的精度。
需要说明的是:上述实施例提供的广告分类装置在广告分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的广告分类装置与广告分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本发明实施例提供的一种服务器结构示意图。参见图6,该服务器包括,处理器601和存储器602,该处理器601与该存储器602相连接,
该处理器601,用于根据待分类的广告的文本信息,得到该文本信息的多个特征词;
该处理器601还用于根据每个特征词在该文本信息中的统计信息以及该每个特征词在已知商品标题中的统计信息,获取该每个特征词的词频-逆文档频率TFIDF值作为该每个特征词的权值;
该处理器601还用于根据该每个特征词的权值、该广告的分类信息以及预设分类模型,获取该广告的类目。
可选地,该处理器601还用于根据每个特征词在该文本信息中出现的次数、已知商品标题总数和该每个特征词在该已知商品标题中出现的次数,获取该每个特征词的TFIDF值作为该每个特征词的权值。
可选地,该处理器601还用于获取待分类的广告的文本信息;对该文本信息进行分词,得到多个词;对该多个词进行特征提取,得到该文本信息的多个特征词。
可选地,该处理器601还用于当该广告的文本信息中包括指定商品信息时,根据该指定商品信息,从预设商品信息与商品类目的对应关系中获取指定商品类目,该指定商品类目为该指定商品信息对应的商品类目,该指定商品信息为指定商品标识和/或指定商品标题;
该处理器601还用于根据该指定商品类目,从预设类目与商品类目之间的一对多的对应关系中获取与该指定商品类目对应的预设类目;
该处理器601还用于将该指定商品类目对应的预设类目获取为该广告的类目。
可选地,该处理器601还用于当该多个特征词中包含至少一个已知的品牌特征词时,根据该至少一个已知的品牌特征词中的每一个品牌特征词在该文本信息中的统计信息以及该每一个品牌特征词在已知商品标题中的统计信息,获取该每一个品牌特征词的TFIDF值作为该每一个品牌特征词的权值;
该处理器601还用于根据已知的品牌特征词与商品类目之间的对应关系、该预设类目与商品类目之间的一对多的对应关系,得到该每一个品牌特征词对应的预设类目;
该处理器601还用于将属于同一预设类目的品牌特征词的权值相加,得到该每一个品牌特征词对应的预设类目的权值;
该处理器601还用于根据该每一个品牌特征词对应的预设类目的权值的大小,将该权值最大的预设类目作为该广告的类目。
可选地,该处理器601还用于当该类目与该广告的预设类目相同时,根据该广告对该预设分类模型进行训练,得到优化的预设分类模型。
可选地,该处理器601还用于获取多条广告对应的预设类目;
该处理器601还用于根据该预设类目与商品类目之间的一对多的对应关系,获取与该预设类目中每个预设类目对应的商品标题;
该处理器601还用于根据该每个预设类目对应的商品标题,建立该预设分类模型。
可选地,该处理器601还用于根据每个原类目对应的广告数目,对该每个预设类目对应的商品标题进行调整,使得该每个预设类目对应的商品标题数目均衡,该原类目是由广告主确定的类目;
该处理器601还用于从调整后每个预设类目对应的商品标题中选出预设比例的商品标题,根据该预设比例的商品标题,执行该建立预设分类模型的步骤。
可选地,该处理器601还用于根据调整后每个预设类目对应的商品标题中选出的预设比例的商品标题,获取多个标题特征词;根据该每个标题特征词在对应的商品标题中出现的次数、预设比例的商品标题数和该每个标题特征词在该预设比例的商品标题中出现的次数,获取该每个标题特征词的TFIDF值作为该每个标题特征词的权值;根据该每个标题特征词的权值和预设分类算法,建立该预设分类模型。
可选地,该处理器601还用于对该调整后每个预设类目对应的商品标题中选出的预设比例的商品标题进行分词,得到每个商品标题的分词结果;根据该每个商品标题的分词结果中的每一个词在该预设比例的商品标题中的出现次数,获取该出现次数大于第一预设阈值的词;根据该出现次数大于第一预设阈值的词,利用预设统计算法进行特征提取,得到多个标题特征词。
可选地,该处理器601还用于将该每个预设类目对应的商品标题中该预设比例的商品标题以外的商品标题作为广告,根据该预设比例的商品标题以外的商品标题和该预设分类模型,获取该预设比例的商品标题以外的商品标题中每个商品标题对应的类目;
该处理器601还用于判断该每个商品标题对应的类目是否与该每个商品标题对应的预设类目相同;
该处理器601还用于当该预设比例的商品标题以外的商品标题中每个商品标题对应的类目与该商品标题对应的预设类目相同的数目达到第二预设阈值时,获取利用该预设分类模型得到广告的类目的准确率。
可选地,该处理器601还用于对该预设比例的商品标题以外的商品标题中的每个商品标题进行分词,得到该每个商品标题的分词结果;对该每个商品标题的分词结果中的词进行特征提取,得到多个词;根据该多个词中每个词在该每个词对应的商品标题中出现的次数、该预设比例的商品标题以外的商品标题数和该每个提取词在该预设比例的商品标题以外的商品标题中出现的次数,获取该多个词中每个词的TFIDF值作为该每个词的权值;将该每个词的权值输入预设分类模型中进行计算,获取该预设比例的商品标题以外的商品标题中每个商品标题对应的类目。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (17)
1.一种广告分类方法,其特征在于,所述方法包括:
获取多条广告对应的预设类目;
根据商品类目对应的商品标题,以及所述预设类目与所述商品类目之间的一对多的对应关系,获取与所述预设类目中每个预设类目对应的商品标题,所述商品类目为电子商务中的商品类目;
根据所述每个预设类目对应的商品标题,建立预设分类模型;
根据待分类的广告的文本信息,得到所述文本信息的多个特征词;
根据每个特征词在所述文本信息中的统计信息以及所述每个特征词在已知商品标题中的统计信息,获取所述每个特征词的词频-逆文档频率TFIDF值作为所述每个特征词的权值;
将所述每个特征词的权值和所述广告的分类信息特征词的权值输入到所述预设分类模型中进行计算,根据所述预设分类模型的计算结果,得到所述广告的类目;
所述根据商品类目对应的商品标题,以及每个预设类目与所述商品类目之间的一对多的对应关系,获取与所述每个预设类目对应的商品标题之后,所述方法还包括:
根据每个原类目对应的广告数目在广告总数中所占的比例,以及所述原类目与所述预设类目之间的对应关系,对与所述原类目对应的至少一个所述预设类目对应商品标题进行调整,使得所述原类目对应的至少一个所述预设类目对应商品标题占总标题数目的比例数目接近或等于所述原类目对应的广告数目在广告总数中所占的比例,从而使得所述商品标题数目在所述预设类目中分布均衡,所述原类目是由广告主确定的类目;
从调整后每个预设类目对应的商品标题中选出预设比例的商品标题,根据所述预设比例的商品标题,执行所述建立预设分类模型的步骤;
所述方法还包括:
当所述文本信息的多个特征词中包含至少一个已知的品牌特征词时,根据所述至少一个已知的品牌特征词中的每一个品牌特征词在所述文本信息中出现的次数、已知商品标题总数和所述每一个品牌特征词在所述已知商品标题中出现的次数,通过如下公式,获取所述每一个品牌特征词的TFIDF值作为所述每一个品牌特征词的权值:
其中,所述TFIDF(t,d)表示所述品牌特征词t在所述商品标题d中的权重,所述TF(t,d)表示所述品牌特征词t在在所述文本信息中出现的次数,所述N为所述已知商品标题总数,所述ni为所述每一个品牌特征词在所述已知商品标题中出现的次数;
根据已知的品牌特征词与商品类目之间的对应关系、所述预设类目与商品类目之间的一对多的对应关系,得到所述每一个品牌特征词对应的预设类目;
将属于同一预设类目的品牌特征词的权值相加,得到所述每一个品牌特征词对应的预设类目的权值;
根据所述每一个品牌特征词对应的预设类目的权值的大小,将所述权值最大的预设类目作为所述广告的类目;
当根据所述预设分类模型的计算结果得到所述广告的类目,并且,根据所述每一个品牌特征词对应的预设类目的权值得到所述广告的类目时,将根据所述每一个品牌特征词对应的预设类目的权值得到所述广告的类目,作为所述广告最终所属的类目。
2.根据权利要求1所述的方法,其特征在于,根据每个特征词在所述文本信息中的统计信息以及所述每个特征词在已知商品标题中的统计信息,获取所述每个特征词的词频-逆文档频率TFIDF值作为所述每个特征词的权值包括:
根据每个特征词在所述文本信息中出现的次数、已知商品标题总数和所述每个特征词在所述已知商品标题中出现的次数,获取所述每个特征词的TFIDF值作为所述每个特征词的权值。
3.根据权利要求1所述的方法,其特征在于,根据待分类的广告的文本信息,得到所述文本信息的多个特征词包括:
获取待分类的广告的文本信息;
对所述文本信息进行分词,得到多个词;
对所述多个词进行特征提取,得到所述文本信息的多个特征词。
4.根据权利要求1所述的方法,其特征在于,所述根据所述预设分类模型的计算结果,得到所述广告的类目之后,所述方法还包括:
当根据所述预设分类模型的计算结果得到的所述广告的类目,与所述广告的预设类目相同时,根据所述广告对所述预设分类模型进行训练,得到优化的预设分类模型。
5.根据权利要求1所述的方法,其特征在于,根据所述每个预设类目对应的商品标题,建立所述预设分类模型包括:
根据调整后每个预设类目对应的商品标题中选出的预设比例的商品标题,获取多个标题特征词;
根据所述每个标题特征词在对应的商品标题中出现的次数、预设比例的商品标题数和所述每个标题特征词在所述预设比例的商品标题中出现的次数,获取所述每个标题特征词的TFIDF值作为所述每个标题特征词的权值;
根据所述每个标题特征词的权值和预设分类算法,建立所述预设分类模型。
6.根据权利要求5所述的方法,其特征在于,根据调整后每个预设类目对应的商品标题,获取多个标题特征词包括:
对所述调整后每个预设类目对应的商品标题中选出的预设比例的商品标题进行分词,得到每个商品标题的分词结果;
根据所述每个商品标题的分词结果中的每一个词在所述预设比例的商品标题中的出现次数,获取所述出现次数大于第一预设阈值的词;
根据所述出现次数大于第一预设阈值的词,利用预设统计算法进行特征提取,得到多个标题特征词。
7.根据权利要求1所述的方法,其特征在于,根据所述每个预设类目对应的商品标题,建立所述预设分类模型之后,所述方法还包括:
将所述每个预设类目对应的商品标题中所述预设比例的商品标题以外的商品标题作为广告,根据所述预设比例的商品标题以外的商品标题和所述预设分类模型,获取所述预设比例的商品标题以外的商品标题中每个商品标题对应的类目;
判断所述每个商品标题对应的类目是否与所述每个商品标题对应的预设类目相同;
当所述预设比例的商品标题以外的商品标题中每个商品标题对应的类目与所述商品标题对应的预设类目相同的数目达到第二预设阈值时,获取利用所述预设分类模型得到广告的类目的准确率。
8.根据权利要求7所述的方法,其特征在于,根据所述预设比例的商品标题以外的商品标题和所述预设分类模型,获取所述预设比例的商品标题以外的商品标题中每个商品标题对应的类目包括:
对所述预设比例的商品标题以外的商品标题中的每个商品标题进行分词,得到所述每个商品标题的分词结果;
对所述每个商品标题的分词结果中的词进行特征提取,得到多个词;
根据所述多个词中每个词在所述每个词对应的商品标题中出现的次数、所述预设比例的商品标题以外的商品标题数和所述每个提取词在所述预设比例的商品标题以外的商品标题中出现的次数,获取所述多个词中每个词的TFIDF值作为所述每个词的权值;
将所述每个词的权值输入预设分类模型中进行计算,获取所述预设比例的商品标题以外的商品标题中每个商品标题对应的类目。
9.一种广告分类装置,其特征在于,所述装置包括:
预设类目获取模块,用于获取多条广告对应的预设类目;
商品标题获取模块,用于根据商品类目对应的商品标题,以及所述预设类目与所述商品类目之间的一对多的对应关系,获取与所述预设类目中每个预设类目对应的商品标题,所述商品标题与所述商品类目对应,所述商品类目为电子商务中的商品类目;
模型建立模块,用于根据所述每个预设类目对应的商品标题,建立预设分类模型;
特征词获取模块,用于根据待分类的广告的文本信息,得到所述文本信息的多个特征词;
特征词权值获取模块,用于根据每个特征词在所述文本信息中的统计信息以及所述每个特征词在已知商品标题中的统计信息,获取所述每个特征词的词频-逆文档频率TFIDF值作为所述每个特征词的权值;
类目获取模块,用于将所述每个特征词的权值和所述广告的分类信息特征词的权值输入到所述预设分类模型中进行计算,根据所述预设分类模型的计算结果,得到所述广告的类目;
所述装置还包括:
商品标题调整模块,根据每个原类目对应的广告数目在广告总数中所占的比例,以及所述原类目与所述预设类目之间的对应关系,对与所述原类目对应的至少一个所述预设类目对应商品标题进行调整,使得所述原类目对应的至少一个所述预设类目对应商品标题占总标题数目的比例数目接近或等于所述原类目对应的广告数目在广告总数中所占的比例,从而使得所述商品标题数目在所述预设类目中分布均衡,所述原类目是由广告主确定的类目;
商品标题选取模块,从调整后每个预设类目对应的商品标题中选出预设比例的商品标题,根据所述预设比例的商品标题,执行所述建立预设分类模型的步骤;
所述装置还包括:
品牌特征词权值获取模块,用于当所述文本信息的多个特征词中包含至少一个已知的品牌特征词时,根据所述至少一个已知的品牌特征词中的每一个品牌特征词在所述文本信息中出现的次数、已知商品标题总数以及所述每一个品牌特征词在所述已知商品标题中出现的次数,通过如下公式,获取所述每一个品牌特征词的TFIDF值作为所述每一个品牌特征词的权值:
其中,所述TFIDF(t,d)表示所述品牌特征词t在所述商品标题d中的权重,所述TF(t,d)表示所述品牌特征词t在在所述文本信息中出现的次数,所述N为所述已知商品标题总数,所述ni为所述每一个品牌特征词在所述已知商品标题中出现的次数;
预设类目获取模块,用于根据已知的品牌特征词与商品类目之间的对应关系、所述预设类目与商品类目之间的一对多的对应关系,得到所述每一个品牌特征词对应的预设类目;
所述装置还包括:预设类目权值获取模块,用于将属于同一预设类目的品牌特征词的权值相加,得到所述每一个品牌特征词对应的预设类目的权值;
所述类目获取模块还用于根据所述每一个品牌特征词对应的预设类目的权值的大小,将所述权值最大的预设类目作为所述广告的类目;
所述装置还用于当根据所述预设分类模型的计算结果得到所述广告的类目,并且,根据所述每一个品牌特征词对应的预设类目的权值得到所述广告的类目时,将根据所述每一个品牌特征词对应的预设类目的权值得到所述广告的类目,作为所述广告最终所属的类目。
10.根据权利要求9所述的装置,其特征在于,所述特征词权值获取模块还用于根据每个特征词在所述文本信息中出现的次数、已知商品标题总数和所述每个特征词在所述已知商品标题中出现的次数,获取所述每个特征词的TFIDF值作为所述每个特征词的权值。
11.根据权利要求9所述的装置,其特征在于,所述特征词获取模块还用于获取待分类的广告的文本信息;对所述文本信息进行分词,得到多个词;对所述多个词进行特征提取,得到所述文本信息的多个特征词。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括:
模型优化模块,用于当根据所述预设分类模型的计算结果得到的所述广告的类目,与所述广告的预设类目相同时,根据所述广告对所述预设分类模型进行训练,得到优化的预设分类模型。
13.根据权利要求9所述的装置,其特征在于,所述模型建立模块包括:
标题特征词获取单元,用于根据调整后每个预设类目对应的商品标题中选出的预设比例的商品标题,获取多个标题特征词;
标题特征词权值获取单元,用于根据所述每个标题特征词在对应的商品标题中出现的次数、预设比例的商品标题数和所述每个标题特征词在所述预设比例的商品标题中出现的次数,获取所述每个标题特征词的TFIDF值作为所述每个标题特征词的权值;
模型建立单元,用于根据所述每个标题特征词的权值和预设分类算法,建立所述预设分类模型。
14.根据权利要求13所述的装置,其特征在于,所述标题特征词获取单元还用于对所述调整后每个预设类目对应的商品标题中选出的预设比例的商品标题进行分词,得到每个商品标题的分词结果;根据所述每个商品标题的分词结果中的每一个词在所述预设比例的商品标题中的出现次数,获取所述出现次数大于第一预设阈值的词;根据所述出现次数大于第一预设阈值的词,利用预设统计算法进行特征提取,得到多个标题特征词。
15.根据权利要求9所述的装置,其特征在于,所述类目获取模块还用于将所述每个预设类目对应的商品标题中所述预设比例的商品标题以外的商品标题作为广告,根据所述预设比例的商品标题以外的商品标题和所述预设分类模型,获取所述预设比例的商品标题以外的商品标题中每个商品标题对应的类目;
所述装置还包括:
判断模块,用于判断所述每个商品标题对应的类目是否与所述每个商品标题对应的预设类目相同;
准确率获取模块,用于当所述预设比例的商品标题以外的商品标题中每个商品标题对应的类目与所述商品标题对应的预设类目相同的数目达到第二预设阈值时,获取利用所述预设分类模型得到广告的类目的准确率。
16.根据权利要求15所述的装置,其特征在于,所述类目获取模块还用于对所述预设比例的商品标题以外的商品标题中的每个商品标题进行分词,得到所述每个商品标题的分词结果;对所述每个商品标题的分词结果中的词进行特征提取,得到多个词;根据所述多个词中每个词在所述每个词对应的商品标题中出现的次数、所述预设比例的商品标题以外的商品标题数和所述每个提取词在所述预设比例的商品标题以外的商品标题中出现的次数,获取所述多个词中每个词的TFIDF值作为所述每个词的权值;将所述每个词的权值输入预设分类模型中进行计算,获取所述预设比例的商品标题以外的商品标题中每个商品标题对应的类目。
17.一种服务器,其特征在于,所述服务器包括:处理器和存储器,所述处理器与所述存储器相连接,
所述处理器,用于获取多条广告对应的预设类目;
根据商品类目对应的商品标题,以及所述预设类目与所述商品类目之间的一对多的对应关系,获取与所述预设类目中每个预设类目对应的商品标题,所述商品标题与所述商品类目对应,所述商品类目为电子商务中的商品类目;
根据所述每个预设类目对应的商品标题,建立预设分类模型;
根据待分类的广告的文本信息,得到所述文本信息的多个特征词;
所述处理器还用于根据每个特征词在所述文本信息中的统计信息以及所述每个特征词在已知商品标题中的统计信息,获取所述每个特征词的词频-逆文档频率TFIDF值作为所述每个特征词的权值;
将所述每个特征词的权值和所述广告的分类信息特征词的权值输入到所述预设分类模型中进行计算,根据所述预设分类模型的计算结果,得到所述广告的类目;
所述根据商品类目对应的商品标题,以及每个预设类目与所述商品类目之间的一对多的对应关系,获取与所述每个预设类目对应的商品标题之后,所述处理器还用于:
根据每个原类目对应的广告数目在广告总数中所占的比例,以及所述原类目与所述预设类目之间的对应关系,对与所述原类目对应的至少一个所述预设类目对应商品标题进行调整,使得所述原类目对应的至少一个所述预设类目对应商品标题占总标题数目的比例数目接近或等于所述原类目对应的广告数目在广告总数中所占的比例,从而使得所述商品标题数目在所述预设类目中分布均衡,所述原类目是由广告主确定的类目;
从调整后每个预设类目对应的商品标题中选出预设比例的商品标题,根据所述预设比例的商品标题,执行所述建立预设分类模型的步骤;
所述处理器还用于:
当所述文本信息的多个特征词中包含至少一个已知的品牌特征词时,根据所述至少一个已知的品牌特征词中的每一个品牌特征词在所述文本信息中出现的次数、已知商品标题总数和所述每一个品牌特征词在所述已知商品标题中出现的次数,通过如下公式,获取所述每一个品牌特征词的TFIDF值作为所述每一个品牌特征词的权值:
其中,所述TFIDF(t,d)表示所述品牌特征词t在所述商品标题d中的权重,所述TF(t,d)表示所述品牌特征词t在在所述文本信息中出现的次数,所述N为所述已知商品标题总数,所述ni为所述每一个品牌特征词在所述已知商品标题中出现的次数;
根据已知的品牌特征词与商品类目之间的对应关系、所述预设类目与商品类目之间的一对多的对应关系,得到所述每一个品牌特征词对应的预设类目;
将属于同一预设类目的品牌特征词的权值相加,得到所述每一个品牌特征词对应的预设类目的权值;
根据所述每一个品牌特征词对应的预设类目的权值的大小,将所述权值最大的预设类目作为所述广告的类目;
当根据所述预设分类模型的计算结果得到所述广告的类目,并且,根据所述每一个品牌特征词对应的预设类目的权值得到所述广告的类目时,将根据所述每一个品牌特征词对应的预设类目的权值得到所述广告的类目,作为所述广告最终所属的类目。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310516732.1A CN104572775B (zh) | 2013-10-28 | 2013-10-28 | 广告分类方法、装置及服务器 |
PCT/CN2014/086149 WO2015062359A1 (en) | 2013-10-28 | 2014-09-09 | Method and device for advertisement classification, server and storage medium |
US15/140,793 US20160239865A1 (en) | 2013-10-28 | 2016-04-28 | Method and device for advertisement classification |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310516732.1A CN104572775B (zh) | 2013-10-28 | 2013-10-28 | 广告分类方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104572775A CN104572775A (zh) | 2015-04-29 |
CN104572775B true CN104572775B (zh) | 2019-02-15 |
Family
ID=53003288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310516732.1A Active CN104572775B (zh) | 2013-10-28 | 2013-10-28 | 广告分类方法、装置及服务器 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104572775B (zh) |
WO (1) | WO2015062359A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11373198B2 (en) * | 2016-12-02 | 2022-06-28 | Honda Motor Co., Ltd. | Evaluation device, evaluation method, and evaluation program |
CN106777401A (zh) * | 2017-03-10 | 2017-05-31 | 北京搜狐新媒体信息技术有限公司 | 信息分类方法及装置 |
CN110555107B (zh) * | 2018-03-29 | 2023-07-25 | 阿里巴巴集团控股有限公司 | 确定业务对象主题、业务对象推荐的方法及装置 |
CN111914681A (zh) * | 2020-07-13 | 2020-11-10 | 北京明略昭辉科技有限公司 | 一种广告素材内容识别方法及系统 |
CN112184333A (zh) * | 2020-10-27 | 2021-01-05 | 杭州推啊网络科技有限公司 | 一种广告标题的自动投放方法 |
CN112445897A (zh) * | 2021-01-28 | 2021-03-05 | 京华信息科技股份有限公司 | 文本类数据大规模分类标注方法、系统、装置及存储介质 |
CN113722582A (zh) * | 2021-07-29 | 2021-11-30 | 黑龙江先进信息技术有限公司 | 基于宠物特征标签的推荐方法、系统、程序产品及介质 |
CN113935307A (zh) * | 2021-09-16 | 2022-01-14 | 有米科技股份有限公司 | 广告文案的特征提取方法及装置 |
CN117635237A (zh) * | 2023-12-22 | 2024-03-01 | 广州方块网络技术有限公司 | 基于SaaS信息流与跨平台人群数据的广告管理系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101097570A (zh) * | 2006-06-29 | 2008-01-02 | 上海唯客网广告传播有限公司 | 一种自动识别分类广告类型的广告分类方法 |
CN103186612A (zh) * | 2011-12-30 | 2013-07-03 | 中国移动通信集团公司 | 一种词汇分类的方法、系统和实现方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7885859B2 (en) * | 2006-03-10 | 2011-02-08 | Yahoo! Inc. | Assigning into one set of categories information that has been assigned to other sets of categories |
CN100578500C (zh) * | 2006-12-20 | 2010-01-06 | 腾讯科技(深圳)有限公司 | 一种网页分类方法及装置 |
-
2013
- 2013-10-28 CN CN201310516732.1A patent/CN104572775B/zh active Active
-
2014
- 2014-09-09 WO PCT/CN2014/086149 patent/WO2015062359A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101097570A (zh) * | 2006-06-29 | 2008-01-02 | 上海唯客网广告传播有限公司 | 一种自动识别分类广告类型的广告分类方法 |
CN103186612A (zh) * | 2011-12-30 | 2013-07-03 | 中国移动通信集团公司 | 一种词汇分类的方法、系统和实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104572775A (zh) | 2015-04-29 |
WO2015062359A1 (en) | 2015-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104572775B (zh) | 广告分类方法、装置及服务器 | |
CN108665355A (zh) | 金融产品推荐方法、装置、设备和计算机存储介质 | |
CN109493199A (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN109783730A (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN110428322A (zh) | 一种业务数据的适配方法及装置 | |
CN108021929A (zh) | 基于大数据的移动端电商用户画像建立与分析方法及系统 | |
CN106649890A (zh) | 数据存储方法和装置 | |
CN109670104A (zh) | 基于机器学习的信息推送方法、设备、装置及存储介质 | |
CN107424007A (zh) | 一种构建电子券敏感度识别模型的方法和装置 | |
CN109064265A (zh) | 基于网络平台的购车推荐方法及系统 | |
CN103295145A (zh) | 一种基于用户消费特征向量的手机广告投放方法 | |
US11308262B2 (en) | Systems and methods for converting static image online content to dynamic online content | |
CN107992500A (zh) | 一种信息处理方法及服务器 | |
CN106776859A (zh) | 基于用户偏好的移动应用App推荐系统 | |
CN107346344A (zh) | 文本匹配的方法和装置 | |
CN111028087A (zh) | 信息展示方法、装置和设备 | |
CN107247798A (zh) | 构建搜索词库的方法和装置 | |
CN113569162A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112132634A (zh) | 虚拟馈赠资源发放方法、装置、计算机设备和存储介质 | |
CN112950359A (zh) | 一种用户识别方法和装置 | |
CN117132326A (zh) | 广告推送方法、装置、电子设备及存储介质 | |
CN111506718A (zh) | 会话消息确定方法、装置、计算机设备和存储介质 | |
CN116501957A (zh) | 用户标签画像处理方法、用户画像系统、设备和存储介质 | |
CN112434126A (zh) | 一种信息处理方法、装置、设备和存储介质 | |
CN114925275A (zh) | 产品推荐方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |