CN106204053A - 信息类目错放识别方法和装置 - Google Patents

信息类目错放识别方法和装置 Download PDF

Info

Publication number
CN106204053A
CN106204053A CN201510226925.2A CN201510226925A CN106204053A CN 106204053 A CN106204053 A CN 106204053A CN 201510226925 A CN201510226925 A CN 201510226925A CN 106204053 A CN106204053 A CN 106204053A
Authority
CN
China
Prior art keywords
commodity
information
classification
word
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510226925.2A
Other languages
English (en)
Inventor
谭骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510226925.2A priority Critical patent/CN106204053A/zh
Publication of CN106204053A publication Critical patent/CN106204053A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提出一种信息类目错放识别方法和装置,该信息类目错放识别方法包括获取训练模型,所述训练模型是预先根据训练样本集得到的,所述训练样本集是根据用户的搜索日志和点击日志筛选得到的;获取待识别的信息;根据所述训练模型,确定所述信息是否发生信息类目错放。该方法能够提高识别准确度。

Description

信息类目错放识别方法和装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种信息类目错放识别方法和装置。
背景技术
通常来讲,一种信息都有自身对应的类目,以信息是商品为例,每个商品都有对应的类目,卖家可以将一个商品发布到其对应的类目下。当一个信息发布到不属于该信息对应的类目下称为信息类目错放。一个信息被发布到其不属于的类目下,可能是信息发布者无意,故意或者恶意造成的,为了避免信息发布者作弊等不规范行为,需要进行信息类目错放识别。
在信息类目错放识别时,可以采用预先构建的训练模型进行识别。现有技术中,以信息是商品为例,构建训练模型采用的训练样本集是当前已有的全网商品,但是,这些商品本身就存在一部分类目错放的商品,尤其是一些错放比较严重的类目,采用这些训练样本集训练得到的训练模型会存在一定误差,致使后续的类目识别也是不准确的。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种信息类目错放识别方法,该方法可以提高识别准确度。
本发明的另一个目的在于提出一种信息类目错放识别装置。
为达到上述目的,本发明第一方面实施例提出的信息类目错放识别方法,包括:获取训练模型,所述训练模型是预先根据训练样本集得到的,所述训练样本集是根据用户的搜索日志和点击日志筛选得到的;获取待识别的信息;根据所述训练模型,确定所述信息是否发生信息类目错放。
本发明第一方面实施例提出的信息类目错放识别方法,通过根据搜索日志和点击日志筛选训练样本集,可以提高训练样本集的纯净度,避免选择存在误差的训练样本集,可以提高训练模型的准确度,从而提高类目识别的准确度。
为达到上述目的,本发明第二方面实施例提出的信息类目错放识别装置,包括:第一获取模块,用于获取训练模型,所述训练模型是预先根据训练样本集得到的,所述训练样本集是根据用户的搜索日志和点击日志筛选得到的;第二获取模块,用于获取待识别的信息;识别模块,用于根据所述训练模型,确定所述信息是否发生信息类目错放。
本发明第二方面实施例提出的信息类目错放识别装置,通过根据搜索日志和点击日志筛选训练样本集,可以提高训练样本集的纯净度,避免选择存在误差的训练样本集,可以提高训练模型的准确度,从而提高类目识别的准确度。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的信息类目错放识别方法的流程示意图;
图2是本发明实施例中获取训练样本集的流程示意图;
图3是本发明实施例中获取的训练样本集与现有技术中获取的训练样本集的比较示意图;
图4是本发明另一实施例提出的信息类目错放识别方法的流程示意图;
图5是本发明实施例中不同叶子类目下每个词的出现概率的示意图;
图6是本发明实施例中从商品详情页中提取关键词的流程示意图;
图7是本发明实施例中基于训练模型以及商品详情页和商品标题进行类目错放识别的流程示意图;
图8是本发明另一实施例提出的信息类目识别装置的结构示意图;
图9是本发明另一实施例提出的信息类目识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的信息类目错放识别方法的流程示意图,该方法包括:
S11:获取训练模型,所述训练模型是预先根据训练样本集得到的,所述训练样本集是根据用户的搜索日志和点击日志筛选得到的。
与现有技术采用全网样本不同,本实施例中,采用的训练样本集是根据用户的搜索日志和点击日志,对全网样本进行筛选后得到的。
具体的,参见图2,本实施例的方法还可以包括获取训练样本集,所述获取训练样本集,可以包括:
S21:获取预设时间内用户的搜索日志和点击日志。
假设预设时间是30天,则可以收集30天内每个用户的搜索日志,以及对应的点击日志。
S22:根据所述搜索日志获取搜索词,以及根据所述点击日志确定被用户点击过的信息,将每个搜索词和对应的一个被点击过的信息作为一个训练样本,并由训练样本组成训练样本集。
例如,参见图3,以信息是商品为例,图3的左侧示出了现有技术采用的训练样本集,从图3的左侧可以看出现有技术中采用的训练样本集是全网商品,但是,全网商品中会存在已经类目错放的商品。
而本实施例中,参见图3的右侧,用户可以在搜索框中输入搜索词(Query),搜索引擎根据搜索词可以返回商品列表,例如返回的商品列表包括商品1,商品2,…商品N。在返回的商品列表中,用户可以点击部分商品,例如,用户点击了商品2,商品6和商品7,则可以根据这些被点击的商品获取训练样本集。具体的,可以是每个被点击的商品和此时的搜索词组成一个训练样本,通过该方式收集到的所有训练样本形成本实施例中采用的训练样本集。另外,该被点击的商品的叶子类目可以作为该训练样本的类目,每个被点击的商品的叶子类目可以预先记录在商品属性信息中,例如,叶子类目是上衣,或者,数码产品等。
当用户搜索商品时,系统会记录下大量的点击日志,即用户在某Query下点击了某个类目下的商品,使用用户点击日志作为获取训练样本的依据的一个优点是能够更好的保证训练样本的纯净度。因为在当前的系统中已经存在一些类目错放的商品,有的类目下还比较严重,直接使用这些商品进行训练会带来一定的误差。而根据用户的搜索行为和点击行为,一是能够选择出质量较好(也就是类目未错放)的商品,二是Query本身对于类目也是一种较好的解释,例如,在搜索词中可能包含上衣这种类目相关的信息。
在筛选得到训练样本集后,可以对训练样本集进行训练,得到训练模型。
参见图4,可以在模型训练阶段根据训练样本集得到训练模型,模型训练阶段可以具体是在离线完成的。图4以信息是商品为例。如图4所示,假设训练模型称为先验模型,则模型训练阶段得到训练模型的流程可以包括:
S41:训练样本集筛选。
其中,训练样本集可以根据用户的搜索日志和点击日志筛选,具体的筛选流程可以参见上述相关描述,在此不再赘述。
S42:计算每个叶子类目下商品个数。
如上描述的,在获取训练样本时,可以将一个被点击的商品及对应的搜索词作为一个训练样本,该训练样本的叶子类目就是被点击的商品的类目。因此,可以获取每个训练样本属于的叶子类目,通过统计后就可以获取每个叶子类目下的商品个数。
假设一个叶子类目下的商品个数用Nc表示。
S43:计算每个叶子类目下每个词的出现概率。
其中,每个词可以是对要处理的内容采用分词技术进行分词后得到的,要处理的内容由商品标题与对应的搜索词组成。由于分词技术是很常用的技术,因此具体的分词技术在此不再赘述,本实施例对具体的分词技术也不进行限定。
该步骤的实现方法如下:
输入:S41筛选得到的训练样本集;
输出:各叶子类目下每个词的出现概率;
实现算法:
将商品标题与点击时的搜索词进行合并,并对其进行分词,得到每个词;
统计每个词在该叶子类目下的出现次数Tw
采用如下公式计算出现概率tfw
tfw=Tw/Nc,其中,Nc是该叶子类目下商品个数。
另外,还可以计算tfmin=1/Nc,为该叶子类目下单个词最小概率的基准值。
参见图5,分别示出了上衣叶子类目下不同词的出现概率51,以及数码相机叶子类目下不同词的出现概率52。
在得到各叶子类目下商品个数以及各叶子类目下每个词出现概率后,可以在先验模型中包括这两个参数,以用于后续的商品类目错放识别。
另外,参见图4,在模型训练阶段还可以包括:
S44:计算各叶子类目的逆文本频率(Inverse Document Frequency,IDF)值。IDF值可以用于描述一个词的重要程度。
该步骤的实现方法如下:
输入:S41筛选得到的训练样本集;
输出:各叶子类目下每个词的IDF值;
实现算法:
获取训练样本中的商品标题,并对其进行分词,得到每个词;
统计每个词在该叶子类目下的出现次数Tw
采用如下公式,计算每个叶子类目下的每个词的IDF值:
IDF=log(Nc/Tw),其中,Nc是该叶子类目下商品个数。
上述的流程可以实现模型训练,在模型训练后得到的结果可以用于后续的信息类目错放识别。
S12:获取待识别的信息。
以信息是商品为例,则如图4所示可以获取商品表,商品表中包括一个或多个商品,可以依次对每个商品进行识别。
S13:根据所述训练模型,确定所述信息是否发生信息类目错放。
以信息是商品为例,在识别一个商品是否被错放时,现有技术中只根据该商品的商品标题与训练模型进行比对,由于商品标题会出现不规范等问题,仅根据商品标题识别会产生误差。
而本实施例中,不仅采用商品标题,还可以采用商品详情页,由于商品详情页中包含更多的信息,因此可以降低误差,提高识别准确度。
如图4所示,商品类目错放识别具体可以包括:
S45:根据TF*IDF值,提取各商品详情页的关键词。
可以理解的是,本实施例以根据TF*IDF值提取关键词为例,当然,也可以采用其他方式进行提取。
对商品的类目进行判断时,首先是更多地获取分类样本的特征。有些商品的标题比较规范,特征容易识别,但是有些商品的标题不规范,即使人工也无法判断出该商品应该放到哪个类目,因此需要增加更多的信息进行判断。
本方法中通过加入商品详情页中的特征信息作为对商品标题特征的补充,而商品详情页中的信息量往往较大,所以需要从其中提取出重要的信息出来作为分类的特征,此处需要使用到S44中所计算得到的IDF值。
词频(term frequency,TF)是一个词出现的次数除以该文档包含的词的总数,TF*IDF越大,表示这个词(term)的区分能力越强,越重要。
该步骤的实现方法如下:
输入:待识别商品的商品详情页;
输出:商品详情页中TF*IDF值最大的前N个词,其中,N为预设值。
参见图6,具体的提取关键词的流程可以包括:
S61:获取待识别的商品。
S62:获取商品详情页,并对其进行分词。
其中,商品详情页是指待识别的商品的详情页,具体的分词技术不限定。
S63:计算每个词的TF值。
其中,对应分词得到的每个词,可以统计该词在商品详情页中的出现次数,以及统计商品详情页中的词的总数,并用该出现次数除以该词的总数得到相应词的TF值。
S64:获取每个词的IDF值。
该IDF值是从训练阶段的S44中获取,例如,商品详情页中包括相机这个词,则需要在训练阶段的S44中获取相机这个词的IDF值。
S65:计算TF*IDF值,并根据TF*IDF值从大到小的顺序选择N个重要的词。
在获取TF值和IDF值后,可以将两者进行相乘运算,从而得到TF*IDF值,之后可以根据TF*IDF值进行降序排列,在排序后依次从前到后选择预设个数的词作为商品详情页的关键词。
S46:判断商品是否类目错放。
对商品类目错放的判断就转换成了一个分类问题,将每个叶子类目看成一个类别,本实施例中采用朴素贝叶斯算法作为分类方法。需要首先计算出在每个类别下不同的特征所出现的概率,这里的特征即是每个分词的结果,即S43计算得到的每个词的出现概率。
对于一个类别而言,现有技术中,如果一个词在该类别下的训练样本中没有出现过,那么其概率值为0,根据贝叶斯算法则会使得该样本属于此类别下的后验概率值为0,而本实施例中,采用简化的拉普拉斯平滑,若某个特征在该类别下没有出现过,则其概率值取为tfmin=1/Nc,其中Nc为该类别下样本总数。
可以理解的是,也可以采用其他分类算法,例如可以使用最大熵、支持向量机(SupportVector Machine,SVM)等分类算法。
该步骤的实现方法包括:
输入:待识别的商品标题以及商品详情页的关键词;
输出:是否类目错放,如果类目错放,输出推荐类目。
具体的,参见图7,类目错放识别的流程可以包括:
S71:对商品标题进行分词。
可以采用常用的分词技术对商品标题进行分词。
S72:将商品详情页的关键词添加到商品标题的分词中,去掉重复的词,得到处理后的词。
商品详情页的关键词可以采用上述的根据TF*IDF值进行提取,提取关键词以及对商品标题进行分词后,可以去掉其中重复的词,避免重复运算。
S73:根据处理后的词,对应训练模型中的每个叶子类目,计算当前商品在每个叶子类目下的后验概率值,以及,计算当前商品在当前叶子类目下的后验概率值。
其中,当前商品是指待识别的是否发生类目错放的商品,当前叶子类目是指当前商品已经记录的属于的叶子类目,该叶子类目可能发生错放或者放置正确。
根据贝叶斯公式计算一个商品在一个叶子类目下的后验概率值可以表示为:
设x={a1,a2,…,am}为一个待分类样本,在本方法中即为一个商品,其中每个变量ai则为该商品的商品标题的分词以及从商品详情页中提取出的关键词。
设要分类的类别集合为C={y1,y2,…,yn}
此处的yi则为商品的不同的类目。
为了计算一个商品x所属不同类目的概率,需要分别计算:
P{y1|x},P{y2|x},...,P{yn|x}
当P(yk|x)=max{P{y1|x},P{y2|x},...,P{yn|x}}
则判断商品x属于第k个类目的概率最大。
为了计算商品属于某个类目的概率,根据贝叶斯公式将上式变换为:
P { y i | x } = P { x | y i } P { y i } P { x }
由于分母P{x}对于所有的类别而言都是相同的,因此只需要对分子进行计算即可,又根据自然语言模型,假设每个词之间相互独立,可得如下公式:
P { x | y i } P { y i } = P { a 1 | y i } P { a 2 | y i } . . . P { a m | y i } P { y i } = P { y i } Π j = 1 m P { a j | y i }
此时问题则转换为求每个类目下不同词出现的概率P{aj|yi},即为步骤S43中所求的结果。而P{yi}为每个类目下商品所占的比例,由于所有类目的商品总数相同,因此P{yi}可以用步骤S42中所求的结果表示。
由此可根据贝叶斯公式计算出一个商品在一个叶子类目下的后验概率值。
S74:计算每个叶子类目下的后验概率值与当前叶子类目的后验概率值之差,并确定差值最大的叶子类目。
当计算出训练模型中每个叶子类目的后验概率值,以及计算出当前叶子类目的后验概率值之后,就可以分别用每个叶子类目的后验概率值减去当前叶子类目的后验概率值,从而得到与每个叶子类目对应的差值。
S75:判断是否存在大于预设阈值的差值,若是,执行S76,否则,执行S77。
由于有些类目之间存在着一定的相似性,因此并不是差值为正就表示类目错放,为了提高准确度,可以根据经验设置一个阈值,只有大于该阈值的情况下,才判断当前商品为类目错放。
S76:确定当前商品发生类目错放。
进一步的,还可以给出推荐类目,推荐类目是上述差值最大的叶子类目。
S77:确定当前商品类目放置正确。
本实施例在具体实现时可以采用大规模并行计算,具体可以采用云计算平台进行运算。
本实施例中,通过根据搜索日志和点击日志筛选训练样本集,可以提高训练样本集的纯净度,避免选择存在误差的训练样本集,可以提高训练模型的准确,从而提高类目识别的准确度。本实施例中,通过在商品详情页中提取关键词,解决了部分商品标题较短且模糊的情况,有效的提高了识别的准确率。
图8是本发明另一实施例提出的信息类目识别装置的结构示意图,该装置80包括:第一获取模块81,第二获取模块82和识别模块83。
第一获取模块81,用于获取训练模型,所述训练模型是预先根据训练样本集得到的,所述训练样本集是根据用户的搜索日志和点击日志筛选得到的;
与现有技术采用全网样本不同,本实施例中,采用的训练样本集是根据用户的搜索日志和点击日志,对全网样本进行筛选后得到的。
可选的,参见图9,该装置80还包括:用于根据用户的搜索日志和点击日志筛选得到获取训练样本集的第三获取模块84,所述第三获取模块84具体用于:
获取预设时间内用户的搜索日志和点击日志;
假设预设时间是30天,则可以收集30天内每个用户的搜索日志,以及对应的点击日志。
根据所述搜索日志获取搜索词,以及根据所述点击日志确定被用户点击过的信息,将每个搜索词和对应的一个被点击过的信息作为一个训练样本,并由训练样本组成训练样本集。
例如,参见图3,以信息是商品为例,图3的左侧示出了现有技术采用的训练样本集,从图3的左侧可以看出现有技术中采用的训练样本集是全网商品,但是,全网商品中会存在已经类目错放的商品。
而本实施例中,参见图3的右侧,用户可以在搜索框中输入搜索词(Query),搜索引擎根据搜索词可以返回商品列表,例如返回的商品列表包括商品1,商品2,…商品N。在返回的商品列表中,用户可以点击部分商品,例如,用户点击了商品2,商品6和商品7,则可以根据这些被点击的商品获取训练样本集。具体的,可以是每个被点击的商品和此时的搜索词组成一个训练样本,该被点击的商品的叶子类目作为该训练样本的类目,通过该方式收集到的所有训练样本形成本实施例中采用的训练样本集。
当用户搜索商品时,系统会记录下大量的点击日志,即用户在某Query下点击了某个类目下的商品,使用用户点击日志作为获取训练样本的依据的一个优点是能够更好的保证训练样本的纯净度。因为在当前的系统中已经存在一些类目错放的商品,有的类目下还比较严重,直接使用这些商品进行训练会带来一定的误差。而根据用户的点击行为,一是能够选择出质量较好(也就是类目未错放)的商品,二是Query本身对于类目也是一种较好的解释。
在筛选得到训练样本集后,可以对训练样本集进行训练,得到训练模型。
可选的,参见图9,该装置80还包括:用于根据所述训练样本集构建训练模型的构建模块85,所述构建模块85具体用于:
计算每个叶子类目下信息个数,所述叶子类目是根据训练样本中每个被点击的信息属于的叶子类目确定的;
在获取训练样本时,可以将一个被点击的商品及对应的搜索词作为一个训练样本,该训练样本的叶子类目就是被点击的商品的类目。因此,可以获取每个训练样本属于的叶子类目,也可以获取每个叶子类目下的商品个数。
假设一个叶子类目下的商品个数用Nc表示。
根据所述信息个数,计算每个叶子类目下每个词的出现概率,所述每个词是对被点击的信息的预设内容进行分词后得到的;
其中,每个词可以是对要处理的内容采用分词技术进行分词后得到的,要处理的内容由商品标题与对应的搜索词组成。由于分词技术是很常用的技术,因此具体的分词技术在此不再赘述,本实施例对具体的分词技术也不进行限定。
该步骤的实现方法如下:
输入:S41筛选得到的训练样本集;
输出:各叶子类目下每个词的出现概率;
实现算法:
将商品标题与点击时的搜索词进行合并,并对其进行分词,得到每个词;
统计每个词在该叶子类目下的出现次数Tw
采用如下公式计算出现概率tfw
tfw=Tw/Nc,其中,Nc是该叶子类目下商品个数。
另外,还可以计算tfmin=1/Nc,为该叶子类目下单个词最小概率的基准值。
参见图5,分别示出了上衣叶子类目下不同词的出现概率51,以及数码相机叶子类目下不同词的出现概率52。
在得到各叶子类目下商品个数以及各叶子类目下每个词出现概率后,可以在先验模型中包括这两个参数,以用于后续的商品类目错放识别。
将所述信息个数,以及所述出现概率组成训练模型。
另外,构建模块还可以用于获取IDF值。具体的获取IDF值的方式可以参见方法实施例中的相关描述,在此不再赘述。
第二获取模块82,用于获取待识别的信息;
以信息是商品为例,则如图4所示可以获取商品表,商品表中包括一个或多个商品,可以依次对每个商品进行识别。
识别模块83,用于根据所述训练模型,确定所述信息是否发生信息类目错放。
以信息是商品为例,在识别一个商品是否被错放时,现有技术中只根据该商品的商品标题与训练模型进行比对,由于商品标题会出现不规范等问题,仅根据商品标题识别会产生误差。
而本实施例中,不仅采用商品标题,还可以采用商品详情页,由于商品详情页中包含更多的信息,因此可以降低误差,提高识别准确度。
可选的,当所述信息是商品时,所述装置80还包括:
第四获取模块86,用于获取所述商品的商品详情页,并从所述商品详情页中提取关键词,以及获取所述商品的商品标题;
相应的,所述识别模块83具体用于:
根据所述关键词以及所述商品标题,以及所述训练模型,确定所述信息是否发生信息类目错放。
可选的,所述第四获取模块86用于从所述商品详情页中提取关键词,包括:
对所述商品详情页进行分词,得到商品详情页的每个分词;
计算每个分词的TF值,并获取IDF值,所述IDF值是在训练模型时,根据训练样本集确定的;
计算每个分词的TF值与IDF值的乘积,并根据乘积从大到小的顺序选择预设个数的分词,作为所述关键词。
相应的,所述识别模块83进一步具体用于:
对商品标题进行分词;
将商品详情页的关键词添加到商品标题的分词中,去掉重复的词,得到处理后的词;
根据处理后的词,对应训练模型中的每个叶子类目,计算当前商品在每个叶子类目下的分类值,以及,计算当前商品在当前叶子类目下的分类值;
计算每个叶子类目下的分类值与当前叶子类目的分类值之差,并确定差值最大的叶子类目;
当存在大于预设阈值的差值时,确定发生信息类目错放。
可选的,参见图9,当发生信息类目错放时,所述装置80还包括:
推荐模块87,用于将差值最大的叶子类目作为推荐类目,并展示所述推荐类目。
所述分类值是根据如下项中的任一项计算得到的:贝叶斯公式,最大熵公式,SVM公式。
上述的具体提取关键词的流程,以及类目错放识别的流程可以参见方法实施例中的相关描述,在此不再赘述。
本实施例中,通过根据搜索日志和点击日志筛选训练样本集,可以提高训练样本集的纯净度,避免选择存在误差的训练样本集,可以提高训练模型的准确,从而提高类目识别的准确度。本实施例中,通过在商品详情页中提取关键词,解决了部分商品标题较短且模糊的情况,有效的提高了识别的准确率。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (15)

1.一种信息类目错放识别方法,其特征在于,包括:
获取训练模型,所述训练模型是预先根据训练样本集得到的,所述训练样本集是根据用户的搜索日志和点击日志筛选得到的;
获取待识别的信息;
根据所述训练模型,确定所述信息是否发生信息类目错放。
2.根据权利要求1所述的方法,其特征在于,还包括:根据用户的搜索日志和点击日志筛选得到获取训练样本集,所述根据用户的搜索日志和点击日志筛选得到获取训练样本集,包括:
获取预设时间内用户的搜索日志和点击日志;
根据所述搜索日志获取搜索词,以及根据所述点击日志确定被用户点击过的信息,将每个搜索词和对应的一个被点击过的信息作为一个训练样本,并由训练样本组成训练样本集。
3.根据权利要求1所述的方法,其特征在于,还包括:根据所述训练样本集构建训练模型,所述根据所述训练样本集构建训练模型,包括:
计算每个叶子类目下信息个数,所述叶子类目是根据训练样本中每个被点击的信息属于的叶子类目确定的;
根据所述信息个数,计算每个叶子类目下每个词的出现概率,所述每个词是对被点击的信息的预设内容进行分词后得到的;
将所述信息个数,以及所述出现概率组成训练模型。
4.根据权利要求1所述的方法,其特征在于,当所述信息是商品时,所述方法还包括:
获取所述商品的商品详情页,并从所述商品详情页中提取关键词,以及获取所述商品的商品标题;
所述根据所述训练模型,确定所述信息是否发生信息类目错放,包括:
根据所述关键词以及所述商品标题,以及所述训练模型,确定所述信息是否发生信息类目错放。
5.根据权利要求4所述的方法,其特征在于,所述从所述商品详情页中提取关键词,包括:
对所述商品详情页进行分词,得到商品详情页的每个分词;
计算每个分词的TF值,并获取IDF值,所述IDF值是在训练模型时,根据训练样本集确定的;
计算每个分词的TF值与IDF值的乘积,并根据乘积从大到小的顺序选择预设个数的分词,作为所述关键词。
6.根据权利要求4所述的方法,其特征在于,所述根据所述关键词以及所述商品标题,以及所述训练模型,确定所述信息是否发生信息类目错放,包括:
对商品标题进行分词;
将商品详情页的关键词添加到商品标题的分词中,去掉重复的词,得到处理后的词;
根据处理后的词,对应训练模型中的每个叶子类目,计算当前商品在每个叶子类目下的分类值,以及,计算当前商品在当前叶子类目下的分类值;
计算每个叶子类目下的分类值与当前叶子类目的分类值之差,并确定差值最大的叶子类目;
当存在大于预设阈值的差值时,确定发生信息类目错放。
7.根据权利要求6所述的方法,其特征在于,当发生信息类目错放时,所述方法还包括:
将差值最大的叶子类目作为推荐类目,并展示所述推荐类目。
8.根据权利要求6所述的方法,其特征在于,所述分类值是根据如下项中的任一项计算得到的:贝叶斯公式,最大熵公式,SVM公式。
9.一种信息类目错放识别装置,其特征在于,包括:
第一获取模块,用于获取训练模型,所述训练模型是预先根据训练样本集得到的,所述训练样本集是根据用户的搜索日志和点击日志筛选得到的;
第二获取模块,用于获取待识别的信息;
识别模块,用于根据所述训练模型,确定所述信息是否发生信息类目错放。
10.根据权利要求9所述的装置,其特征在于,还包括:用于根据用户的搜索日志和点击日志筛选得到获取训练样本集的第三获取模块,所述第三获取模块具体用于:
获取预设时间内用户的搜索日志和点击日志;
根据所述搜索日志获取搜索词,以及根据所述点击日志确定被用户点击过的信息,将每个搜索词和对应的一个被点击过的信息作为一个训练样本,并由训练样本组成训练样本集。
11.根据权利要求9所述的装置,其特征在于,还包括:用于根据所述训练样本集构建训练模型的构建模块,所述构建模块具体用于:
计算每个叶子类目下信息个数,所述叶子类目是根据训练样本中每个被点击的信息属于的叶子类目确定的;
根据所述信息个数,计算每个叶子类目下每个词的出现概率,所述每个词是对被点击的信息的预设内容进行分词后得到的;
将所述信息个数,以及所述出现概率组成训练模型。
12.根据权利要求9所述的装置,其特征在于,当所述信息是商品时,所述装置还包括:
第四获取模块,用于获取所述商品的商品详情页,并从所述商品详情页中提取关键词,以及获取所述商品的商品标题;
所述识别模块具体用于:
根据所述关键词以及所述商品标题,以及所述训练模型,确定所述信息是否发生信息类目错放。
13.根据权利要求12所述的装置,其特征在于,所述第四获取模块用于从所述商品详情页中提取关键词,包括:
对所述商品详情页进行分词,得到商品详情页的每个分词;
计算每个分词的TF值,并获取IDF值,所述IDF值是在训练模型时,根据训练样本集确定的;
计算每个分词的TF值与IDF值的乘积,并根据乘积从大到小的顺序选择预设个数的分词,作为所述关键词。
14.根据权利要求12所述的装置,其特征在于,所述识别模块进一步具体用于:
对商品标题进行分词;
将商品详情页的关键词添加到商品标题的分词中,去掉重复的词,得到处理后的词;
根据处理后的词,对应训练模型中的每个叶子类目,计算当前商品在每个叶子类目下的分类值,以及,计算当前商品在当前叶子类目下的分类值;
计算每个叶子类目下的分类值与当前叶子类目的分类值之差,并确定差值最大的叶子类目;
当存在大于预设阈值的差值时,确定发生信息类目错放。
15.根据权利要求14所述的装置,其特征在于,当发生信息类目错放时,所述装置还包括:
推荐模块,用于将差值最大的叶子类目作为推荐类目,并展示所述推荐类目。
CN201510226925.2A 2015-05-06 2015-05-06 信息类目错放识别方法和装置 Pending CN106204053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510226925.2A CN106204053A (zh) 2015-05-06 2015-05-06 信息类目错放识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510226925.2A CN106204053A (zh) 2015-05-06 2015-05-06 信息类目错放识别方法和装置

Publications (1)

Publication Number Publication Date
CN106204053A true CN106204053A (zh) 2016-12-07

Family

ID=57459595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510226925.2A Pending CN106204053A (zh) 2015-05-06 2015-05-06 信息类目错放识别方法和装置

Country Status (1)

Country Link
CN (1) CN106204053A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777248A (zh) * 2016-12-27 2017-05-31 努比亚技术有限公司 一种搜索引擎测试评价方法和装置
CN109522947A (zh) * 2018-10-31 2019-03-26 联想(北京)有限公司 识别方法和设备
CN110276364A (zh) * 2018-03-15 2019-09-24 阿里巴巴集团控股有限公司 分类模型的训练方法、数据分类方法、装置及电子设备
CN112784083A (zh) * 2019-11-04 2021-05-11 阿里巴巴集团控股有限公司 类目预测模型、特征提取模型的获取方法及装置
CN113743430A (zh) * 2020-05-29 2021-12-03 北京沃东天骏信息技术有限公司 标签匹配度检测模型的建立方法及装置、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609422A (zh) * 2011-01-25 2012-07-25 阿里巴巴集团控股有限公司 类目错放识别方法和装置
CN103902545A (zh) * 2012-12-25 2014-07-02 北京京东尚科信息技术有限公司 一种类目路径识别方法及系统
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609422A (zh) * 2011-01-25 2012-07-25 阿里巴巴集团控股有限公司 类目错放识别方法和装置
CN103902545A (zh) * 2012-12-25 2014-07-02 北京京东尚科信息技术有限公司 一种类目路径识别方法及系统
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777248A (zh) * 2016-12-27 2017-05-31 努比亚技术有限公司 一种搜索引擎测试评价方法和装置
CN110276364A (zh) * 2018-03-15 2019-09-24 阿里巴巴集团控股有限公司 分类模型的训练方法、数据分类方法、装置及电子设备
CN110276364B (zh) * 2018-03-15 2023-08-08 阿里巴巴集团控股有限公司 分类模型的训练方法、数据分类方法、装置及电子设备
CN109522947A (zh) * 2018-10-31 2019-03-26 联想(北京)有限公司 识别方法和设备
CN112784083A (zh) * 2019-11-04 2021-05-11 阿里巴巴集团控股有限公司 类目预测模型、特征提取模型的获取方法及装置
CN113743430A (zh) * 2020-05-29 2021-12-03 北京沃东天骏信息技术有限公司 标签匹配度检测模型的建立方法及装置、存储介质及设备

Similar Documents

Publication Publication Date Title
CN110674407B (zh) 基于图卷积神经网络的混合推荐方法
WO2018014610A1 (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN105893609B (zh) 一种基于加权混合的移动app推荐方法
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN110532451A (zh) 针对政策文本的检索方法和装置、存储介质、电子装置
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN103810162B (zh) 推荐网络信息的方法和系统
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和系统
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN105095187A (zh) 一种搜索意图识别方法及装置
CN106204053A (zh) 信息类目错放识别方法和装置
CN103399891A (zh) 网络内容自动推荐方法、装置和系统
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN109857862A (zh) 基于智能决策的文本分类方法、装置、服务器及介质
EP3401853A1 (en) Method and device for predicting user problem based on data drive
US20160170993A1 (en) System and method for ranking news feeds
CN104462553A (zh) 问答页面相关问题推荐方法及装置
CN107918657A (zh) 一种数据源的匹配方法和装置
CN111523055A (zh) 一种基于农产品特征属性评论倾向的协同推荐方法及系统
CN106843941A (zh) 信息处理方法、装置和计算机设备
CN103778206A (zh) 一种网络服务资源的提供方法
CN108734159A (zh) 一种图像中敏感信息的检测方法及系统
CN107220745A (zh) 一种意图行为数据的识别方法、系统及设备
CN104268572A (zh) 面向后台多源数据的特征提取和特征选择方法
CN104572733A (zh) 用户兴趣标签分类的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207

RJ01 Rejection of invention patent application after publication