CN103294727B

CN103294727B - 一种被推荐对象的过滤方法及系统

Info

Publication number: CN103294727B
Application number: CN201210055823.5A
Authority: CN
Inventors: 张新波; 叶军; 徐洋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2012-03-05
Filing date: 2012-03-05
Publication date: 2017-09-08
Anticipated expiration: 2032-03-05
Also published as: CN103294727A

Abstract

本申请公开了一种被推荐对象的过滤方法及系统，该方法包括：获取被推荐对象的文本信息的文本识别概率；并且，获取被推荐对象的提供方的行为信息的行为识别概率；根据所述文本识别概率和行为识别概率确定被推荐对象的第一概率；判断所述第一概率是否大于预设概率阈值，如果是，将被推荐对象的第一预设信息发送至客户端，以便客户端在指定位置向用户展现被推荐对象的第一预设信息。本申请能够提高第一服务器的数据处理速度，且减少第一服务器与客户端之间的传输带宽占用。

Description

一种被推荐对象的过滤方法及系统

技术领域

本申请涉及数据处理技术，尤其涉及一种被推荐对象的过滤方法及系统。

背景技术

在电子商务网站中，一般需要对电子商务产品进行过滤，以便从中选择出高质量的优质产品来向用户进行推荐，例如将被推荐的产品的对应信息放置于电子商务网站的首页等等，从而使得用户能够不通过搜索和过多的产品浏览操作即可获得优质产品的信息，更为便捷的进行购物。

现有技术中，一般通过人工肉眼选择需要向用户推荐的产品，或者直接根据电子商务产品的成交量等来选择需要向用户推荐的产品，但是通过上述方式选择出来的被推荐的产品往往由于人工选择的倾向性或者选择依据的单一而造成选择结果与用户预期之间的偏差，导致产品推荐的不准确。

也即是说，当将这些选择出来的产品向用户进行推荐时，往往并不能获得客户的认同，从而用户仍然需要通过搜索并对搜索到的产品进行浏览而最终实现购物，这样，电子商务网站所属的第一服务器需要进行优质产品的选择和推荐处理，然而这种选择和推荐处理并未减少用户购物中的操作，反而由于需要进行优质产品的选择和推荐处理，从而增加了第一服务器的数据处理压力，降低了第一服务器的数据处理速度；而且，第一服务器需要将对于产品的推荐数据发送到各个用户所在的客户端，以便向用户进行展现，第一服务器和客户端之间的推荐数据传输也占用了两者之间的传输带宽，浪费了网络传输资源。

发明内容

有鉴于此，本申请要解决的技术问题是，提供一种被推荐对象的过滤方法及系统，能够提高第一服务器的数据处理速度，且减少第一服务器与客户端之间的传输带宽占用。

为此，本申请实施例采用如下技术方案：

一种被推荐对象的过滤方法，包括：

获取被推荐对象的文本信息的文本识别概率；并且，获取被推荐对象的提供方的行为信息的行为识别概率；

根据所述文本识别概率和行为识别概率确定被推荐对象的第一概率；

判断所述第一概率是否大于预设概率阈值，如果是，将被推荐对象的第一预设信息发送至客户端，以便客户端在指定位置向用户展现被推荐对象的第一预设信息。

一种被推荐对象的过滤系统，包括：

第一获取单元，用于获取被推荐对象的文本信息的文本识别概率；

第二获取单元，用于获取被推荐对象的提供方的行为信息的行为识别概率；

确定单元，用于根据所述文本识别概率和行为识别概率确定被推荐对象的第一概率；

判断单元，用于判断所述第一概率是否大于预设概率阈值；

发送单元，用于判断单元的判断结果为是时，将被推荐对象的第一预设信息发送至客户端，以便客户端在指定位置向用户展现被推荐对象的第一预设信息。

对于上述技术方案的技术效果分析如下：

根据被推荐对象的文本识别概率和被推荐对象提供方的行为识别概率确定被推荐对象的第一概率，进而判断第一概率大于预设概率阈值时，将被推荐对象的第一预设信息发送至客户端，以便客户端在指定位置向用户展现被推荐对象的第一预设信息；从而，在进行被推荐对象的过滤时，不仅仅依靠人工方式或者依据被推荐对象的成交量，而是结合被推荐对象以及被推荐对象的提供方两方面的因素，相应的进行被推荐对象的过滤，从而使得被推荐对象的选择准确，减少了用户进行搜索和浏览的操作，从而第一服务器的数据处理压力降低，提高了第一服务器的数据处理速度；而且，由于用户搜索和产品浏览操作的减少，客户端与第一服务器之间传输的搜索结果数据以及产品浏览对应的产品数据减少，从而减少了客户端与第一服务器之间的传输带宽占用，减少了对于网络传输资源的浪费。

附图说明

图1为本申请实施例所应用的网络环境；

图2为本申请实施例一种被推荐对象的过滤方法流程示意图；

图3为本申请实施例一个步骤的实现方法流程示意图；

图4为本申请实施例另一个步骤的实现方法流程示意图；

图5为本申请实施例被推荐数据的过滤系统结构示意图。

具体实施方式

以下，结合附图详细说明本申请实施例被推荐数据的过滤方法及系统的实现。

为了更好的对本申请实施例过滤方法进行理解，首先对本申请实施例被推荐对象的过滤方法及系统可以适用的网络环境进行举例，如图1所示，可以包括：

客户端110，用于向第一服务器发送被推荐对象的文本信息；

第一服务器120，用于获取被推荐对象的文本信息以及被推荐对象的提供方的相关行为信息，并且将被推荐对象的预设信息发送给客户端，以便客户端将预设信息在指定位置进行展现。

其中，所述被推荐对象例如可以为：产品，而文本信息可以为产品的描述信息、标题、关键字等产品相关的文字信息；而被推荐对象的提供方可以为商家，所述行为信息可以为被推荐对象被购买、被点击、被二次点击等用户在网页上的操作动作信息等，所述预设信息可以为被推荐对象的除文字信息之外的其他信息，例如图片信息、图片的描述等。

图2为本申请实施例一种被推荐数据的过滤方法流程示意图，如图2所示，该方法包括：

步骤201：获取被推荐对象的文本信息的文本识别概率；并且，获取被推荐对象的提供方的行为信息的行为识别概率；

步骤202：根据所述文本识别概率和行为识别概率确定被推荐对象的第一概率；

其中，第一概率的计算公式可以为：第一概率＝文本识别概率*文本识别概率权重+行为识别概率*行为识别概率权重。

步骤203：判断所述第一概率是否大于预设概率阈值，如果是，将被推荐对象的第一预设信息发送至客户端，以便客户端在指定位置向用户展现被推荐对象的第一预设信息。

在图2所示的被推荐产品的过滤方法中，根据被推荐对象的文本识别概率和被推荐对象提供方的行为识别概率确定被推荐对象的第一概率，进而判断第一概率大于预设概率阈值时，将将被推荐对象的第一预设信息发送至客户端，以便客户端在指定位置向用户展现被推荐对象的第一预设信息；从而，在进行被推荐对象的过滤时，不仅仅依靠人工方式或者依据被推荐对象的成交量，而是结合被推荐对象以及被推荐对象的提供方的相关行为信息两方面的因素，相应的进行被推荐对象的过滤，从而使得被推荐对象的选择可以准确，减少了用户进行搜索和浏览的操作，从而第一服务器的数据处理压力降低，提高了第一服务器的数据处理速度；而且，由于用户搜索和产品浏览操作的减少，客户端与第一服务器之间传输的搜索结果数据以及产品浏览对应的产品数据减少，从而减少了客户端与第一服务器之间的传输带宽占用，减少了对于网络传输资源的浪费。

在图2的基础上对本申请实施例被推荐数据的过滤方法的实现进行更为详细的说明。

其中，步骤201中所述获取被推荐对象的文本信息的文本识别概率可以包括：

根据被推荐对象的样本，确定样本的各种文本参数对应的概率值在文本识别概率中的权重值；

根据被推荐对象的文本信息计算被推荐对象在每一种文本参数下的概率值；

根据被推荐对象在每一种文本参数下的概率值以及各种文本参数对应的概率值在文本识别概率中的权重值，计算被推荐对象的文本信息的文本识别概率。

具体的，如图3所示，步骤201中的所述获取被推荐对象的文本信息的文本识别概率可以通过以下步骤实现。其中，步骤301～步骤308是所述根据被推荐对象的样本，确定样本的各种文本参数对应的概率值在文本识别概率中的权重值的一种具体实现，步骤309～步骤312是所述根据被推荐对象的文本信息计算被推荐对象在每一种文本参数下的概率值的一种具体实现；步骤313对应所述计算被推荐对象的文本信息的文本识别概率。

步骤301：获取被推荐对象的样本，将所述样本划分为第一样本库和第二样本库。

其中，当所述被推荐对象为产品时，可以按照样本的产品质量高低来进行第一样本库和第二样本库的划分，例如第一样本库中所包含的样本的产品质量相对第二样本库中样本的产品质量更高；而第二样本库中样本的产品质量相对较低。

一般的，将描述信息全面、图片好、价格数据真实、产品细节属性描述充分、交易量好、评价高的产品认为是高质量产品，高质量产品之外的产品为低质量产品，本申请实施例中也可以按照上述标准类似的标准进行所述产品质量高低的判断。

步骤302：对于每个样本，从样本的各种文本参数中分别提取各种文本参数所包含的词条。

其中，当所述被推荐对象为产品时，所述文本参数可以包括：标题、关键字、描述信息等。

当所述文本参数为描述信息时，在进行样本的文本参数中的词条提取时，可以通过以下步骤实现：

1.1对于每一样本的描述信息，去除描述信息中的html标签；

1.2从描述信息中去除包含在停用词列表中的词组；

1.3对于进行上述去除处理后的描述信息，将相邻的预设个数的词组作为一个词条。这里，所述预设个数可以自主设定，例如可以设为1个和/或2个和/或3个等，这里不限制。

优选地，为了防止后续英文字符的大小写对词条的出现次数统计结果构成影响，这里还可以将所有词条中的英文字符全部转换成小写的英文字符。

另外，在进行词条的提取之前，还可以先对两个样本库中的样本进行防噪处理，具体的，该防噪处理过程可以包括：

2.1按照样本的生成时间，将生成时间处于预设时间之前的样本去除；

2.2将样本的预设第一文本参数的关键词处于黑白名单中的样本去除；

2.3将样本的提供方处于黑白名单中的样本去除；

2.4将样本的预设第一文本参数的关键词包含被禁止关键词的样本去除。

通过以上对于样本的防噪处理，可以进一步选择出合适的样本，否则，可能对后续的过滤结果的准确性构成影响。

步骤303：建立每一种文本参数的词条库，每一种文本参数的词条库中包括：该种文本参数所包含的各个词条在第一样本库样本的该种文本参数中的数量和第二样本库样本的该种文本参数中的数量。

也即是说，对于提取出的每个词条，分别统计该词条在第一样本库样本的对应文本参数中出现的次数和第二样本库样本的对应文本参数中出现的次数。

例如，对于描述信息(对应文本参数)中提取出的词条W1，统计出其在第一样本库各个样本的描述信息(对应文本参数)中出现的次数HC1，并且，统计出该词条W1在第二样本库中各个样本的描述信息(对应文本参数)中出现的次数LC1；对于标题中的词条W2，统计出其在第一样本库中各个样本的标题中出现的次数HC2，在第二样本库中各个样本的标题中出现的次数LC2；等等。

以下，通过步骤304～步骤307详细描述如何实现根据每一种文本参数的词条库计算每一样本在该种文本参数下的概率值。

步骤304：建立每一种文本参数的词条库，计算词条库中每个词条在该种文本参数下的出现概率。

所述词条库中包括：该种文本参数所包含的各个词条在第一样本库样本的该种文本参数中的数量和第二样本库样本的该种文本参数中的数量。

具体的，在某一种文本参数下，词条W在该种文本参数下的出现概率P(W)的计算公式可以为：P(W)＝(HC_W*LT)/(HC_W*LT+LC_W*HT)；其中，HC_W为词条W在第一样本库中样本的该种文本参数中出现的次数；LC_W为词条W在第二样本库中样本的该种文本参数中出现的次数；LT为第一样本库中样本的总数；HT为第二样本库中样本总数。

其中，当步骤302中进行了样本库中样本的防噪处理时，LT和HT应该为样本库进行防噪处理后样本库中样本总数。

步骤305：对每一词条在对应文本参数下的出现概率进行修正处理，得到每一词条的出现概率的修正值。

当步骤304中概率计算在HC_W为0时，P(W)会趋近于0，在LC_W为0时，P(W)等于1，为了避免这种极端情况的出现，可以使用一个修正函数f(W)＝(s*X+n*P(W))/(s+n)对步骤304中计算得到的出现概率进行修正处理，其中n为词条W在第一样本库中各个样本的对应文本参数中出现的次数HC_W和词条W在第二样本库中各个样本的对应文本参数中出现的次数LC_W之和；

X，s为常量，X，s一般为预设的值，作用为避免出现P(W)为1或0的极端情况，在实际应用中可以自主设置，X和s一般取具有参考价值的经验数据值，例如可以根据另外一个已有词条的计算结果，将s取值为该词条出现在该词条对应的第一样本库和第二样本库中的次数之和；X取值为该词条在对应的第一样本库中出现的概率。

步骤306：对于每一样本的每一种文本参数，根据该样本的该种文本参数所包含的所有词条在该种文本参数下的出现概率的修正值，计算该样本在该种文本参数下的第一概率值和第二概率值。

其中，第一概率值P1＝1-(1-f(1))(1-f(2))...(1-f(m))^(1/m)，第二概率值P2＝1-(f(1)*f(2)...f(m))^(1/m)，m为对应文本参数所包含的词条的总数量。

例如，某一样本A的文本参数B，则根据该样本A的文本参数B中所包含的所有词条在该文本参数B下的出现概率的修正值，计算该样本A在该文本参数B下的第一概率值和第二概率值。

步骤307：根据该样本在该种文本参数下的第一概率值和第二概率值计算该样本在该种文本参数下的概率值S＝(P1-P2)/(P1+P2)。

同样的，本步骤中，根据样本A在文本参数B下的第一概率值和第二概率值计算样本A在该文本参数B下的概率值S。

通过步骤306和步骤307的顺序重复执行，即可得到每一样本在每一种文本参数下的概率值。

步骤308：根据计算得到的概率值确定各种文本参数对应的概率值在文本识别概率中的权重值。

具体的，根据各个样本在各种文本参数下的概率值以及文本识别概率的公式X1＝S1*T1+S2*T2...+Sq*Tq统计出样本总的文本识别概率最高时同一样本中各种文本参数的概率值在文本识别概率中的权重值T1、T2...Tq。其中，S1、S2、...、Sq为一个样本的各种文本参数所对应的概率值，q为文本参数的总数。

被推荐对象的文本信息的文本识别概率是表征该被推荐对象的文本信息使得被推荐对象被判定为高质量产品的概率。文本识别概率越高，被推荐对象被判定为高质量产品的概率越高，两者正相关。

步骤309：接收被推荐对象的文本信息，从文本信息中确定各种文本参数，从被推荐对象的各种文本参数中分别提取各种文本参数所包含的词条；

其中，本步骤中进行文本参数所包含词条的提取时，可以使用与步骤302中词条提取方法相同的方法实现，以便步骤310中提取的词条与步骤302中提取出的词条重合，以便后续步骤中查找词条库中词条对应的出现次数。

步骤310：对于被推荐对象的每一种文本参数中的每一词条，从对应的文本参数词条库中获取该词条在第一样本库样本的该种文本参数中的数量和第二样本库样本的该种文本参数中的数量，进而计算该词条在该种文本参数下的出现概率。

例如，对于被推荐对象的描述信息(对应文本参数)中的每一词条，从描述信息(对应文本参数)词条库中获取该词条在第一样本库样本的描述信息(对应文本参数)中的数量和第二样本库样本的描述信息(对应文本参数)中的数量，进而计算该词条在描述信息(对应文本参数)下的出现概率。

其中，在步骤303中已经建立了每一种文本参数的词条库，这里，只要根据步骤309中提取出的词条去步骤303中建立的对应文本参数(如描述信息)的词条库中检索相同的词条，从而获得词条对应的在第一样本库样本的该种文本参数(如描述信息)中的数量和第二样本库样本的该种文本参数(如描述信息)中的数量即可。

这里，计算词条在该种文本参数(如描述信息)下的出现概率时，与步骤304中的计算方法相同，直接通过本步骤中获取到的该词条在第一样本库样本的该种文本参数(如描述信息)中的数量和第二样本库样本的该种文本参数(如描述信息)中的数量利用公式P(W)＝(HC_W*LT)/(HC_W*LT+LC_W*HT)计算即可。

步骤311：对词条在文本参数下的出现概率进行修正处理，得到词条在文本参数下的出现概率的修正值。

其中，步骤305和步骤311是可选步骤，如果步骤305执行，则最好执行步骤311，而如果步骤305省略，则步骤311也省略即可，此时，后续步骤直接根据出现概率进行计算，而不再根据出现概率的修正值进行计算，这里不再赘述。

步骤312：对于被推荐对象的每一种文本参数，根据该种文本参数所包含的所有词条在该种文本参数下的出现概率的修正值计算被推荐对象在该种文本参数下的概率值；

从而本步骤中可以得到被推荐对象在每一种文本参数下的概率值。

举例来说，对于被推荐对象的描述信息(对应文本参数)，根据描述信息所包含的所有词条在描述信息(对应文本参数)下的出现概率的修正值计算被推荐对象在描述信息(对应文本参数)下的概率值。

其中，本步骤的实现请参考步骤306～步骤307，区别仅在于步骤306～步骤307中是计算样本的概率值，而这里是计算被推荐对象的概率值。

步骤313：根据被推荐对象在每一种文本参数下的概率值以及各种文本参数对应的权重，计算被推荐对象的文本信息的文本识别概率。

这里，也根据步骤308中文本识别概率的公式X1＝S1*T1+S2*T2...+Sq*Tq计算被推荐对象的文本识别概率，其中各种文本参数对应的权重值T1...Tq的值在步骤308中已经确定，而被推荐对象在各种文本参数下的概率值S1～Sq则在步骤312中计算得到。

其中，步骤201中所述获取被推荐对象的提供方的行为信息的行为识别概率可以包括：

根据被推荐对象提供方的样本，确定样本的各种行为参数对应的概率值在行为识别概率中的权重值；

根据被推荐对象提供方的行为信息计算被推荐对象提供方在每一种行为参数下的概率值；

根据被推荐对象提供方在每一种行为参数下的概率值以及各种行为参数对应的概率值在行为识别概率中的权重值，计算被推荐对象提供方的行为信息的行为识别概率。

具体的，如图4所示，为步骤201中的所述获取被推荐对象提供方的行为信息的行为识别概率可以通过以下步骤实现。其中，步骤401～步骤408是所述根据被推荐对象提供方的样本，确定样本的各种行为参数对应的概率值在行为识别概率中的权重值的一种具体实现，步骤309～步骤312是所述根据被推荐对象提供方的行为信息计算被推荐对象提供方在每一种行为参数下的概率值的一种具体实现；步骤413对应所述计算被推荐对象提供方的行为信息的行为识别概率。

步骤401：获取被推荐对象提供方的样本，将所述样本划分为第三样本库和第四样本库。

在进行样本划分时，可以随机将样本划分为两个样本库，一般的，两个样本库中的数据不同。

步骤402：对于每个样本，从样本的各种行为参数中分别提取各种行为参数所包含的词条。

其中，当所述被推荐对象提供方为商家时，所述行为参数可以包括：购买信息、被点击信息等用户在网页上的各种操作动作信息等。例如，购买信息的词条可以为：购买、成交；被点击信息的词条可以为：点击、二次点击等等。

本步骤中词条的提取可以参照步骤302中1.1、1.2、1.3已经相应的描述，这里不赘述。

3.1按照样本的生成时间，将生成时间处于预设时间之前的样本去除；

例如，去掉生成时间处于当前时间3个月之前的样本；或者特殊活动交易日，比如团购，秒杀等活动产生的产品和交易数据；

3.2将样本的预设第一行为参数的关键词处于黑白名单中的样本去除；

例如，去掉一些非法词汇和一些历史经验已知的SPAM垃圾数据或明显的重复数据等；

3.3将样本的提供方处于黑白名单中的样本去除；

该步骤主要作用在于去掉发布商品的卖家在黑白名单中的样本；

3.4将样本的预设第一行为参数的关键词包含被禁止关键词的样本去除；

该步骤的主要作用在于去掉行为参数中包有有禁限售关键词的样本。

步骤403：建立每一种行为参数的词条库，所述词条库中包括：该行为参数所包含的各个词条在第三样本库样本的该种行为参数中的数量和第四样本库样本的该种行为参数中的数量。

也即是说，对于提取出的每个词条，分别统计该词条在第三样本库样本的对应行为参数中的次数和第四样本库样本的对应行为参数中出现的次数。

例如，对于购买信息中提取出的词条W1，统计出其在第三样本库各个样本的购买信息中出现的次数HC1，并且，统计出该词条W1在第四样本库中各个样本的购买信息中出现的次数LC1；对于购买信息中的词条W2，统计出其在第三样本库中各个样本的购买信息中出现的次数HC2，在第四样本库中各个样本的购买信息中出现的次数LC2；等等。

以下，通过步骤404～步骤407详细描述如何实现根据每一种行为参数的词条库计算每一样本在该种行为参数下的概率值。

步骤404：建立每一种行为参数的词条库，计算词条库中每个词条在该种行为参数下的出现概率。

所述词条库中包括：该种行为参数(例如购买信息)所包含的各个词条在第三样本库样本的该种行为参数(例如购买信息)中的数量和第四样本库样本的该种行为参数(例如购买信息)中的数量。

具体的，在某一种行为参数下，词条W在该种行为参数下的出现概率P(W)的计算公式可以为：P(v)＝(HC_v*LT1)/(HC_v*LT1+LC_v*HT1)；其中，HC_v为词条v在第三样本库样本的对应行为参数中出现的次数；LC_v为词条v在第四样本库样本的对应行为参数中出现的次数；LT1为第三样本库中样本的总数；HT1为第四样本库中样本总数。

其中，当步骤402中进行了样本库中样本的防噪处理时，LT1和HT1应该为样本库进行防噪处理后样本库中样本总数。

步骤405：对每一词条在对应行为参数下的出现概率进行修正处理，得到每一词条的出现概率的修正值。

当步骤404中概率计算在HC_v为0时，P(v)会趋近于0，在LC_v为0时，P(v)等于1，为了避免这种极端情况的出现，可以使用一个修正函数f(v)＝(s1*X1+n*P(v))/(s1+n1)；对步骤404中计算得到的出现概率进行修正处理，其中，n1＝HC_v+LC_v；X1，s1为常数，在实现时可以根据实际应用情况确定。

步骤406：对于每一样本的每一种行为参数，根据该样本的该种行为参数所包含的所有词条在该种行为参数下的出现概率的修正值，计算该样本在该种行为参数下的第三概率值和第四概率值。

其中，第三概率值P3＝1-(1-f(1))(1-f(2))...(1-f(m))^(1/m)，第四概率值P4＝1-(f(1)*f(2)...f(m))^(1/m)，m为对应行为参数所包含的词条的总数量。

例如，某一样本A的行为参数B，则根据该样本A的行为参数B中所包含的所有词条在该种行为参数B下的出现概率的修正值，计算该样本A在该种行为参数B下的第一概率值和第二概率值。

步骤407：根据该样本在该种行为参数下的第一概率值和第二概率值计算该样本在该种行为参数下的概率值U＝(P3-P4)/(P3+P4)。

例如，根据样本A在行为参数B下的第一概率值和第二概率值计算样本A在该种行为参数B下的概率值U。

通过步骤406和步骤407的顺序重复执行，即可得到每一样本在每一种行为参数下的概率值。

步骤408：根据计算得到的概率值确定各种行为参数对应的概率值在行为识别概率中的权重值。

具体的，根据各个样本的在各种行为参数下的概率值以及行为识别概率的公式X2＝U1*R1+U2*R2...+Up*Rp统计出样本总的行为识别概率最高时同一样本中各种行为参数的概率值在行为识别概率中的权重值R1、R2、...、Rp。其中，U1、U2、...、Up为p种行为参数对应的概率值。

步骤409：接收被推荐对象提供方的行为信息，从行为信息中确定各种行为参数，从被推荐对象提供方的各种行为参数中分别提取各种行为参数所包含的词条；

其中，本步骤中进行行为参数所包含词条的提取时，可以使用与步骤402中词条提取方法相同的方法实现，以便步骤410中提取的词条与步骤402中提取出的词条重合，以便后续步骤中查找词条库中词条对应的出现次数。

步骤410：对于被推荐对象提供方的每一种行为参数中的每一词条，从对应的行为参数词条库中获取该词条在第三样本库样本的该种行为参数中的数量和第四样本库样本的该种行为参数中的数量，进而计算该词条在该种行为参数下的出现概率。

其中，在步骤403中已经建立了每一种行为参数的词条库，这里，只要根据步骤409中提取出的词条去步骤403中建立的对应行为参数的词条库中检索相同的词条，从而获得词条对应的在第三样本库样本的该种行为参数中的数量和第四样本库样本的该种行为参数中的数量即可。

这里，计算词条在该种行为参数下的出现概率时，与步骤404中的计算方法相同，直接通过本步骤中获取到的该词条在第三样本库样本的该种行为参数中的数量和第四样本库样本的该种行为参数中的数量利用公式P(v)＝(HC_v*LT1)/(HC_v*LT1+LC_v*HT1)计算即可。

步骤411：对词条在行为参数下的出现概率进行修正处理，得到词条在行为参数下的出现概率的修正值。

其中，步骤405和步骤411是可选步骤，如果步骤405执行，则最好执行步骤311，而如果步骤405省略，则步骤411也省略即可，此时，后续步骤直接根据出现概率进行计算，而不再根据出现概率的修正值进行计算，这里不再赘述。

步骤412：对于被推荐对象提供方的每一种行为参数，根据该种行为参数所包含的所有词条在该种行为参数下的出现概率的修正值计算被推荐对象提供方在该种行为参数下的概率值；

其中，本步骤的实现请参考步骤406～步骤407，区别仅在于步骤406～步骤407中是计算样本的概率值，而这里是计算被推荐对象提供方的概率值。

步骤413：根据被推荐对象提供方在每一种行为参数下的概率值以及各种行为参数对应的权重，计算被推荐对象提供方的行为信息的行为识别概率。

所述行为识别概率用于表征该被推荐对象提供方的行为参数使得被推荐对象被判定为高质量产品的概率。行为识别概率越高，被推荐对象被判定为高质量产品的概率越高，两者正相关。

这里，也根据步骤408中行为识别概率的公式X2＝U1*R1+U2*R2...+Up*Rp；计算被推荐对象提供方的行为识别概率，其中，X2为行为识别概率，R1、R2、...、Rp为对应行为参数的权重值，U1、U2、...、Up为p种行为参数对应的概率值。其中各种行为参数对应的权重值T1...Tq的值在步骤408中已经确定，而被推荐对象提供方在各种行为参数下的概率值S1～Sq则在步骤412中计算得到。

与上述方法相对应的，本申请实施例还提供一种被推荐对象的过滤系统，如图5所示，该系统包括：

第一获取单元510，用于获取被推荐对象的文本信息的文本识别概率；

第二获取单元520，用于获取被推荐对象的提供方的行为信息的行为识别概率；

确定单元530，用于根据所述文本识别概率和行为识别概率确定被推荐对象的第一概率；

判断单元540，用于判断所述第一概率是否大于预设概率阈值；

发送单元550，用于判断单元判断结果为是时，将被推荐对象的第一预设信息发送至客户端，以便客户端在指定位置向用户展现被推荐对象的第一预设信息。

优选地，第一获取单元510可以包括：

第一权重值确定单元，用于根据被推荐对象的样本，确定样本的各种文本参数对应的概率值在文本识别概率中的权重值；

第一概率值计算单元，用于根据被推荐对象的文本信息计算被推荐对象在每一种文本参数下的概率值；

文本识别概率计算单元，用于根据被推荐对象在每一种文本参数下的概率值以及各种文本参数对应的概率值在文本识别概率中的权重值，计算被推荐对象的文本信息的文本识别概率。

其中，权重值确定单元可以包括：

第一获取子单元，用于获取被推荐对象的样本，将所述样本划分为第一样本库和第二样本库；

第一提取子单元，用于对于每个样本，从样本的各种文本参数中分别提取各种文本参数所包含的词条；

第一建立子单元，用于建立每一种文本参数的词条库，所述词条库中包括：该种文本参数所包含的各个词条在第一样本库样本的该种文本参数中的数量和第二样本库样本的该种文本参数中的数量；

第一确定子单元，用于根据每一种文本参数的词条库计算每一样本在该种文本参数下的概率值，根据计算得到的概率值确定各种文本参数对应的概率值在文本识别概率中的权重值。

概率值计算单元可以包括：

第二提取子单元，用于接收被推荐对象的文本信息，从文本信息中确定各种文本参数，从被推荐对象的各种文本参数中分别提取各种文本参数所包含的词条；

第二获取子单元，用于对于被推荐对象的每一种参数中的每一词条，从对应的文本参数词条库中获取该词条在第一样本库样本的该种文本参数中的数量和第二样本库样本的该种文本参数中的数量，

第一计算子单元，用于根据获取到的所述数量计算被推荐对象在对应文本参数下的概率值。

优选地，第一确定子单元可以包括：

第一计算模块，用于根据每一种文本参数的词条库计算每一样本在该种文本参数下的概率值；

第一确定模块，用于根据计算得到的概率值确定各种文本参数对应的概率值在文本识别概率中的权重值。

所述第一计算模块具体可以用于：

根据每一种文本参数的词条库计算词条在该种文本参数下的出现概率；对于每一样本的每一种文本参数，根据该样本的该种文本参数所包含的所有词条在该种文本参数下的出现概率，计算该样本在该种文本参数下的第一概率值和第二概率值；根据该样本在该种文本参数下的第一概率值和第二概率值计算该样本在该种文本参数下的概率值；

根据获取到的所述数量计算被推荐对象在对应文本参数下的概率值包括：

根据获取到的所述数量计算词条在该种文本参数下的出现概率；对于每一被推荐对象的每一种文本参数，根据该被推荐对象的该种文本参数所包含的所有词条在该种文本参数下的出现概率，计算该被推荐对象在该种文本参数下的第一概率值和第二概率值；根据该被推荐对象在该种文本参数下的第一概率值和第二概率值计算该对推荐对象在该种文本参数下的概率值。

优选地，计算模块进一步用于：计算词条的出现概率之后，

对词条在文本参数下的出现概率进行修正处理，得到词条在文本参数下的出现概率的修正值；

相应的，根据该种文本参数所包含的所有词条的出现概率的修正值计算样本或者被推荐对象的该种文本参数所对应的概率值。

优选地，计算词条的出现概率的计算公式为：

P(W)＝(HC_W*LT)/(HC_W*LT+LC_W*HT)；其中，HC_W为词条W在第一样本库样本的对应文本参数中出现的次数；LC_W为词条W在第二样本库样本的对应文本参数中出现的次数；LT为第二样本库中样本的总数；HT为第一样本库中样本总数；

对词条的出现概率进行修正处理包括：

根据以下公式计算得到词条的出现概率的修正值：f(W)＝(s*X+n*P(W))/(s+n)；其中，n＝HC_W+LC_W；X，s为常数；

根据该种文本参数所包含的所有词条的出现概率的修正值计算样本的该种文本参数所对应的概率值包括：

根据所有词条的出现概率的修正值计算第一概率值P1＝1-(1-f(1))(1-f(2))...(1-f(m))^(1/m)，第二概率值P2＝1-(f(1)*f(2)...f(m))^(1/m)，m为对应文本参数所包含的词条的总数量；则样本的该种文本参数所对应的概率值S＝(P1-P2)/(P1+P2)；

根据该种文本参数所包含的所有词条的出现概率的修正值计算被推荐对象的该种文本参数所对应的概率值包括：

根据所有词条的出现概率的修正值计算第一概率值P1＝1-(1-f(1))(1-f(2))...(1-f(m))^(1/m)，第二概率值P2＝1-(f(1)*f(2)...f(m))^(1/m)，m为对应文本参数所包含的词条的总数量；

则被推荐对象的该种文本参数所对应的概率值S＝(P1-P2)/(P1+P2)；

计算被推荐对象的文本信息的文本识别概率的计算公式为：

X1＝S1*T1+S2*T2...+Sq*Tq；其中，X1为文本识别概率，T1、T2、...、Tq为对应文本参数的权重值，S1、S2、...、Sq为q种文本参数对应的概率值。

优选地，第二获取单元520可以包括：

第二权重值确定单元，用于根据被推荐对象提供方的样本，确定样本的各种行为参数对应的概率值在行为识别概率中的权重值；

第二概率值计算单元，用于根据被推荐对象提供方的行为信息计算被推荐对象提供方在每一种行为参数下的概率值；

行为识别概率计算单元，用于根据被推荐对象提供方在每一种行为参数下的概率值以及各种行为参数对应的概率值在行为识别概率中的权重值，计算被推荐对象提供方的行为信息的行为识别概率。

其中，第二权重值确定单元可以包括：

第三获取子单元，用于获取被推荐对象提供方的样本，将所述样本划分为第三样本库和第四样本库；

第三提取子单元，用于对于每个样本，从样本的各种行为参数中分别提取各种行为参数所包含的词条；对于每个被推荐对象提供方的样本，从样本的各种行为参数中分别提取各种行为参数所包含的词条；

第二建立子单元，用于建立每一种行为参数的词条库，所述词条库中包括：该种行文参数所包含的各个词条在第三样本库样本的该种行为参数中的数量和第四样本库样本的该种行为参数中的数量；

第二确定子单元，用于根据每一种行为参数的词条库计算每一样本在该种行为参数下的概率值，根据计算得到的概率值确定各种行为参数对应的概率值在行为识别概率中的权重值。

第二概率值计算单元可以包括：

第四提取子单元，用于获取被推荐对象提供方的行为信息，从行为信息中确定各种行为参数，从被推荐对象的各种行为参数中分别提取各种行为参数所包含的词条；

第四获取子单元，用于对于被推荐对象提供方的每一种行为参数中的每一词条，从对应的行为参数词条库中获取该词条在第三样本库样本的该种行为参数中的数量和第四样本库样本的该种行为参数中的数量；

第二计算子单元，用于根据获取到的所述数量计算被推荐对象提供方在对应行为参数下的概率值。

优选地，第二确定子单元可以包括：

第二计算模块，用于根据每一种行为参数的词条库计算每一样本在该种行为参数下的概率值；

第二确定模块，用于根据计算得到的概率值确定各种行为参数对应的概率值在行为识别概率中的权重值；

第二计算模块具体可以用于：

根据每一种行为参数的词条库计算词条在该种行为参数下的出现概率；对于每一样本的每一种行为参数，根据该样本的该种行为参数所包含的所有词条在该种行为参数下的出现概率，计算该样本在该种行为参数下的第三概率值和第四概率值；根据该样本在该种行为参数下的第三概率值和第四概率值计算该样本在该种行为参数下的概率值；

根据获取到的所述数量计算被推荐对象提供方在对应行为参数下的概率值包括：

根据获取到的所述数量计算词条在该种行为参数下的出现概率；对于每一被推荐对象提供方的每一种行为参数，根据该被推荐对象提供方的该种行为参数所包含的所有词条在该种行为参数下的出现概率，计算该被推荐对象提供方在该种行为参数下的第三概率值和第四概率值；根据该被推荐对象提供方在该种行为参数下的第三概率值和第四概率值计算该对推荐对象提供方在该种行为参数下的概率值。

优选地，第二计算模块进一步用于：计算词条的出现概率之后，

对词条在行为参数下的出现概率进行修正处理，得到词条在行为参数下的出现概率的修正值；

相应的，根据该种行为参数所包含的所有词条的出现概率的修正值计算样本或者被推荐对象提供方的该种行为参数所对应的概率值。

优选地，所述计算词条的出现概率的计算公式为：

P(v)＝(HC_v*LT1)/(HC_v*LT1+LC_v*HT1)；其中，HC_v为词条v在第三样本库样本的对应行为参数中出现的次数；LC_v为词条v在第四样本库样本的对应行为参数中出现的次数；LT1为第三样本库中样本的总数；HT1为第四样本库中样本总数；

对词条的出现概率进行修正处理包括：

根据以下公式计算得到词条的出现概率的修正值：f(v)＝(s1*X1+n*P(v))/(s1+n1)；其中，n1＝HC_v+LC_v；X1，s1为常数；

根据该种行为参数所包含的所有词条的出现概率的修正值计算样本的该种行为参数所对应的概率值包括：

根据所有词条的出现概率的修正值计算第三概率值P3＝1-(1-f(1))(1-f(2))...(1-f(m))^(1/m)，第四概率值P4＝1-(f(1)*f(2)...f(m))^(1/m)，m为对应行为参数所包含的词条的总数量；则样本的该种行为参数所对应的概率值U＝(P3-P4)/(P3+P4)；

根据该种行为参数所包含的所有词条的出现概率的修正值计算被推荐对象提供方的该种行为参数所对应的概率值包括：

根据所有词条的出现概率的修正值计算第三概率值P3＝1-(1-f(1))(1-f(2))...(1-f(m))^(1/m)，第四概率值P4＝1-(f(1)*f(2)...f(m))^(1/m)，m为对应行为参数所包含的词条的总数量；则被推荐对象的该种文本参数所对应的概率值U＝(P3-P4)/(P3+P4)；

计算被推荐对象提供方的行为信息的行为识别概率的计算公式为：

X2＝U1*R1+U2*R2...+Up*Rp；其中，X2为行为识别概率，R1、R2、...、Rp为对应行为参数的权重值，U1、U2、...、Up为p种行为参数对应的概率值。

优选地，确定单元530根据所述文本识别概率和行为识别概率确定被推荐对象的第一概率的计算公式为：第一概率＝文本识别概率*文本识别概率权重+行为识别概率*行为识别概率权重。

图5所示的系统中，根据被推荐对象的文本识别概率和被推荐对象提供方的行为识别概率确定被推荐对象的第一概率，进而判断第一概率大于预设概率阈值时，将将被推荐对象的第一预设信息发送至客户端，以便客户端在指定位置向用户展现被推荐对象的第一预设信息；从而，在进行被推荐对象的过滤时，不仅仅依靠人工方式或者依据被推荐对象的成交量，而是结合被推荐对象以及被推荐对象的提供方两方面的因素，相应的进行被推荐对象的过滤，从而使得被推荐对象的选择可以准确，减少了用户进行搜索和浏览的操作，从而第一服务器的数据处理压力降低，提高了第一服务器的数据处理速度；而且，由于用户搜索和产品浏览操作的减少，客户端与第一服务器之间传输的搜索结果数据以及产品浏览对应的产品数据减少，从而减少了客户端与第一服务器之间的传输带宽占用，减少了对于网络传输资源的浪费。

本领域普通技术人员可以理解，实现上述实施例的方法的过程可以通过程序指令相关的硬件来完成，所述的程序可以存储于可读取存储介质中，该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如：ROM/RAM、磁碟、光盘等。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种被推荐对象的过滤方法，其特征在于，包括：

获取被推荐对象的文本信息的文本识别概率；并且，获取被推荐对象的提供方的行为信息的行为识别概率；所述被推荐对象为产品，所述文本信息为：产品的描述信息、标题或关键字，所述行为信息为：所述产品被用户在网页上的操作动作信息；所述文本识别概率根据被推荐对象在文本参数下的概率值，以及文本参数对应的概率值在文本识别概率中的权重值计算得到；所述行为识别概率根据被推荐对象的提供方在行为参数下的概率值，以及行为参数对应的概率值在行为识别概率中的权重值计算得到；

判断所述第一概率是否大于预设概率阈值，如果是，将被推荐对象的第一预设信息发送至客户端，以便客户端在指定位置向用户展现被推荐对象的第一预设信息，所述第一预设信息为：所述产品的除文字信息以外的其他信息。

2.根据权利要求1所述的方法，其特征在于，所述文本识别概率具体通过以下方式计算得到：

3.根据权利要求2所述的方法，其特征在于，根据被推荐对象的样本，确定样本的各种文本参数对应的概率值在文本识别概率中的权重值包括：

获取被推荐对象的样本，将所述样本划分为第一样本库和第二样本库；

对于每个样本，从样本的各种文本参数中分别提取各种文本参数所包含的词条；

建立每一种文本参数的词条库，每一种文本参数的词条库中包括：该种文本参数所包含的各个词条在第一样本库样本的该种文本参数中的数量和第二样本库样本的该种文本参数中的数量；

对于每一样本，根据每一种文本参数的词条库计算该种样本在该种文本参数下的概率值，根据计算得到的概率值确定各种文本参数对应的概率值在文本识别概率中的权重值。

4.根据权利要求2所述的方法，其特征在于，根据被推荐对象的文本信息计算被推荐对象在每一种文本参数下的概率值包括：

接收被推荐对象的文本信息，从文本信息中确定各种文本参数，从被推荐对象的各种文本参数中分别提取各种文本参数所包含的词条；

对于被推荐对象的每一种文本参数中的每一词条，从对应的文本参数词条库中获取该词条在第一样本库样本的该种文本参数中的数量和第二样本库样本的该种文本参数中的数量；

根据获取到的所述数量计算被推荐对象在对应文本参数下的概率值，得到被推荐对象在每一种文本参数下的概率值。

5.根据权利要求4所述的方法，其特征在于，对于每一样本，根据每一种文本参数的词条库计算该样本在该种文本参数下的概率值包括：

6.根据权利要求5所述的方法，其特征在于，计算词条的出现概率之后进一步包括：

7.根据权利要求6所述的方法，其特征在于，计算词条的出现概率的计算公式为：

对词条的出现概率进行修正处理包括：

根据所有词条的出现概率的修正值计算第一概率值P1＝1-(1-f(1))(1-f(2))…(1-f(m))^(1/m)，第二概率值P2＝1-(f(1)*f(2)...f(m))^(1/m)，m为对应文本参数所包含的词条的总数量；则样本的该种文本参数所对应的概率值S＝(P1-P2)/(P1+P2)；

根据所有词条的出现概率的修正值计算第一概率值P1＝1-(1-f(1))(1-f(2))…(1-f(m))^(1/m)，第二概率值P2＝1-(f(1)*f(2)...f(m))^(1/m)，m为对应文本参数所包含的词条的总数量；

计算被推荐对象的文本信息的文本识别概率的计算公式为：

X1＝S1*T1+S2*T2…+Sq*Tq；其中，X1为文本识别概率，T1、T2、…、Tq为对应文本参数的权重值，S1、S2、…、Sq为q个文本参数对应的概率值。

8.根据权利要求1所述的方法，其特征在于，所述行为识别概率具体通过以下方式计算得到：

9.根据权利要求8所述的方法，其特征在于，根据被推荐对象提供方的样本，确定样本的各种行为参数对应的概率值在行为识别概率中的权重值包括：

获取被推荐对象提供方的样本，将所述样本划分为第三样本库和第四样本库；

对于每个样本，从样本的各种行为参数中分别提取各种行为参数所包含的词条；对于每个被推荐对象提供方的样本，从样本的各种行为参数中分别提取各种行为参数所包含的词条；

建立每一种行为参数的词条库，所述词条库中包括：该种行为参数所包含的各个词条在第三样本库样本的该种行为参数中的数量和第四样本库样本的该种行为参数中的数量；

根据每一种行为参数的词条库计算每一样本在该种行为参数下的概率值，根据计算得到的概率值确定各种行为参数对应的概率值在行为识别概率中的权重值。

10.根据权利要求8所述的方法，其特征在于，根据被推荐对象提供方的行为信息计算被推荐对象提供方在每一种行为参数下的概率值包括：

获取被推荐对象提供方的行为信息，从行为信息中确定各种行为参数，从被推荐对象的各种行为参数中分别提取各种行为参数所包含的词条；

对于被推荐对象提供方的每一种行为参数中的每一词条，从对应的行为参数词条库中获取该词条在第三样本库样本的该种行为参数中的数量和第四样本库样本的该种行为参数中的数量；

根据获取到的所述数量计算被推荐对象提供方在对应行为参数下的概率值，得到被推荐对象提供方在每一种行为参数下的概率值。

11.根据权利要求10所述的方法，其特征在于，根据每一种行为参数的词条库计算每一样本在该种行为参数下的概率值包括：

12.根据权利要求11所述的方法，其特征在于，计算词条的出现概率之后进一步包括：

13.根据权利要求12所述的方法，其特征在于，计算词条的出现概率的计算公式为：

对词条的出现概率进行修正处理包括：

根据以下公式计算得到词条的出现概率的修正值：f(v)＝(s1*X1+n1*P(v))/(s1+n1)；其中，n1＝HC_v+LC_v；X1，s1为常数；

根据所有词条的出现概率的修正值计算第三概率值P3＝1-(1-f(1))(1-f(2))…(1-f(m))^(1/m)，第四概率值P4＝1-(f(1)*f(2)...f(m))^(1/m)，m为对应行为参数所包含的词条的总数量；则样本的该种行为参数所对应的概率值U＝(P3-P4)/(P3+P4)；

根据所有词条的出现概率的修正值计算第三概率值P3＝1-(1-f(1))(1-f(2))…(1-f(m))^(1/m)，第四概率值P4＝1-(f(1)*f(2)...f(m))^(1/m)，m为对应行为参数所包含的词条的总数量；则被推荐对象的该种文本参数所对应的概率值U＝(P3-P4)/(P3+P4)；

X2＝U1*R1+U2*R2…+Up*Rp；其中，X2为行为识别概率，R1、R2、…、Rp为对应行为参数的权重值，U1、U2、…、Up为p种行为参数对应的概率值。

14.根据权利要求1至13任一项所述的方法，其特征在于，根据所述文本识别概率和行为识别概率确定被推荐对象的第一概率的计算公式为：

第一概率＝文本识别概率*文本识别概率权重+行为识别概率*行为识别概率权重。

15.一种被推荐对象的过滤系统，其特征在于，包括：

第一获取单元，用于获取被推荐对象的文本信息的文本识别概率；所述被推荐对象为产品，所述文本信息为：产品的描述信息、标题或关键字；所述文本识别概率根据被推荐对象在文本参数下的概率值，以及文本参数对应的概率值在文本识别概率中的权重值计算得到；

第二获取单元，用于获取被推荐对象的提供方的行为信息的行为识别概率；所述行为信息为：所述产品被用户在网页上的操作动作信息；所述行为识别概率根据被推荐对象的提供方在行为参数下的概率值，以及行为参数对应的概率值在行为识别概率中的权重值计算得到；

判断单元，用于判断所述第一概率是否大于预设概率阈值；

发送单元，用于判断单元的判断结果为是时，将被推荐对象的第一预设信息发送至客户端，以便客户端在指定位置向用户展现被推荐对象的第一预设信息，所述第一预设信息为：所述产品的除文字信息以外的其他信息。