CN102654862B - 信息相关性分析方法和装置 - Google Patents

信息相关性分析方法和装置 Download PDF

Info

Publication number
CN102654862B
CN102654862B CN201110049339.7A CN201110049339A CN102654862B CN 102654862 B CN102654862 B CN 102654862B CN 201110049339 A CN201110049339 A CN 201110049339A CN 102654862 B CN102654862 B CN 102654862B
Authority
CN
China
Prior art keywords
string
layering
sample search
search string
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110049339.7A
Other languages
English (en)
Other versions
CN102654862A (zh
Inventor
朱建朋
李佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201110049339.7A priority Critical patent/CN102654862B/zh
Publication of CN102654862A publication Critical patent/CN102654862A/zh
Application granted granted Critical
Publication of CN102654862B publication Critical patent/CN102654862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种信息相关性分析方法和装置,属于通信技术领域。本发明的方法包括:根据预设条件对所有的检索串进行分层;根据分层后的检索串获取用于分析的抽样检索串;获取所述用于分析的抽样检索串对应的数据;根据所述获取的数据对信息相关性进行分析。本发明的装置包括:分层模块、第一获取模块、第二获取模块、分析模块。本发明实施例通过上述方案实现了通过分层抽样增大层间方差,降低增内方差的方式,降低了抽样检索串的误差,使得抽取的检索串可以与总体分布大致一致,最终得到的分析指标也可以代表总体的相关性,达到了从抽样看总体的目的。

Description

信息相关性分析方法和装置
技术领域
本发明涉及通信技术领域,特别涉及一种信息相关性分析方法和装置。
背景技术
随着互联网技术的发展,网络作为一种新兴媒体成为广告发布的新平台。与传统媒体发布广告相比,网络广告具有高针对性,传播速度快等优点。在搜索引擎广告的投放过程中,可以根据来访者的检索意图,具有针对性的进行广告投放,在一定程度上保证了广告的到达率。为了使网络广告能够按照来访者的检索意图更加准确的投放,各互联网公司会对自有的搜索引擎广告投放系统进行广告相关性分析。
现有技术中各互联网公司对自有搜索引擎广告投放系统的广告相关性分析,一般采用的是从检索日志中随机抽取一部分用户曾经进行检索的检索串,然后到自有的搜索引擎中检索抽取的检索串,查看所展示的广告与用户的检索意图是否相一致。最后根据这些抽样的广告相关性作为自有搜索引擎广告投放系统的广告相关性。
现有技术中在广告相关性分析费用有限制的情况下,采用随机抽取用于检验广告相关性的样本,这种方法抽取的样本与总体分布有可能不一致,使得抽样的误差较大,因此增大了误差的方差,最终得到的广告相关性分析指标也不一定能代表总体的相关性。若使随机抽取的样本尽可能的与总体分布一致,达到减少误差的目的,则要增大样本容量,因此会增加广告相关性的分析费用。
发明内容
为了解决现有技术中用于分析的抽样样本误差大,无法代表总体分布情况的问题,本发明实施例提供了一种信息相关性分析方法和装置。所述技术方案如下:
本发明实施例提出了一种信息相关性分析方法,包括:
根据预设条件对检索串进行分层;
根据分层后的检索串获取用于分析的抽样检索串;
获取所述用于分析的抽样检索串对应的数据;
根据所述获取的数据对信息相关性进行分析。
作为上述技术方案的优选,所述根据预设条件对所有的检索串进行分层,具体包括:
将检索串的词频、串长作为预设条件对检索串进行分层。
作为上述技术方案的优选,所述根据分层后的检索串获取用于分析的抽样检索串,具体包括:
根据历史数据计算用于分析的抽样检索串总容量;
按照所述抽样检索串总容量,采用奈曼分配分别计算每个分层的抽样检索串容量;
按照所述每个分层的抽样容量,随机抽取抽样检索串。
作为上述技术方案的优选,所述根据历史数据计算用于分析的抽样检索串总容量,具体包括:
根据分层后每层中包含传统的随机抽样分析方式获得的检索串度量指标来计算每层的方差;
根据每层的方差计算用于分析的抽样检索串总容量。
本发明实施例还提出了一种信息相关性分析装置,包括:
分层模块,用于根据预设条件对所有的检索串进行分层;
第一获取模块,用于根据分层后的检索串获取用于分析的抽样检索串;
第二获取模块,用于获取所述用于分析的抽样检索串对应的数据;
分析模块,用于根据所述获取的数据对信息相关性进行分析。
作为上述技术方案的优选,所述分层模块具体包括:
按照检索串的词频、串长作为预设条件进行分层。
作为上述技术方案的优选,所述第一获取模块包括:
第一计算单元,用于根据历史数据计算用于分析的抽样检索串总容量;
第二计算单元,用于按照所述抽样检索串总容量,采用奈曼分配分别计算每个分层的抽样检索串容量;
抽取单元,用于按照所述每个分层的抽样容量,随机抽取抽样检索串。
作为上述技术方案的优选,所述第一计算单元包括:
第一计算子单元,用于根据分层后每层中包含传统的随机抽样分析方式获得的检索串度量指标来计算每层的方差;
第二计算子单元,用于根据每层的方差计算用于分析的抽样检索串总容量。
本发明实施例提供的技术方案的有益效果是:通过根据预设条件对所有的检索串进行分层,根据分层后的检索串获取用于分析的抽样检索串,获取所述用于分析的抽样检索串对应的数据,根据所述获取的数据对信息相关性进行分析。实现了通过分层抽样增大层间方差,降低增内方差的方式,降低了抽样检索串的误差,使得抽取的检索串可以与总体分布大致一致,最终得到的分析指标也可以代表总体的相关性,达到了从抽样看总体的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是为本发明实施例1提供的信息相关性分析方法流程示意图;
图2是为本发明实施例2提供的信息相关性分析方法流程示意图;
图3是为本发明实施例3提供的信息相关性分析装置结构示意图;
图4是为本发明实施例4提供的信息相关性分析装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
本发明第一实施例提出了一种信息相关性分析方法,其流程如图1所示,包括:
步骤101:根据预设条件对检索串进行分层;
步骤102:根据分层后的检索串获取用于分析的抽样检索串;
步骤103:获取所述用于分析的抽样检索串对应的数据;
步骤104:根据所述获取的数据对信息相关性进行分析。
本发明实施例提供的技术方案的有益效果是:通过根据预设条件对所有的检索串进行分层,根据分层后的检索串获取用于分析的抽样检索串,获取所述用于分析的抽样检索串对应的数据,根据所述获取的数据对信息相关性进行分析。实现了通过分层抽样增大层间方差,降低增内方差的方式,降低了抽样检索串的误差,使得抽取的检索串可以与总体分布大致一致,最终得到的分析指标也可以代表总体的相关性,达到了从抽样看总体的目的。
实施例2
本发明第二实施例是在第一实施例的基础上改进而来,其流程如图2所示,包括:
步骤201:预先制定对抽样的信息进行相关性分析的评分标准。
具体的,按照抽样检索串与对应检索到的数据的一致性和信息满足用户需求的程度预先制定相关性分析的评分标准,评分的梯度分别为:很好(4分)、好(3分)、可接受(2分)、一般(1分)、不好(0分)。对每条数据的评分作为信息相关性的水准。在对信息相关性进行评分的时候,若遇到模棱两可的情况,统一采用就低原则进行评分。
步骤202:预先制定用于信息相关度分析的度量指标。
具体的,根据评价信息相关性的目的,制定不同的信息相关性分析的度量指标。在进行信息相关性分析时,可根据每次分析的目的,使用相应的度量指标作为本次分析使用何种标志值的依据。一般有如下两种分析目的:
a.用于分析衡量信息的相关性程度的目的,制定整体指标为信息相关性的平均得分AVG,这个分数是对每一条检索串,和与其对应的数据进行评分后所计算到的一个平均值,这个平均值就是进行信息相关性程度分析的标志值。
算法为:AVG=所有信息相关性评分之和/分析的信息个数
b.用于分析衡量相关性不好的信息数量和占比统计的目的。“相关性不好”下文中统称为“Badcase”(缺陷)。这个衡量Badcase的指标如表1:
统计指标 指标含义
Badcase信息数 人工评分为0的信息数
Badcase信息比例 Badcase信息数/分析信息数
Badcase Query数 评分为0的信息的抽样检索串数
Badcase Query比例 Badcase Query数/分析抽样检索串数
平均Badcase信息数 平均每个Badcase Query包含的Badcase信息数
首条Badcase信息平均位次 Badcase Query对应的首条Badcase信息的算术平均位次
全部Badcase信息平均位次 Badcase Query对应的全部Badcase信息的算数平均位次
表1
进一步的,信息相关性分析不仅仅是这两个目的,本发明实施例对此并不作出限定。
步骤203:根据预设条件对检索串进行分层。
具体的,分层是在抽样之前,先将总体按一定标志划分为若干个层,然后在各层内分别独立地进行抽样。由此所抽取的样本称之为分层样本。各层所抽取的样本也是互相独立的。为了使随机抽取的样本能够与总体分布大致一致,达到减少误差的目的,需要利用统计学原理,保证抽样检索串的数量以及覆盖的合理性。分层时应遵循尽可能使层内差异小,而使层间差异大的原则。在分层抽样中,先将含有N个单位的总体分成分别含有N1,N2,...,Ni个单位的i层,这些层之间互不重复,且满足:N1+N2+...+Ni=N。
进一步的,根据历史数据,即记录着检索串的检索日志,将总体中性质相同的单位,即根据预设条件将比较接近的单位,采集全部或部分单位合并在一起形成若干层中的每一层,所述检索串为用户在搜索引擎中进行搜索所输入的文字,这些文字会被搜索引擎用来检索与所输入的文字对应的数据,这样分层的目的是使每一层中数据的差异尽量减小,因此每一层皆可按比较小的抽样检索串容量达到预期精确度的要求。同时使各层间的差异增大,因此分层抽取的样本在总体中散布的更均匀。在概率论和数理统计中可以表示为分层时要增大各层间的方差,减小每层内的方差。分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好,可以提高抽样的效率,使得较小的抽样检索串容量即可达到预期的精确度要求。
在本发明实施例中,在检索日志中根据历史分析经验和检索串的特性,将所有的有信息展示的检索串按照词频、串长这两个属性作为预设条件分为九层。词频与串长的分类规格如表2:
短串 分词语素<=2 高频 词频>=10*词频平均值
中串 2<分词语素<=5 中频 词频平均值<=词频<10*词频平均值
长串 分词语素>5 低频 词频平均值>词频
表2
具体为:短串高频、短串中频、短串低频、中串高频、中串中频、中串低频、长串高频、长串中频、长串低频。按照词频、串长这两个属性作为预设条件是一种优选方案,还可以使用其他的预设条件进行分层。
步骤204:根据分层后的检索串获取用于分析的抽样检索串。
具体的,步骤204可以为:
步骤2041:根据历史数据计算用于分析的抽样检索串总容量。
具体的,步骤2041可以为:
步骤20411:根据分层后每层中包含传统的随机抽样分析方式获得的检索串度量指标来计算每层的方差。
具体的,从每个分层中抽取子样本,而且抽样在各层中独立进行,若各层内抽样检索串容量分别用n1,n2,...,ni表示,则将这些子样本合起来就是从总体中所抽取的一个样本。其抽样检索串总容量n满足:n1+n2+...+ni=n。
在每个分层中,分别用历史数据计算各分层的方差,采用计算得出的最大的方差值,作为后续步骤的参数。所述历史数据是使用传统方法对信息相关性分析的时候,对随机抽取的检索串所对应的数据评分后计算的信息相关度分析的度量指标,这个值就是所述历史数据中每条检索串的标志值。由于是随机抽取的检索串,因此只有部分检索串存在与其对应的标志值。按照每次分析信息相关性的目的不同,分别选取不同的度量指标对应的标志值进行方差的计算。
例如:使用传统的随机抽样分析方式,以分析信息的相关性程度为目的,即计算各个检索串对应的数据的AVG值。随机抽取1000个检索串进行评分,或者抽取500个高频的检索串,或者抽取500个长串的检索串。因此数据库里面已经存在了使用传统随机抽样分析方式的成千上万个AVG得分的检索串。
在分层后,这些曾经参与过分析的检索串分散在了各个层中,在计算每个分层的方差时,将每层中所有含有标志值的检索串作为计算方差公式中的每一个元素。计算方法具体为:
S i 2 = Σ j = 1 num i ( y ij - y ‾ i ) 2 num i - 1
其中,为第i层的总体方差,numi为第i层的所有含有标志值的检索串的总数,yij为第i层第j个单位的标志值,为第i层的所有标志值的均值。
在抽样实践中,一般按照最优设计理论来设计抽样方案,分层抽样中样本容量分配方案的设计也不例外。所谓最优设计,即在费用一定的条件下,选择使精度达到最高(即方差最小)的设计,或是在满足一定精度要求下,选择尽可能使费用节省的方案。
步骤20412:根据每层的方差计算用于分析的抽样检索串总容量。
具体的,设允许估计量的最大方差为V,第i层样本的比例为ωi,则抽样检索串总容量为n时第i层的抽样检索串容量为ni=nωi。代入分层抽样方差公式,则有:
n = Σ W i 2 S i 2 ω i V ( y ‾ st ) + 1 N Σ W i S i 2
其中为总体均值的估计量,n为抽样检索串总容量,N为总体单位数,Si为第i的方差,Wi为第i层的总体层权。层权体现了总体的内部构成,其大小直观上体现了各层在总体中的地位高低。层权越大说明该层在总体中占据的地位越重要,具体为Wi=Ni/N,Ni为第i层总体单位数。
将Wi=Ni/N代入上述公式重新整理,得到抽样检索串总容量n。
n = Σ N i 2 S i 2 N 2 V ( y ‾ st ) + Σ N i S i 2
在本发明实施例中,采用的是奈曼分配的方式来对抽样检索串总容量在各层之间进行分配。奈曼分配是假定各层的单位抽样费用相等,此时,的表达式可以为:
ω i = n i n = W i S i Σ i = 1 L W i S i = N i S i Σ i = 1 L N i S i
因此在奈曼分配时抽样检索串总容量n为:
n = ( Σ N i S i ) 2 N 2 V ( y ‾ st ) + Σ N i S i 2
其中,在分层抽样中,总体均值的估计量一般用表示,它是各层总体均值的估计量按层权Wi的加权平均,即:
Y ‾ = y ‾ st = Σ i = 1 L W i Y ‾ i = 1 N Σ i = 1 L N i Y ‾ i
由于分层抽样是分层以后在各层内进行随机抽样,因此从简单随机抽样的估计推断中可知,各层的样本平均数是各层总体平均数的无偏估计,而总体平均数则是各层平均数的加权平均数。显然当分层抽样时,各层抽取样本的比例与总体中各层的比例相同,则二者加权的结果也是相同的,否则二者的结果是不同的。同样道理,也应以总体权数的平方来加权各层抽样的抽样方差,即:
V ( Y ‾ ) = V ( y ‾ st ) = Σ i L W i 2 V ( Y ‾ i )
步骤2042:按照所述抽样检索串总容量,采用奈曼分配分别计算每个分层的抽样检索串容量。
具体的,在分层抽样中,一个重要的问题是抽样检索串总容量如何在各层之间进行分配。通常考虑的有:精度和费用问题,即如何分配才能在费用一定时使总的精度和各层估计精度最高。数据处理问题,即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了。各层的容量大小问题。考虑的因素越多,样本对总体的代表性越高,抽样推断的精度也就越高。
进一步的,在本发明实施例中,采用的是奈曼分配的方式来对抽样检索串总容量在各层之间进行分配。奈曼分配是假定各层的单位抽样费用相等,此时表达式为:
ω i = n i n = W i S i Σ i = 1 L W i S i = N i S i Σ i = 1 L N i S i
因此,每个分层的抽样检索串容量为:
n i = n · N i S i Σ i = 1 L N i S i
步骤2043:按照所述每个分层的抽样容量,随机抽取抽样检索串。
具体的,按照计算得到的每个分层的抽样容量,在各层中随机的抽取检索串得到抽样检索串,用于进行信息相关性分析。
步骤205:获取所述用于分析的抽样检索串对应的数据。
具体的,根据所述每个分层的抽样检索串,逐一下载与抽样检索串对应的数据,解析所述下载的数据的内容,并将数据内容保存到分析数据库中。所述下载的数据的内容包括:信息标题、描述、目标网站、购买词、关键词标红等,用于进行后续的信息相关性分析。
步骤206:根据预先制定的评分标准对所述获取的数据进行评分,并根据评分结果计算预先制定的信息相关性的度量指标。
具体的,根据抽样得到的样本检索串,以及根据这些样本检索串采集到的数据,依照预先制定的分析评分标准,对每条数据与检索语义的一致性、信息满足用户需求的程度,对每条数据进行相关性评分。采用人工评分的方式,对抽取的样本进行评分。尽量增加参与分析的人数,模拟更多的搜索用户,使得分析结果更具备公正性。
进一步的,根据人工分析评分的结果,按照预先制定的用于本次信息相关度分析的度量指标的计算方法或统计方法,计算相应的度量指标,即用于衡量每条信息的相关性程度的AVG值或用于衡量相关性不好的信息数量和占比统计Badcase的各种指标。
步骤207:根据所述获取的数据进行信息相关性分析。
具体的,采用假设检验等统计学的方法,根据信息相关性度量指标可与历史的分析结果进行对比,了解信息相关性的现状,以及与上次分析时改进或退步的程度。因此步骤207可以具体为:
步骤2071:根据所述抽样检索串的信息相关性度量指标,估算信息总体各项分析指标的置信区间。
具体的,抽样的目的是为了通过抽样看总体,根据抽样检索串的信息相关性度量指标,可以估算信息总体的各项分析指标的置信区间。置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度。本发明实施例采用Z检验来计算置信区间,Z检验法适用于大样本(样本容量大于30)的两平均数之间差异显著性检验的方法。当已知标准差时,验证一组数的均值是否与某一期望值相等时,其Z检验计算方法如下:
Z = x ‾ - μ S / n
其中是全部样本的度量指标的平均数,如果度量指标采用的是AVG,那就是全部样本的AVG的平均值。μ是已知总体的度量指标的平均数,如果评价指标是AVG,那就是已知总体AVG的平均值。n为抽样检索串总容量,S为抽样检索串的标准差。此时的置信区间为:
[ x ‾ - z 1 - a 2 · S n , x ‾ - z 1 - a 2 · S n ]
其中a表示进行差异检验的显著性水平,1-a是指置信度,例如:在95%的置信度下,即1-a=0.95。
具体的计算步骤如下(以AVG度量标准为例),计算得到如下表格数据:
分析:总体置信区间如表3:
表3
其中,差异检验的方法为Z检验。sig.表示进行差异检验的显著性水平。根据给定的sig值(默认0.05),计算各指标的置信区间。
评估结果可以说明:左侧信息的相关性指标AVG,在95%的置信度下,总体的置信区间为[3.18,3.22],这个区间包含了期望所希望达到的值。右侧信息的AVG置信区间为[2.47,2.52],这个区间包含了期望所希望达到的值。
步骤2072:根据本次分析结果与历史分析结果进行差异性评价。
具体的,用来检验来自两个组的样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著。根据Z检验,评价该次分析与历史分析结果是否有显著性差异。具体算法为:
Z = x ‾ 1 - x ‾ 2 / S 1 2 / n 1 - S 2 2 / n 2
其中分别代表两次分析的全部样本度量指标的平均数,分别代表两个样本的方差。
具体的计算步骤如下(以AVG度量标准为例),计算得到如下表格数据:
评估:假设检验如表4:
表4
差异检验方法为Z检验。sig.表示进行差异检验的显著性水平。当sig<0.05时,可认为差异显著,当sig>=0.05时,差异不显著。
分析结果可以说明:较上次分析结果,本次左侧信息的相关性指标AVG显著提升12.5%,右侧AVG显著提升20.8%。
本发明实施例提供的技术方案的有益效果是:通过根据预设条件对所有的检索串进行分层,根据分层后的检索串获取用于分析的抽样检索串,获取所述用于分析的抽样检索串对应的数据,根据所述获取的数据对信息相关性进行分析。实现了通过分层抽样增大层间方差,降低增内方差的方式,降低了抽样检索串的误差,使得抽取的检索串可以与总体分布大致一致,最终得到的分析指标也可以代表总体的相关性,达到了从抽样看总体的目的。
实施例3
本发明第三实施例提出了一种信息相关性分析装置,其结构如图3所示,包括:
分层模块1,用于根据预设条件对所有的检索串进行分层;
第一获取模块2,用于根据分层后的检索串获取用于分析的抽样检索串;
第二获取模块3,用于获取所述用于分析的抽样检索串对应的数据;
分析模块4,用于根据所述获取的数据对信息相关性进行分析。
本发明实施例提供的技术方案的有益效果是:通过根据预设条件对所有的检索串进行分层,根据分层后的检索串获取用于分析的抽样检索串,获取所述用于分析的抽样检索串对应的数据,根据所述获取的数据对信息相关性进行分析。实现了通过分层抽样增大层间方差,降低增内方差的方式,降低了抽样检索串的误差,使得抽取的检索串可以与总体分布大致一致,最终得到的分析指标也可以代表总体的相关性,达到了从抽样看总体的目的。
实施例4
本发明第四实施例提出了一种信息相关性分析装置,是在第三实施例的基础上改进而来,其结构如图4所示,所述装置包括:第一预制模块5,第二预制模块6,分层模块1,第一获取模块,2,第二获取模块3,计算模块7,分析模块4。
第一预制模块5,用于预先制定对抽样的信息进行相关性分析的评分标准。
第二预制模块6,用于预先制定用于信息相关度分析的度量指标。
分层模块1,用于根据预设条件对检索串进行分层。
其中分层模块1可以具体为:
将检索串的词频、串长作为预设条件对检索串进行分层。
第一获取模块2,用于根据分层后的检索串获取用于分析的抽样检索串。
其中第一获取模块2可以为:
第一计算单元21,用于根据历史数据计算用于分析的抽样检索串总容量;
第二计算单元22,用于按照所述抽样检索串总容量,采用奈曼分配分别计算每个分层的抽样检索串容量;
抽取单元,用于按照所述每个分层的抽样容量,随机抽取抽样检索串。
其中,第一计算单元21包括:
第一计算子单元211,用于根据分层后每层中包含传统的随机抽样分析方式获得的检索串度量指标来计算每层的方差;
第二计算子单元212,用于根据每层的方差计算用于分析的抽样检索串总容量。
第二获取模块3,用于获取所述用于分析的抽样检索串对应的数据。
计算模块7,用于根据预先制定的评分标准对所述获取的数据进行评分,并根据评分结果计算预先制定的信息相关性的度量指标。
分析模块4,用于根据所述获取的数据进行信息相关性分析。
具体的,分析模块4可以为:
第一分析单元41,用于根据所述抽样检索串的信息相关性度量指标,估算信息总体各项分析指标的置信区间;
第二分析单元42,用于根据本次分析结果与历史分析结果进行差异性评价。
本发明实施例提供的技术方案的有益效果是:通过根据预设条件对所有的检索串进行分层,根据分层后的检索串获取用于分析的抽样检索串,获取所述用于分析的抽样检索串对应的数据,根据所述获取的数据对信息相关性进行分析。实现了通过分层抽样增大层间方差,降低增内方差的方式,降低了抽样检索串的误差,使得抽取的检索串可以与总体分布大致一致,最终得到的分析指标也可以代表总体的相关性,达到了从抽样看总体的目的。
本发明实施例第三和第四实施例的装置,与前述的第一和第二实施例的方法构思和原理相同,因此在第三和第四实施例中对与第一和第二实施例中相同的部分不再赘述。
本发明实施例所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,网站,或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种信息相关性分析方法,其特征在于,所述方法包括:
预先制定对抽样的信息进行相关性分析的评分标准;
预先制定用于信息相关度分析的度量指标;
在检索日志中根据预设条件对所有的检索串进行分层;
根据分层后的检索串获取用于分析的抽样检索串;
获取所述用于分析的抽样检索串对应的数据;
根据预先制定的评分标准对所述获取的数据进行评分,并根据评分结果计算预先制定的信息相关性的度量指标;
根据所述获取的数据对信息相关性进行分析。
2.根据权利要求1所述的一种信息相关性分析方法,其特征在于,所述根据预设条件对所有的检索串进行分层,具体包括:
将检索串的词频、串长作为预设条件对检索串进行分层。
3.根据权利要求1所述的一种信息相关性分析方法,其特征在于,所述根据分层后的检索串获取用于分析的抽样检索串,具体包括:
根据历史数据计算用于分析的抽样检索串总容量;
按照所述抽样检索串总容量,采用奈曼分配分别计算每个分层的抽样检索串容量;
按照所述每个分层的抽样容量,随机抽取抽样检索串。
4.根据权利要求3所述的一种信息相关性分析方法,其特征在于,所述根据历史数据计算用于分析的抽样检索串总容量,具体包括:
根据分层后每层中包含传统的随机抽样分析方式获得的检索串度量指标来计算每层的方差;
根据每层的方差计算用于分析的抽样检索串总容量。
5.一种信息相关性分析装置,其特征在于,所述装置包括:
分层模块,用于在检索日志中根据预设条件对所有的检索串进行分层;
第一获取模块,用于根据分层后的检索串获取用于分析的抽样检索串;
第二获取模块,用于获取所述用于分析的抽样检索串对应的数据;
分析模块,用于根据所述获取的数据对信息相关性进行分析;
所述装置,还用于:
预先制定对抽样的信息进行相关性分析的评分标准;
预先制定用于信息相关度分析的度量指标;
根据预先制定的评分标准对所述获取的数据进行评分,并根据评分结果计算预先制定的信息相关性的度量指标。
6.根据权利要求5所述的一种信息相关性分析装置,其特征在于,所述分层模块具体包括:
将检索串的词频、串长作为预设条件对检索串进行分层。
7.根据权利要求5所述的一种信息相关性分析装置,其特征在于,所述第一获取模块包括:
第一计算单元,用于根据历史数据计算用于分析的抽样检索串总容量;
第二计算单元,用于按照所述抽样检索串总容量,采用奈曼分配分别计算每个分层的抽样检索串容量;
抽取单元,用于按照所述每个分层的抽样容量,随机抽取抽样检索串。
8.根据权利要求7所述的一种信息相关性分析装置,其特征在于,所述第一计算单元包括:
第一计算子单元,用于根据分层后每层中包含传统的随机抽样分析方式获得的检索串度量指标来计算每层的方差;
第二计算子单元,用于根据每层的方差计算用于分析的抽样检索串总容量。
CN201110049339.7A 2011-03-01 2011-03-01 信息相关性分析方法和装置 Active CN102654862B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110049339.7A CN102654862B (zh) 2011-03-01 2011-03-01 信息相关性分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110049339.7A CN102654862B (zh) 2011-03-01 2011-03-01 信息相关性分析方法和装置

Publications (2)

Publication Number Publication Date
CN102654862A CN102654862A (zh) 2012-09-05
CN102654862B true CN102654862B (zh) 2016-02-17

Family

ID=46730488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110049339.7A Active CN102654862B (zh) 2011-03-01 2011-03-01 信息相关性分析方法和装置

Country Status (1)

Country Link
CN (1) CN102654862B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271495A (zh) * 2008-04-17 2008-09-24 中国科学院地理科学与资源研究所 高效能空间抽样调查三明治模型方法
CN101477542A (zh) * 2009-01-22 2009-07-08 阿里巴巴集团控股有限公司 一种抽样分析方法、系统和设备
CN101908191A (zh) * 2010-08-03 2010-12-08 深圳市她秀时尚电子商务有限公司 应用于电子商务的数据分析方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286150B (zh) * 2007-04-10 2010-09-15 阿里巴巴集团控股有限公司 生成更新参数的方法和装置、展示相关关键词的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271495A (zh) * 2008-04-17 2008-09-24 中国科学院地理科学与资源研究所 高效能空间抽样调查三明治模型方法
CN101477542A (zh) * 2009-01-22 2009-07-08 阿里巴巴集团控股有限公司 一种抽样分析方法、系统和设备
CN101908191A (zh) * 2010-08-03 2010-12-08 深圳市她秀时尚电子商务有限公司 应用于电子商务的数据分析方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
嵌入IE的搜索引擎集成工具的设计和实现;韩近强 等;《全国搜索引擎和网上信息挖掘学术讨论会》;20040326;191-198 *
新型抽样技术在既有房屋混凝土强度检测中的应用;蔡乐刚 等;《四川建筑科学研究》;20080425;第34卷(第2期);118-121 *
旅游交通抽样调查研究;郑捷 等;《中南公路工程》;20070420;第32卷(第2期);180-185 *

Also Published As

Publication number Publication date
CN102654862A (zh) 2012-09-05

Similar Documents

Publication Publication Date Title
CN110222267B (zh) 一种游戏平台信息推送方法、系统、存储介质及设备
US10831769B2 (en) Search method and device for asking type query based on deep question and answer
CN102982153B (zh) 一种信息检索方法及其装置
CN103049470B (zh) 基于情感相关度的观点检索方法
CN105373597A (zh) 基于k-medoids项目聚类和局部兴趣融合的用户协同过滤推荐方法
CN105426514A (zh) 个性化的移动应用app推荐方法
CN102360371B (zh) 数据处理装置和数据处理方法
CN102955813B (zh) 一种信息搜索方法和系统
CN112598438A (zh) 一种基于大规模用户画像的户外广告推荐系统及方法
CN112700325A (zh) 一种基于Stacking集成学习的网贷回头客预测的方法
CN107291939A (zh) 酒店信息的聚类匹配方法及系统
CN106126613A (zh) 一种跑题作文确定方法及装置
CN104572877A (zh) 游戏舆情的检测方法及系统
CN105654198A (zh) 具有最优阈值筛选的品牌广告效果优化的方法
Li et al. A hybrid model for experts finding in community question answering
CN105740448A (zh) 面向话题的多微博时序文摘方法
CN112016618A (zh) 一种用于对图像语义分割模型泛化能力的度量方法
CN111310466A (zh) 一种基于关键词库的特定维度景区满意度衡量方法及系统
CN102306178A (zh) 视频推荐方法及装置
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN103678709B (zh) 一种基于时序数据的推荐系统攻击检测方法
CN101604340B (zh) 一种获得查询的时新性的方法
CN102654862B (zh) 信息相关性分析方法和装置
CN117352114A (zh) 一种基于聚类算法的心理测评量表的推荐方法及系统
CN105677664A (zh) 基于网络搜索的紧密度确定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant