CN102737036A - 一种获取热点价值词的方法及装置 - Google Patents

一种获取热点价值词的方法及装置 Download PDF

Info

Publication number
CN102737036A
CN102737036A CN2011100863106A CN201110086310A CN102737036A CN 102737036 A CN102737036 A CN 102737036A CN 2011100863106 A CN2011100863106 A CN 2011100863106A CN 201110086310 A CN201110086310 A CN 201110086310A CN 102737036 A CN102737036 A CN 102737036A
Authority
CN
China
Prior art keywords
word
query word
query
candidate word
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100863106A
Other languages
English (en)
Inventor
赵琳
刘怀军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2011100863106A priority Critical patent/CN102737036A/zh
Publication of CN102737036A publication Critical patent/CN102737036A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种获取热点价值词的方法及装置,属于互联网信息处理领域。所述方法包括:计算查询词集合中的查询词的热度值,根据所述查询词的热度值从所述查询词集合中获取候选词;根据所述候选词的语义参数,获取语义完整的候选词;根据所述语义完整的候选词的表意能力值从所述语义完整的候选词中获取具有明确语义价值的热点价值词。所述装置包括:计算模块、第一获取模块和第二获取模块。本发明减少获取的热点价值词中包括的噪音词。

Description

一种获取热点价值词的方法及装置
技术领域
本发明涉及互联网信息处理领域,特别涉及一种获取热点价值词的方法及装置。
背景技术
在互联网中,热点价值词具有广泛的应用,例如,在搜索引擎中,通过热点价值词能够更好的展示查询结果以满足用户的需求。其中,热点价值词是指在一段时间内出现的、受到一定关注的且具有明确语义价值的词汇,往往与突发事件相关,例如“汶川地震”就是一个热点价值词。
现有技术提供了一种获取热点价值词的方法,具体为:基于搜索引擎的查询日志,统计一段时间内用户查询的每个查询词的频率,挑选频率较高的查询词作为热点价值词。
现有技术挑选出的热点价值词包括大量的像“姚明”这类频率始终较高的常用词,像“三国演”这类语义不完整的词以及像“在线观看”这类不具有明确语义价值的词,因此挑选的热点价值词包括大量的噪音词。
发明内容
为了减少获取的热点价值词中包括的噪音词,本发明提供了一种获取热点价值词的方法及装置。所述技术方案如下:
一种获取热点价值词的方法,所述方法包括:
计算查询词集合中的查询词的热度值,根据所述查询词的热度值从所述查询词集合中获取候选词;
根据所述候选词的语义参数,获取语义完整的候选词;
根据所述语义完整的候选词的表意能力值从所述语义完整的候选词中获取具有明确语义价值的热点价值词。
所述计算查询词集合中的查询词的热度值,根据所述查询词的热度值从所述查询词集合中获取候选词,包括:
根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的热度值;
从所述查询词集合中将热度值超过预设第一阈值的查询词确定为候选词;其中,n为大于或等于2的整数,m为大于或等于2且小于或等于n的整数。
根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的热度值,包括:
根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的数学期望;
根据所述查询词分别在n个时间片段内的查询次数以及所述查询词分别在第m至n个时间片段内的数学期望,计算所述查询词分别在第m至n个时间片段内的方差;
根据所述查询词分别在n个时间片段内的查询次数以及所述查询词分别在第m至n个时间片段内的数学期望和方差,计算所述查询词分别在第m至n个时间片段内的热度值。
所述语义参数至少包括语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比;
相应地,根据所述候选词的语义参数,获取语义完整的候选词,包括:
将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词。
所述将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词之前,还包括:
计算所述候选词的查询概率,对所述候选词进行划分得到所述候选词包括的分词组合,计算所述分词组合的查询概率,根据所述候选词的查询概率和所述分词组合的查询概率计算所述候选词的语言模型度量值。
所述语言模型度量值超过预设第二阈值的候选词为内部结构紧密的候选词,所述将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词之前,还包括:
获取包括所述内部结构紧密的候选词的查询词,从所述获取的查询词中分类出所述内部结构紧密的候选词的前缀不为空的查询词和前缀为空的查询词,根据所述前缀不为空的查询词和前缀为空的查询词计算所述内部结构紧密的候选词的前缀边界熵;
从所述获取的查询词中分类出所述内部结构紧密的候选词的后缀不为空的查询词和后缀为空的查询词,根据所述后缀不为空的查询词和后缀为空的查询词计算所述内部结构紧密的候选词的后缀边界熵。
所述前缀边界熵超过预设第三阈值且后缀边界熵超过预设第四阈值的候选词为边界紧密的候选词,所述将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词之前,还包括:
获取所述边界紧密的候选词的前缀和后缀都不为空且查询次数最大的查询词,从所述获取的查询词中提取所述边界紧密的候选词的前缀和后缀;
从所述查询词集合中统计所述提取的前缀为所述边界紧密的候选词的前缀,同时所述提取的后缀为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Ta;
从所述查询词集合中统计所述提取的前缀为所述边界紧密的候选词的前缀,同时所述提取的后缀不为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Tb;
从所述查询词集合中统计所述提取的前缀不为所述边界紧密的候选词的前缀,同时所述提取的后缀为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Tc;
从所述查询词集合中统计所述提取的前缀不为所述边界紧密的候选词的前缀,同时所述提取的后缀不为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Td;
根据所述最大的查询次数Ta、Tb、Tc和Td计算所述边界紧密的候选词的上下文对数似然比。
所述计算查询词集合中的查询词的热度值之前,还包括:
基于搜索引擎的查询日志,获取一段时间内用户查询的所有查询词,将所述获取的查询词组成所述查询词集合,将所述一段时间划分成n个时间片段,统计所述查询词集合中的查询词分别在n个时间片段内的查询次数。
所述根据所述语义完整的候选词的表意能力值从所述语义完整的候选词中获取具有明确主义的热点价值词之前,还包括:
从所述查询词集合中获取包括所述语义完整的候选语的查询词,计算所述语义完整的候选词在所述获取的查询词中的贡献值;
根据所述语义完整的候选词在所述获取的查询词中的贡献值和所述获取的查询词的个数,计算所述语义完整的候选词的第一表意能力值;
根据所述查询词集合中的查询词的查询次数,所述获取的查询词的查询次数以及所述语义完整的候选词的查询次数,计算所述语义完整的候选词的第二表意能力值;
根据所述语义完整的候选词的第一表意能力值和第二表意能力值,计算所述语义完整的候选词的表意能力值。
一种获取热点价值词的装置,所述装置包括:
计算模块,用于计算查询词集合中的查询词的热度值,根据所述查询词的热度值从所述查询词集合中获取候选词;
第一获取模块,用于根据所述候选词的语义参数,获取语义完整的候选词;
第二获取模块,用于根据所述语义完整的候选词的表意能力值从所述语义完整的候选词中获取具有明确语义价值的热点价值词。
所述计算模块包括:
第一计算单元,用于根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的热度值;
第一确定单元,用于从所述查询词集合中将热度值超过预设第一阈值的查询词确定为候选词;其中,n为大于或等于2的整数,m为大于或等于2且小于或等于n的整数。
所述第一计算单元包括:
第一计算子单元,用于根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的数学期望;
第二计算子单元,用于根据所述查询词分别在n个时间片段内的查询次数以及所述查询词分别在第m至n个时间片段内的数学期望,计算所述查询词分别在第m至n个时间片段内的方差;
第三计算子单元,用于根据所述查询词分别在n个时间片段内的查询次数以及所述查询词分别在第m至n个时间片段内的数学期望和方差,计算所述查询词分别在第m至n个时间片段内的热度值。
所述语义参数至少包括语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比;
相应地,所述第一获取模块,具体用于将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词。
所述第一获取模块还包括:
语言模型度量值计算单元,用于计算所述候选词的查询概率,对所述候选词进行划分得到所述候选词包括的分词组合,计算所述分词组合的查询概率,根据所述候选词的查询概率和所述分词组合的查询概率计算所述候选词的语言模型度量值。
所述语言模型度量值超过预设第二阈值的候选词为内部结构紧密的候选词,所述第一获取模块还包括:
前缀边界熵计算单元,用于获取包括所述内部结构紧密的候选词的查询词,从所述获取的查询词中分类出所述内部结构紧密的候选词的前缀不为空的查询词和前缀为空的查询词,根据所述前缀不为空的查询词和前缀为空的查询词计算所述内部结构紧密的候选词的前缀边界熵;
后缀边界熵计算单元,用于从所述获取的查询词中分类出所述内部结构紧密的候选词的后缀不为空的查询词和后缀为空的查询词,根据所述后缀不为空的查询词和后缀为空的查询词计算所述内部结构紧密的候选词的后缀边界熵。
所述前缀边界熵超过预设第三阈值且后缀边界熵超过预设第四阈值的候选词为边界紧密的候选词,所述第一获取模块还包括:
提取单元,用于从所述查询词集合中获取所述边界紧密的候选词的前缀和后缀都不为空且查询次数最大的查询词,从所述获取的查询词中提取所述边界紧密的候选词的前缀和后缀;
第一统计单元,用于从所述查询词集合中统计所述提取的前缀为所述边界紧密的候选词的前缀,同时所述提取的后缀为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Ta;
第二统计单元,用于从所述查询词集合中统计所述提取的前缀为所述边界紧密的候选词的前缀,同时所述提取的后缀不为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Tb;
第三统计单元,用于从所述查询词集合中统计所述提取的前缀不为所述边界紧密的候选词的前缀,同时所述提取的后缀为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Tc;
第四统计单元,用于从所述查询词集合中统计所述提取的前缀不为所述边界紧密的候选词的前缀,同时所述提取的后缀不为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Td;
第二计算单元,用于根据所述最大的查询次数Ta、Tb、Tc和Td计算所述边界紧密的候选词的上下文对数似然比。
其特征在于,所述装置还包括:
统计模块,用于基于搜索引擎的查询日志,获取一段时间内用户查询的所有查询词,将所述获取的查询词组成所述查询词集合,将所述一段时间划分成n个时间片段,统计所述查询词集合中的查询词分别在n个时间片段内的查询次数。
所述装置还包括:
第三获取模块,用于从所述查询词集合中获取包括所述语义完整的候选语的查询词,计算所述语义完整的候选词在所述获取的查询词中的贡献值;
第一表意能力值计算模块,用于根据所述语义完整的候选词在所述获取的查询词中的贡献值和所述获取的查询词的个数,计算所述语义完整的候选词的第一表意能力值;
第二表意能力值计算模块,用于根据所述查询词集合中的查询词的查询次数,所述获取的查询词的查询次数以及所述语义完整的候选词的查询次数,计算所述语义完整的候选词的第二表意能力值;
表意能力值计算模块,用于根据所述语义完整的候选词的第一表意能力值和第二表意能力值,计算所述语义完整的候选词的表意能力值。
在本发明中,计算查询词的热度值并根据热度值获取候选词,可以将一段时间内受到一定关注的查询词作为候选词,屏蔽掉频率始终较高的常用词;根据候选词的语义参数获取语义完整的候选词,可以屏蔽到语义不完整的候选词;根据语义完整的候选词的表意能力值从语义完整的候选词中获取热点价值词,可以屏蔽掉语义价值不明确的候选词,从而使得获取的热点价值词中不会包含大量的常用词、语义不完整以及语义价值不强的词,从而减少热点价值词中的噪音词。
附图说明
图1是本发明实施例1提供的一种获取热点价值词的方法流程图;
图2是本发明实施例2提供的一种获取热点价值词的方法流程图;
图3是本发明实施例3提供的一种获取热点价值词的装置示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
如图1所示,本发明实施例提供了一种获取热点价值词的方法,包括:
步骤101:计算查询词集合中的查询词的热度值,根据查询词的热度值从查询词集合中获取候选词;
步骤102:根据获取的候选词的语义参数,获取语义完整的候选词;
步骤103:根据语义完整的候选词的表意能力值从语义完整的候选词中获取具有明确语义价值的热点价值词。
其中,步骤101、102和103的执行顺序可以不分先后。即在本实施例中,可以先从查询词集合中获取具有明确主义价值的词,再从明确主义价值的词中获取语义完整的词,最后计算语义完整的的热度值,并根据热度值获取热点价值词;或者,可以先从查询词集合中获取语义完整的词,再从语义完整的词中获取具有明确语义价值的词,最后计算具有明确语义价值的词的热度值,并根据热度值获取热点价值词等执行方式。
其中,如果先根据热度值从查询词集合中获取候选词,可以先去除查询词集合中的大量的噪音词,再从候选词中获取语义完整的词,可以进一步去除大量的噪音词,最后从语义完整的词中获取具有明确语义价值的热点价值词,可以提高获取热点价值词的效率。
在本发明实施例中,计算查询词的热度值并根据热度值获取候选词,可以将一段时间内受到一定关注的查询词作为候选词,屏蔽掉频率始终较高的常用词;根据候选词的语义参数获取语义完整的候选词,可以屏蔽到语义不完整的候选词;根据语义完整的候选词的表意能力值从语义完整的候选词中获取热点价值词,可以屏蔽掉语义价值不强的候选词,从而使得获取的热点价值词中不会包含大量的常用词、语义不完整以及语义价值不强的词,从而减少热点价值词中的噪音词。
实施例2
如图2所示,本发明实施例提供了一种获取热点价值词的方法,包括:
步骤201:对于任意一段时间,基于搜索引擎的查询日志,获取用户在该段时间内向搜索引擎提交的查询词,并组成查询词集合;
其中,用户在使用搜索引擎时,搜索引擎会将用户提交的查询词以及查询时间等信息记录在查询日志中。
例如,对于一段时间T,基于搜索引擎的查询日志,获取用户在时间段T内向搜索引擎提交的所有查询词Q1,Q2,...,Qx,再将获取的所有查询词组成查询词集合{Q1,Q2,...,Qx}。
步骤202:将该时间段划分成n个时间片段,基于搜索引擎的查询日志,统计查询词集合中的每个查询词分别在每个时间片段内被用户查询的查询次数;其中,n为大于或等于2的整数;
例如,将一段时间T划分成n个时间片段分别为T1,...,Tn,对于查询词集合{Q1,Q2,...,Qx}里的任一个查询词,假设查询词Query为查询词集合中{Q1,Q2,...,Qx}一个查询词,分别统计查询词Query在时间片段T1,...,Tn内被用户查询的查询次数分别为freQuery,1,...,freQuery,n。对于查询词集合{Q1,Q2,...,Qx}中其他的每个查询词也按与查询词Query相同的方法分别统计在时间片段T1,...,Tn内被用户查询的查询次数。
其中,由于搜索引擎具有大规模和时效性的特点,搜索日志能够在一个侧面反映用户群的信息需求和热点关注。所以在本实施例中,可以从搜索引擎的查询日志中获取一段时间内出现的、受到一定关注的且具有明确语义价值的热点价值词。
步骤203:根据每个查询词在每个时间片段的查询次数,计算每个查询词分别在第m至n个时间片段的热度值,将热度值超过预设第一阈值的查询词确定为候选词,其中,m为大于或等于2且小于或等于n的值;
其中,根据每个查询词在每个时间片段内被用户查询的查询次数,计算每个查询词分别在第m至n个时间片段的热度值的操作,可以包括如下三个步骤:
第一步,根据每个查询词在每个时间片段内被用户查询的查询次数,计算每个查询词分别在第m至n个时间片段的数学期望;
其中,可以按如下的公式(1)计算每个查询词的数学期望:
Mean ( Query , i ) = 1 i Σ k = 1 i fre Query , k . . . . . . ( 1 ) ;
其中,在公式(1)中,freQuery,k为查询词Query在第k个时间片段内被用户查询的查询次数,i为大于或等于m且小于或等于n的区间内的值,k为大于或等于1且小于或等于i的区间内的值,Mean(Query,i)为查询词Query在第i个时间片段内的数学期望。
第二步,根据每个查询词在每个时间片段内被用户查询的查询次数和每个查询词分别在第m至n个时间片段的数学期望,计算每个查询词分别在第m至n个时间片段的方差;
其中,可以按如下的公式(2)计算每个查询词分别在第m至n个时间片段的方差:
Var ( Query , i ) = Σ k = 1 i ( fre Query , k - Mean ( Query , i ) ) 2 i . . . . . . ( 2 ) ;
其中,在公式(2)中,Var(Query,i)为查询词在第i个时间片段内的方差。
第三步,根据每个查询词在每个时间片段内被用户查询的查询次数以及每个查询词分别在第m至n个时间片段的数学期望和方差,计算每个查询词分别在第m至n个时间片段的热度值;
其中,可以按如下的公式(3)计算每个查询词分别在第m至n个时间片段的热度值:
hot ( Query , i ) = fre Query , i - Mean ( Query , i - 1 ) Mean ( Query , i - 1 ) + Var ( Query , i - 1 ) . . . . . . ( 3 ) .
其中,在公式(3)中,hot(Query,i)为查询词Query在第i个时间片段内的热度值。
其中,在公式(3)中,i为大于或等于m且小于或等于n的区间内的所有值,所以对于查询词Query具有(n-m+1)个热度值。对于查询词集合中的其他每个查询词也同查询词Query一样,按上述三步计算出其他每个查询词的(n-m+1)个热度值。
其中,由于查询词集合中的每个查询词都有(n-m+1)个热度值,在本实施例中,将存在热度值超过第一阈值的查询词确定为候选词。
其中,类似“姚明”这样的频率始终较高的词,用户每天搜索的次数基本保持不变,这样通过计算热度的方法计算出的热度值较低,所以可以去除这样的常见高频词。
步骤204:计算每个候选词的语言模型度量值,根据每个候选词的语言模型度量值从确定的候选词中获取内部结构紧密的候选词;
具体地,按如下(1)-(4)的步骤计算每个候选词的语言模型度量值,并确定出内部结构紧密的候选词,包括:
(1):基于搜索引擎的查询日志,针对任一个确定的候选词cand,计算候选词cand在该段时间内被用户查询的概率;
具体地,基于搜索引擎的查询日志,统计查询词集合中的所有查询词被用户查询的总查询次数,以及统计候选词cand被用户查询的查询次数,根据所有查询词被用户查询的总查询次数和候选词cand被用户查询的查询次数,计算候选词cand被用户查询的概率。
其中,候选词cand被用户查询的概率为候选cand被用户查询的查询次数与总查询次数的比值。
(2)对候选词cand进行划分得到候选词cand包括的所有分词组合(S1,,...,Sm),计算每个分词组合(S1,...,Sm)的概率P(S1,...,Sm);
具体地,对该候选词进行划分得到所有分词组合(S1,,...,Sm),对于每个分词组合(S1,,...,Sm),计算分词组合(S1,,...,Sm)内的每个分词Si的概率P(Si),将分词组合(S1,...,Sm)内每个分词Si的概率P(Si)的乘积作为分词组合的概率,即P(S1,...,Sm)=∏P(Si)。其中,i为1至m的区间内的所有值。
例如,假设候选词cand为“三国演义啊”,其中,“三国演义啊”的查询概率为P(cand),对候选词“三国演义啊”进行划分得到的分词组合(S1,...,Sm)可以包括(“三国演义”,“啊”)、(“三国”,“演义”,“啊”)和(“三国”,“演义啊”),其中,分词组合(“三国演义”,“啊”)的概率P1为分别“三国演义”的概率和“啊”的概率的乘积;分词组合(“三国”,“演义”,“啊”)的概率P2为“三国”的概率、“演义”的概率和“啊”的概率三者之间的乘积;分词组合“三国”,“演义啊”)的概率P3为“三国”的概率和“演义啊”的概率的乘积。
(3):根据候选词cand的查询概率以及候选词cand的每个分词组合的查询概率,计算候选词cand的语言模型度量值;
其中,可以按如下公式(4)计算查询词cand的语言模型度量值:
LM ( cand ) = P ( cand ) max P ( S 1 , . . . , Sm ) . . . . . . ( 4 ) ;
其中,在公式(4)中P(cand)为候选词cand被用户查询的概率,P(S1,...,Sm)为分词组合(S1,...Sm)的查询概率,LM(cand)为候选词cand的语言模型度量值。
例如,
Figure BDA0000054159840000112
其中,对于其他每个候选词同候选词cand相同,按上述(1)-(3)的步骤计算其他每个候选词的语言模型度量值。
(4):从确定的所有候选词中将语言模型度量值超过预设第二阈值的候选词确定为内部结构紧密的候选词。
步骤205:计算内部结构紧密的每个候选词的前缀边界熵和后缀边界熵,根据每个候选词的前缀边界熵和后缀边界熵获取边界紧密的候选词;
其中,边界紧密的候选词的语义较完整,不会与其他的词组成新的词,而边界松散的候选词语义都不完整,可以与其他的词组成新的词。例如,对于候选词“水浒在线观看”和“水浒在线”,候选词“水浒在线观看”的边界紧密且语义较完整;候选词“水浒在线”的边界松散且语义不完整,“水浒在线”可以与其他的词组成“水浒在线观看”或“水浒在线下载”等语义完整的词。
具体地,按如下(A)-(D)的步骤计算候选词的前缀边界熵和后缀边界熵,再获取边界紧密的候选词,包括:
(A),对于任一内部结构紧密的候选词cand,获取包括该候选词cand的所有查询词;
例如,假设候选词cand为“汶川地震”,则“四川汶川地震”和“汶川地震中的灾民”都为包括候选词“汶川地震”的查询词。
其中,需要说明的是:“四川汶川地震”为候选词“汶川地震”的前缀不为空的查询词,而“汶川地震中的灾民”为候选词“汶川地震”的前缀为空的查询词;“四川汶川地震”为候选词“汶川地震”的后缀为空的查询词,而“汶川地震中的灾民”为候选词“汶川地震”的后缀不为空的查询词。
(B),从获取的查询词中分类出候选词cand的前缀不为空的查询词以及前缀为空的查询词,计算候选cand的前缀边界熵;
具体地,基于搜索引擎的查询日志,统计候选词cand的前缀不为空的每个查询词的查询次数,以及统计候选词cand的前缀为空的所有查询词的查询次数,然后按如下的公式(5)计算候选词cand的前缀边界熵:
CE pre ( cand ) = - [ Σ ( Xi ∈ Cand pre ) ∩ ( Xi ≠ NULL ) T ( Xi ) T × log ( T ( Xi ) T ) + T ( NULL ) × 1 T × log ( 1 T ) ] . . . ( 5 ) ;
其中,在公式(5)中,Xi为候选词cand的前缀不为空的查询词,T(Xi)查询词Xi的查询次数,T为查询词集合的所有查询词的总查询次数,T(NULL)为候选词cand的前缀为空的所有查询词的查询次数;CEpre(cand)为候选词cand的前缀边界熵。
(C),从获取的查询词中分类出候选词cand的后缀不为空的查询词以及后缀为空的查询词,计算候选cand的后缀边界熵;
具体地,基于搜索引擎的查询日志,统计候选词cand的后缀不为空的每个查询词的查询次数,以及统计候选词cand的后缀为空的所有查询词的查询次数,然后按如下的公式(6)计算候选词cand的后缀边界熵:
CE post ( cand ) = - [ Σ ( Yi ∈ Cand post ) ∩ ( Yi ≠ NULL ) T ( Yi ) T × log ( T ( Yi ) T ) + T ( NULL ) × 1 T × log ( 1 T ) ] . . . ( 6 ) ;
其中,在公式(6)中,Yi为候选词cand的后缀不为空的查询词,T(Yi)查询词Yi的查询次数,T为查询词集合中的所有查询词的总查询次数,T(NULL)为候选词cand的后缀为空的所有查询的查询次数;CEpost(cand)为候选词cand的后缀边界熵。
其中,分别同候选词cand一样,按上述(A)-(C)的步骤计算其他每个候选词的前缀边界熵和后缀边界熵。
(D):从内部结构紧密的每个候选词中,将前缀边界熵超过预设第三阈值以及后缀边界熵超过预设第四阈值的候选词确定为边界紧密的候选词。
步骤206:计算边界紧密的每个候选词的上下文对数似然比,根据每个候选词的上下文对数据似然比获取语义完整的候选词;
具体地,按下(a)-(g)的步骤计算候选词的上下文对数似然比,以及获取语义完整的候选词,包括:
(a):针对一个候选词cand,获取候选词cand的前缀和后缀都不为空且查询次数最大的查询词,从该查询词中获取候选词cand的前缀pre和后缀post;
具体地,从查询词集合中获取包括候选词cand且候选词cand的前缀和后缀都不为空的查询词,基于搜索引擎的查询日志统计前缀和后缀都不为空的每个查询词的查询次数,选择查询次数最大的查询词,从选择的查询词中提取候选词cand的前缀pre和后缀post。
例如,对于查询词“四川汶川地震中的灾民”为候选词“汶川地震”的前缀和后缀都不为空的查询词,假设,候选词“汶川地震”的前缀和后缀都不为空且查询次数最大的查询词为“四川汶川地震中的灾民”,则从查询词“四川汶川地震中的灾民”中提取候选词“汶川地震”的前缀pre为“四川”以及后缀post为“中的灾民”。
(b):从查询词集合中统计提取的前缀pre为候选词cand的前缀,同时提取的后缀post为候选词cand的后缀的查询词的查询次数,从统计的查询次数中选择最大的查询次数Ta;
具体地,从查询词集合中获取提取的前缀pre为候选词cand的前缀,同时提取的后缀post为候选词cand的后缀的每个查询词,基于搜索引擎的查询日志,统计获取的每个查询词的查询次数,从统计的每个查询次数中选择最大的查询次数Ta。
(c):从查询词集合中统计提取的前缀pre为候选词cand的前缀,同时提取的后缀post不为候选词cand的后缀的所有查询词的查询次数,从统计的查询次数中选择最大的查询次数Tb;
具体地,从查询词集合中获取提取的前缀pre为候选词cand的前缀,同时提取的后缀post不为候选词cand的后缀的每个查询词,基于搜索引擎的查询日志,统计获取的每个查询词的查询次数,从统计的每个查询次数中选择最大的查询次数Tb。
(d):从查询词集合中统计提取的前缀pre不为候选词cand的前缀,同时提取的后缀post为候选词cand的后缀的所有查询词的查询次数,从统计的查询次数中选择最大的查询次数Tc;
具体地,从查询词集合中获取提取的前缀pre不为候选词cand的前缀,同时提取的后缀post为候选词cand的后缀的每个查询词,基于搜索引擎的查询日志,统计获取的每个查询词的查询次数,从统计的每个查询次数中选择最大的查询次数Tc。
(e):从查询词集合中统计提取的前缀pre不为候选词cand前缀,同时提取的后缀post不为候选词cand的后缀的所有查询词的查询次数,从统计的查询次数中选择最大的查询次数Td,
具体地,从查询词集合中获取提取的前缀pre不为候选词cand的前缀,同时提取的后缀post不为候选词cand的后缀的每个查询词,基于搜索引擎的查询日志,统计获取的每个查询词的查询次数,从统计的每个查询次数中选择最大的查询次数Td。
(f):根据最大的查询次数Ta、Tb、Tc和Td,按如下的公式(7)计算候选词cand的上下文对数似然比LLR(cand);
LLR ( cand ) = 2 × [ Ta × log Ta × T ( Ta + Tb ) × ( A + Tc ) + Tb × log Tb × T ( Ta + Tb ) × ( Tb + Td )
+ Tc × log Tc × T ( Tc + Td ) × ( Ta + Tc ) + Td × log Td × T ( Tc + Td ) × ( Tb + Td ) ]
……(7)
其中,在公式(7)中,T为查询词集合中的每个查询词的查询次数,A为固定值。
其中,对于其他每个候选词分别与候选词cand一样,按上述(a)-(f)的步骤计算其他每个候选词的上下文对数似然比。
(g):从边界紧密的每个候选词中将上下文对数似然比超过预设第五阈值的候选词确定为语义完整的候选词。
其中,步骤204、205和206三个步骤的执行顺序可以不分先后。即在本实施例中,三个步骤可以同时进行,即同时计算每个候选词的语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比,并根据每个候选词的语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比获取语义完整的候选词;或者,可以先执行步骤205获取边界紧密的候选词,再执行206计算边界紧密的候选词的上下文对数似然比并根据上下文对数据似然比筛选边界紧密的候选词,最后执行步骤204计算剩下每个候选词的前缀边界熵和后缀界熵,并根据剩下每个候选词的前缀边界熵和后缀界熵筛选出语义完整的候选词等方式,本实施例对上述三个步骤的执行顺序不做限制。
步骤207:计算每个语义完整的候选词的表意能力值,根据每个候选词的表意能力值,从语义完整的候选词中获取具有明确语义价值的热点价值词。
具体地,可以按如下的(S1)-(S5)的步骤计算每个语义完整的候选词的表意能力值,并从语义完整的候选词中获取具有明确语义价值的热点价值词,包括:
(S1):针对任一个语义完整的候选词cand,从查询词集合中获取包括候选语cand的查询词,计算候选词cand在每个获取的查询词中的贡献值;
具体地,从查询词集合中获取包括候选词的cand的查询词,针对任一个获取的查询词Query,对查询词Query进行分词得到查询词Query包括的分词数Num(Query),根据查询词Query包括的分词数Num(Query)按如下的公式(8)计算候选词cand在查询词Query中的贡献值ide(cand,Query)。
ide ( cand , Query ) = B Nun ( Query ) = 1 Num ( Query ) . . . . . . ( 8 ) .
其中,按上述相同的方法计算候选词cand在获取的其他每个查询词中的贡献值。
(S2):根据候选词cand在获取的每个查询词中的贡献值和获取的查询词的个数N,按如下的公式(9)计算候选词cand的第一表意能力值Ide(cand,Query);
Ide ( cand , Query ) = 1 N Σ Q ide ( cand , Query ) . . . . . . ( 9 )
其中,在公式(9)中Q为获取的每个查询词,Query为Q中的任一个查询词。
(S3):根据查询词集合中的所有查询词的查询次数之和T_total,获取的每个查询词的查询次数之和Q_total以及候选词的cand的查询次数T_cand,按如下的公式(10)计算候选词cand的第二表意能力值Wpro(cand);
Wpro ( cand ) = T _ cand Q _ total × log ( T _ total ) max ( log T _ total ) . . . . . . ( 10 ) ;
(S4):根据候选词cand的第一表意能力值和第二表意能力值,按如下的公式(11)计算候选词cand的表意能力值Value(cand);
Value(cand)=λ×Ide(cand,Query)+(1-λ)×Wpro(cand)……(11)。
其中,对于其他语义完整的候选词按上述(S1)-(S4)的步骤,计算各自对应的表意能力值。
(S5):从所有语义完整的候选词中将表意能力值超过预设第六阈值的候选词确定为热点价值词。
在本发明实施例中,计算查询词的热度值并根据热度值获取候选词,可以将一段时间内受到一定关注的查询词作为候选词,屏蔽掉频率始终较高的常用词;根据候选词的语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比获取语义完整的候选词,可以屏蔽到语义不完整的候选词;根据语义完整的候选词的表意能力值从语义完整的候选词中获取具有明确语义价值的热点价值词,可以屏蔽掉语义价值不明确的候选词,从而使得获取的热点价值词中不会包含大量的常用词、语义不完整以及语义价值不明确定的噪音词,从而减少热点价值词中的噪音词。
实施例3
如图3所示,本发明实施例提供了一种获取热点价值词的装置,包括:
计算模块301,用于计算查询词集合中的查询词的热度值,根据查询词的热度值从查询词集合中获取候选词;
第一获取模块302,用于根据候选词的语义参数,获取语义完整的候选词;
第二获取模块303,用于根据语义完整的候选词的表意能力值从语义完整的候选词中获取具有明确语义价值的热点价值词。
其中,计算模块301包括:
第一计算单元,用于根据查询词分别在n个时间片段内的查询次数,计算查询词分别在第m至n个时间片段内的热度值;
第一确定单元,用于从查询词集合中将热度值超过预设第一阈值的查询词确定为候选词;其中,n为大于或等于2的整数,m为大于或等于2且小于或等于n的整数。
其中,第一计算单元包括:
第一计算子单元,用于根据查询词分别在n个时间片段内的查询次数,计算查询词分别在第m至n个时间片段内的数学期望;
第二计算子单元,用于根据查询词分别在n个时间片段内的查询次数以及查询词分别在第m至n个时间片段内的数学期望,计算查询词分别在第m至n个时间片段内的方差;
第三计算子单元,用于根据查询词分别在n个时间片段内的查询次数以及查询词分别在第m至n个时间片段内的数学期望和方差,计算查询词分别在第m至n个时间片段内的热度值。
其中,语义参数至少包括语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比;
相应地,第一获取模块302,具体用于将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词。
进一步地,第一获取模块302还包括:
语言模型度量值计算单元,用于计算候选词的查询概率,对候选词进行划分得到候选词包括的分词组合,计算分词组合的查询概率,根据候选词的查询概率和分词组合的查询概率计算候选词的语言模型度量值。
其中,语言模型度量值超过预设第二阈值的候选词为内部结构紧密的候选词,进一步地,第一获取模块302还包括:
前缀边界熵计算单元,用于获取包括内部结构紧密的候选词的查询词,从获取的查询词中分类出内部结构紧密的候选词的前缀不为空的查询词和前缀为空的查询词,根据前缀不为空的查询词和前缀为空的查询词计算内部结构紧密的候选词的前缀边界熵;
后缀边界熵计算单元,用于从获取的查询词中分类出内部结构紧密的候选词的后缀不为空的查询词和后缀为空的查询词,根据后缀不为空的查询词和后缀为空的查询词计算内部结构紧密的候选词的后缀边界熵。
其中,前缀边界熵超过预设第三阈值且后缀边界熵超过预设第四阈值的候选词为边界紧密的候选词,进一步地,第一获取模块302还包括:
提取单元,用于获取边界紧密的候选词的前缀和后缀都不为空且查询次数最大的查询词,从获取的查询词中提取边界紧密的候选词的前缀和后缀;
第一统计单元,用于从查询词集合中统计提取的前缀为边界紧密的候选词的前缀,同时提取的后缀为边界紧密的候选词的后缀的查询词的查询次数,从统计的查询次数中选择最大的查询次数Ta;
第二统计单元,用于从查询词集合中统计提取的前缀为边界紧密的候选词的前缀,同时提取的后缀不为边界紧密的候选词的后缀的查询词的查询次数,从统计的查询次数中选择最大的查询次数Tb;
第三统计单元,用于从查询词集合中统计提取的前缀不为边界紧密的候选词的前缀,同时提取的后缀为边界紧密的候选词的后缀的查询词的查询次数,从统计的查询次数中选择最大的查询次数Tc;
第四统计单元,用于从查询词集合中统计提取的前缀不为边界紧密的候选词的前缀,同时提取的后缀不为边界紧密的候选词的后缀的查询词的查询次数,从统计的查询次数中选择最大的查询次数Td;
第二计算单元,用于根据最大的查询次数Ta、Tb、Tc和Td计算边界紧密的候选词的上下文对数似然比。
进一步地,该装置还包括:
统计模块,用于基于搜索引擎的查询日志,获取一段时间内用户查询的所有查询词,将获取的查询词组成查询词集合,将段时间划分成n个时间片段,统计查询词集合中的查询词分别在n个时间片段内的查询次数。
进一步地,该装置还包括:
第三获取模块,用于从查询词集合中获取包括语义完整的候选语的查询词,计算语义完整的候选词在获取的查询词中的贡献值;
第一表意能力值计算模块,用于根据语义完整的候选词在获取的查询词中的贡献值和获取的查询词的个数,计算语义完整的候选词的第一表意能力值;
第二表意能力值计算模块,用于根据查询词集合中的查询词的查询次数,获取的查询词的查询次数以及语义完整的候选词的查询次数,计算语义完整的候选词的第二表意能力值;
表意能力值计算模块,用于根据语义完整的候选词的第一表意能力值和第二表意能力值,计算语义完整的候选词的表意能力值。
在本发明实施例中,计算查询词的热度值并根据热度值获取候选词,可以将一段时间内受到一定关注的查询词作为候选词,屏蔽掉频率始终较高的常用词;根据候选词的语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比获取语义完整的候选词,可以屏蔽到语义不完整的候选词;根据语义完整的候选词的表意能力值从语义完整的候选词中获取热点价值词,可以屏蔽掉语义价值不强的候选词,从而使得获取的热点价值词中不会包含大量的常用词、语义不完整以及语义价值不强的词,从而减少热点价值词中的噪音词。
需要说明的是:上述实施例提供的一种获取热点价值词的装置在获取热点价值词时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供获取热点价值词的装置与获取热点价值词的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种获取热点价值词的方法,其特征在于,所述方法包括:
计算查询词集合中的查询词的热度值,根据所述查询词的热度值从所述查询词集合中获取候选词;
根据所述候选词的语义参数,获取语义完整的候选词;
根据所述语义完整的候选词的表意能力值从所述语义完整的候选词中获取具有明确语义价值的热点价值词。
2.如权利要求1所述的方法,其特征在于,所述计算查询词集合中的查询词的热度值,根据所述查询词的热度值从所述查询词集合中获取候选词,包括:
根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的热度值;
从所述查询词集合中将热度值超过预设第一阈值的查询词确定为候选词;其中,n为大于或等于2的整数,m为大于或等于2且小于或等于n的整数。
3.如权利要求2所述的方法,其特征在于,根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的热度值,包括:
根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的数学期望;
根据所述查询词分别在n个时间片段内的查询次数以及所述查询词分别在第m至n个时间片段内的数学期望,计算所述查询词分别在第m至n个时间片段内的方差;
根据所述查询词分别在n个时间片段内的查询次数以及所述查询词分别在第m至n个时间片段内的数学期望和方差,计算所述查询词分别在第m至n个时间片段内的热度值。
4.如权利要求1所述的方法,其特征在于,所述语义参数至少包括语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比;
相应地,根据所述候选词的语义参数,获取语义完整的候选词,包括:
将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词。
5.如权利要求4所述的方法,其特征在于,所述将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词之前,还包括:
计算所述候选词的查询概率,对所述候选词进行划分得到分词组合,计算所述分词组合的查询概率,根据所述候选词的查询概率和所述分词组合的查询概率计算所述候选词的语言模型度量值。
6.如权利要求4所述的方法,其特征在于,所述语言模型度量值超过预设第二阈值的候选词为内部结构紧密的候选词,所述将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词之前,还包括:
获取包括所述内部结构紧密的候选词的查询词,从所述获取的查询词中分类出所述内部结构紧密的候选词的前缀不为空的查询词和前缀为空的查询词,根据所述前缀不为空的查询词和前缀为空的查询词计算所述内部结构紧密的候选词的前缀边界熵;
从所述获取的查询词中分类出所述内部结构紧密的候选词的后缀不为空的查询词和后缀为空的查询词,根据所述后缀不为空的查询词和后缀为空的查询词计算所述内部结构紧密的候选词的后缀边界熵。
7.如权利要求4所述的方法,其特征在于,所述前缀边界熵超过预设第三阈值且后缀边界熵超过预设第四阈值的候选词为边界紧密的候选词,所述将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词之前,还包括:
从所述查询词集合中获取所述边界紧密的候选词的前缀和后缀都不为空且查询次数最大的查询词,从所述获取的查询词中提取所述边界紧密的候选词的前缀和后缀;
在所述查询词集合中统计所述提取的前缀为所述边界紧密的候选词的前缀,同时所述提取的后缀为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Ta;
在所述查询词集合中统计所述提取的前缀为所述边界紧密的候选词的前缀,同时所述提取的后缀不为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Tb;
在所述查询词集合中统计所述提取的前缀不为所述边界紧密的候选词的前缀,同时所述提取的后缀为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Tc;
在所述查询词集合中统计所述提取的前缀不为所述边界紧密的候选词的前缀,同时所述提取的后缀不为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Td;
根据所述最大的查询次数Ta、Tb、Tc和Td计算所述边界紧密的候选词的上下文对数似然比。
8.如权利要求1所述的方法,其特征在于,所述计算查询词集合中的查询词的热度值之前,还包括:
基于搜索引擎的查询日志,获取一段时间内用户查询的所有查询词,将所述获取的查询词组成所述查询词集合,将所述一段时间划分成n个时间片段,统计所述查询词集合中的查询词分别在n个时间片段内的查询次数。
9.如权利要求1所述的方法,其特征在于,所述根据所述语义完整的候选词的表意能力值从所述语义完整的候选词中获取具有明确主义的热点价值词之前,还包括:
从所述查询词集合中获取包括所述语义完整的候选词的查询词,计算所述语义完整的候选词在所述获取的查询词中的贡献值;
根据所述语义完整的候选词在所述获取的查询词中的贡献值和所述获取的查询词的个数,计算所述语义完整的候选词的第一表意能力值;
根据所述查询词集合中的查询词的查询次数,所述获取的查询词的查询次数以及所述语义完整的候选词的查询次数,计算所述语义完整的候选词的第二表意能力值;
根据所述语义完整的候选词的第一表意能力值和第二表意能力值,计算所述语义完整的候选词的表意能力值。
10.一种获取热点价值词的装置,其特征在于,所述装置包括:
计算模块,用于计算查询词集合中的查询词的热度值,根据所述查询词的热度值从所述查询词集合中获取候选词;
第一获取模块,用于根据所述候选词的语义参数,获取语义完整的候选词;
第二获取模块,用于根据所述语义完整的候选词的表意能力值从所述语义完整的候选词中获取具有明确语义价值的热点价值词。
11.如权利要求10所述的装置,其特征在于,所述计算模块包括:
第一计算单元,用于根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的热度值;
第一确定单元,用于从所述查询词集合中将热度值超过预设第一阈值的查询词确定为候选词;其中,n为大于或等于2的整数,m为大于或等于2且小于或等于n的整数。
12.如权利要求11所述的装置,其特征在于,所述第一计算单元包括:
第一计算子单元,用于根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的数学期望;
第二计算子单元,用于根据所述查询词分别在n个时间片段内的查询次数以及所述查询词分别在第m至n个时间片段内的数学期望,计算所述查询词分别在第m至n个时间片段内的方差;
第三计算子单元,用于根据所述查询词分别在n个时间片段内的查询次数以及所述查询词分别在第m至n个时间片段内的数学期望和方差,计算所述查询词分别在第m至n个时间片段内的热度值。
13.如权利要求10所述的装置,其特征在于,所述语义参数至少包括语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比;
相应地,所述第一获取模块,具体用于将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词。
14.如权利要求13所述的装置,其特征在于,所述第一获取模块还包括:
语言模型度量值计算单元,用于计算所述候选词的查询概率,对所述候选词进行划分得到所述候选词包括的分词组合,计算所述分词组合的查询概率,根据所述候选词的查询概率和所述分词组合的查询概率计算所述候选词的语言模型度量值。
15.如权利要求13所述的装置,其特征在于,所述语言模型度量值超过预设第二阈值的候选词为内部结构紧密的候选词,所述第一获取模块还包括:
前缀边界熵计算单元,用于获取包括所述内部结构紧密的候选词的查询词,从所述获取的查询词中分类出所述内部结构紧密的候选词的前缀不为空的查询词和前缀为空的查询词,根据所述前缀不为空的查询词和前缀为空的查询词计算所述内部结构紧密的候选词的前缀边界熵;
后缀边界熵计算单元,用于从所述获取的查询词中分类出所述内部结构紧密的候选词的后缀不为空的查询词和后缀为空的查询词,根据所述后缀不为空的查询词和后缀为空的查询词计算所述内部结构紧密的候选词的后缀边界熵。
16.如权利要求13所述的装置,其特征在于,所述前缀边界熵超过预设第三阈值且后缀边界熵超过预设第四阈值的候选词为边界紧密的候选词,所述第一获取模块还包括:
提取单元,用于获取所述边界紧密的候选词的前缀和后缀都不为空且查询次数最大的查询词,从所述获取的查询词中提取所述边界紧密的候选词的前缀和后缀;
第一统计单元,用于从所述查询词集合中统计所述提取的前缀为所述边界紧密的候选词的前缀,同时所述提取的后缀为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Ta;
第二统计单元,用于从所述查询词集合中统计所述提取的前缀为所述边界紧密的候选词的前缀,同时所述提取的后缀不为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Tb;
第三统计单元,用于从所述查询词集合中统计所述提取的前缀不为所述边界紧密的候选词的前缀,同时所述提取的后缀为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Tc;
第四统计单元,用于从所述查询词集合中统计所述提取的前缀不为所述边界紧密的候选词的前缀,同时所述提取的后缀不为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Td;
第二计算单元,用于根据所述最大的查询次数Ta、Tb、Tc和Td计算所述边界紧密的候选词的上下文对数似然比。
17.如权利要求10所述的装置,其特征在于,所述装置还包括:
统计模块,用于基于搜索引擎的查询日志,获取一段时间内用户查询的所有查询词,将所述获取的查询词组成所述查询词集合,将所述一段时间划分成n个时间片段,统计所述查询词集合中的查询词分别在n个时间片段内的查询次数。
18.如权利要求10所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于从所述查询词集合中获取包括所述语义完整的候选语的查询词,计算所述语义完整的候选词在所述获取的查询词中的贡献值;
第一表意能力值计算模块,用于根据所述语义完整的候选词在所述获取的查询词中的贡献值和所述获取的查询词的个数,计算所述语义完整的候选词的第一表意能力值;
第二表意能力值计算模块,用于根据所述查询词集合中的查询词的查询次数,所述获取的查询词的查询次数以及所述语义完整的候选词的查询次数,计算所述语义完整的候选词的第二表意能力值;
表意能力值计算模块,用于根据所述语义完整的候选词的第一表意能力值和第二表意能力值,计算所述语义完整的候选词的表意能力值。
CN2011100863106A 2011-04-07 2011-04-07 一种获取热点价值词的方法及装置 Pending CN102737036A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100863106A CN102737036A (zh) 2011-04-07 2011-04-07 一种获取热点价值词的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100863106A CN102737036A (zh) 2011-04-07 2011-04-07 一种获取热点价值词的方法及装置

Publications (1)

Publication Number Publication Date
CN102737036A true CN102737036A (zh) 2012-10-17

Family

ID=46992556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100863106A Pending CN102737036A (zh) 2011-04-07 2011-04-07 一种获取热点价值词的方法及装置

Country Status (1)

Country Link
CN (1) CN102737036A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810214A (zh) * 2012-11-14 2014-05-21 腾讯科技(深圳)有限公司 搜索页面的频率信息显示方法及装置
CN105302903A (zh) * 2015-10-27 2016-02-03 广州神马移动信息科技有限公司 搜索方法、装置、系统以及搜索结果调序依据的确定方法
CN106919552A (zh) * 2015-12-28 2017-07-04 北京国双科技有限公司 热词的处理方法及装置
CN106919627A (zh) * 2015-12-28 2017-07-04 北京国双科技有限公司 热词的处理方法和装置
CN107194572A (zh) * 2017-05-18 2017-09-22 广东中科国志科技发展有限公司 一种技术评估的方法和设备
CN107748802A (zh) * 2017-11-17 2018-03-02 北京百度网讯科技有限公司 文章聚合方法及装置
CN111479168A (zh) * 2020-04-14 2020-07-31 腾讯科技(深圳)有限公司 用于标记多媒体内容热点的方法、装置、服务器以及介质
CN111797632A (zh) * 2019-04-04 2020-10-20 北京猎户星空科技有限公司 信息处理方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090100042A1 (en) * 2007-10-12 2009-04-16 Lexxe Pty Ltd System and method for enhancing search relevancy using semantic keys
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090100042A1 (en) * 2007-10-12 2009-04-16 Lexxe Pty Ltd System and method for enhancing search relevancy using semantic keys
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810214A (zh) * 2012-11-14 2014-05-21 腾讯科技(深圳)有限公司 搜索页面的频率信息显示方法及装置
CN103810214B (zh) * 2012-11-14 2018-03-13 腾讯科技(深圳)有限公司 搜索页面的频率信息显示方法及装置
CN105302903A (zh) * 2015-10-27 2016-02-03 广州神马移动信息科技有限公司 搜索方法、装置、系统以及搜索结果调序依据的确定方法
CN106919552A (zh) * 2015-12-28 2017-07-04 北京国双科技有限公司 热词的处理方法及装置
CN106919627A (zh) * 2015-12-28 2017-07-04 北京国双科技有限公司 热词的处理方法和装置
CN107194572A (zh) * 2017-05-18 2017-09-22 广东中科国志科技发展有限公司 一种技术评估的方法和设备
CN107748802A (zh) * 2017-11-17 2018-03-02 北京百度网讯科技有限公司 文章聚合方法及装置
CN111797632A (zh) * 2019-04-04 2020-10-20 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN111797632B (zh) * 2019-04-04 2023-10-27 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN111479168A (zh) * 2020-04-14 2020-07-31 腾讯科技(深圳)有限公司 用于标记多媒体内容热点的方法、装置、服务器以及介质
CN111479168B (zh) * 2020-04-14 2021-12-28 腾讯科技(深圳)有限公司 用于标记多媒体内容热点的方法、装置、服务器以及介质

Similar Documents

Publication Publication Date Title
CN102737036A (zh) 一种获取热点价值词的方法及装置
EP3117347B1 (en) Systems and methods for rapid data analysis
CN100581227C (zh) 一种引入节目热门度权重的协作过滤推荐方法
CN102880712B (zh) 一种用于对搜索的网络视频进行排序的方法和系统
CN103186539A (zh) 一种确定用户群体、信息查询及推荐的方法及系统
CN101719167B (zh) 一种可互动的影视搜索方法
CN111523072B (zh) 页面访问数据统计方法、装置、电子设备及存储介质
WO2020211393A1 (zh) 判决文书信息检索方法、装置、计算机设备和存储介质
CN103593371A (zh) 推荐搜索关键词的方法和装置
CN100354864C (zh) 数据挖掘中一种基于混合互信息的特征选择方法
CN104598632A (zh) 热点事件检测方法和装置
CN104361109B (zh) 确定图片筛选结果的方法和装置
CN102750320A (zh) 一种网络视频实时关注度的计算方法、装置和系统
CN104331493A (zh) 通过计算机实现的用于生成趋势解释数据的方法及装置
CN112559513A (zh) 链路数据存取方法、装置、存储介质、处理器及电子装置
CN104408115A (zh) 一种电视平台上基于语义链接的异构资源推荐方法和装置
JP2019512124A (ja) インデックス情報を生成するデータベースのアーカイビング方法及び装置、インデックス情報を含むアーカイビングされたデータベースの検索方法及び装置
CN108389113A (zh) 一种协同过滤推荐方法和系统
CN106557483B (zh) 一种数据处理、数据查询方法及设备
CN103309885A (zh) 一种在电子交易平台中识别特征用户的方法及装置和搜索方法及装置
CN106919566A (zh) 一种基于海量数据的查询统计方法及系统
CN103294696A (zh) 音视频内容检索方法及系统
Ren et al. Efficient processing of shortest path queries in evolving graph sequences
CN108255885B (zh) 一种歌曲的推荐方法及系统
CN106933909B (zh) 多维度数据的查询方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131105

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518000 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131105

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: 518000 Guangdong city of Shenzhen province Futian District SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

RJ01 Rejection of invention patent application after publication

Application publication date: 20121017

RJ01 Rejection of invention patent application after publication