发明内容
为了减少获取的热点价值词中包括的噪音词,本发明提供了一种获取热点价值词的方法及装置。所述技术方案如下:
一种获取热点价值词的方法,所述方法包括:
计算查询词集合中的查询词的热度值,根据所述查询词的热度值从所述查询词集合中获取候选词;
根据所述候选词的语义参数,获取语义完整的候选词;
根据所述语义完整的候选词的表意能力值从所述语义完整的候选词中获取具有明确语义价值的热点价值词。
所述计算查询词集合中的查询词的热度值,根据所述查询词的热度值从所述查询词集合中获取候选词,包括:
根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的热度值;
从所述查询词集合中将热度值超过预设第一阈值的查询词确定为候选词;其中,n为大于或等于2的整数,m为大于或等于2且小于或等于n的整数。
根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的热度值,包括:
根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的数学期望;
根据所述查询词分别在n个时间片段内的查询次数以及所述查询词分别在第m至n个时间片段内的数学期望,计算所述查询词分别在第m至n个时间片段内的方差;
根据所述查询词分别在n个时间片段内的查询次数以及所述查询词分别在第m至n个时间片段内的数学期望和方差,计算所述查询词分别在第m至n个时间片段内的热度值。
所述语义参数至少包括语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比;
相应地,根据所述候选词的语义参数,获取语义完整的候选词,包括:
将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词。
所述将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词之前,还包括:
计算所述候选词的查询概率,对所述候选词进行划分得到所述候选词包括的分词组合,计算所述分词组合的查询概率,根据所述候选词的查询概率和所述分词组合的查询概率计算所述候选词的语言模型度量值。
所述语言模型度量值超过预设第二阈值的候选词为内部结构紧密的候选词,所述将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词之前,还包括:
获取包括所述内部结构紧密的候选词的查询词,从所述获取的查询词中分类出所述内部结构紧密的候选词的前缀不为空的查询词和前缀为空的查询词,根据所述前缀不为空的查询词和前缀为空的查询词计算所述内部结构紧密的候选词的前缀边界熵;
从所述获取的查询词中分类出所述内部结构紧密的候选词的后缀不为空的查询词和后缀为空的查询词,根据所述后缀不为空的查询词和后缀为空的查询词计算所述内部结构紧密的候选词的后缀边界熵。
所述前缀边界熵超过预设第三阈值且后缀边界熵超过预设第四阈值的候选词为边界紧密的候选词,所述将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词之前,还包括:
获取所述边界紧密的候选词的前缀和后缀都不为空且查询次数最大的查询词,从所述获取的查询词中提取所述边界紧密的候选词的前缀和后缀;
从所述查询词集合中统计所述提取的前缀为所述边界紧密的候选词的前缀,同时所述提取的后缀为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Ta;
从所述查询词集合中统计所述提取的前缀为所述边界紧密的候选词的前缀,同时所述提取的后缀不为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Tb;
从所述查询词集合中统计所述提取的前缀不为所述边界紧密的候选词的前缀,同时所述提取的后缀为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Tc;
从所述查询词集合中统计所述提取的前缀不为所述边界紧密的候选词的前缀,同时所述提取的后缀不为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Td;
根据所述最大的查询次数Ta、Tb、Tc和Td计算所述边界紧密的候选词的上下文对数似然比。
所述计算查询词集合中的查询词的热度值之前,还包括:
基于搜索引擎的查询日志,获取一段时间内用户查询的所有查询词,将所述获取的查询词组成所述查询词集合,将所述一段时间划分成n个时间片段,统计所述查询词集合中的查询词分别在n个时间片段内的查询次数。
所述根据所述语义完整的候选词的表意能力值从所述语义完整的候选词中获取具有明确主义的热点价值词之前,还包括:
从所述查询词集合中获取包括所述语义完整的候选语的查询词,计算所述语义完整的候选词在所述获取的查询词中的贡献值;
根据所述语义完整的候选词在所述获取的查询词中的贡献值和所述获取的查询词的个数,计算所述语义完整的候选词的第一表意能力值;
根据所述查询词集合中的查询词的查询次数,所述获取的查询词的查询次数以及所述语义完整的候选词的查询次数,计算所述语义完整的候选词的第二表意能力值;
根据所述语义完整的候选词的第一表意能力值和第二表意能力值,计算所述语义完整的候选词的表意能力值。
一种获取热点价值词的装置,所述装置包括:
计算模块,用于计算查询词集合中的查询词的热度值,根据所述查询词的热度值从所述查询词集合中获取候选词;
第一获取模块,用于根据所述候选词的语义参数,获取语义完整的候选词;
第二获取模块,用于根据所述语义完整的候选词的表意能力值从所述语义完整的候选词中获取具有明确语义价值的热点价值词。
所述计算模块包括:
第一计算单元,用于根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的热度值;
第一确定单元,用于从所述查询词集合中将热度值超过预设第一阈值的查询词确定为候选词;其中,n为大于或等于2的整数,m为大于或等于2且小于或等于n的整数。
所述第一计算单元包括:
第一计算子单元,用于根据所述查询词分别在n个时间片段内的查询次数,计算所述查询词分别在第m至n个时间片段内的数学期望;
第二计算子单元,用于根据所述查询词分别在n个时间片段内的查询次数以及所述查询词分别在第m至n个时间片段内的数学期望,计算所述查询词分别在第m至n个时间片段内的方差;
第三计算子单元,用于根据所述查询词分别在n个时间片段内的查询次数以及所述查询词分别在第m至n个时间片段内的数学期望和方差,计算所述查询词分别在第m至n个时间片段内的热度值。
所述语义参数至少包括语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比;
相应地,所述第一获取模块,具体用于将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词。
所述第一获取模块还包括:
语言模型度量值计算单元,用于计算所述候选词的查询概率,对所述候选词进行划分得到所述候选词包括的分词组合,计算所述分词组合的查询概率,根据所述候选词的查询概率和所述分词组合的查询概率计算所述候选词的语言模型度量值。
所述语言模型度量值超过预设第二阈值的候选词为内部结构紧密的候选词,所述第一获取模块还包括:
前缀边界熵计算单元,用于获取包括所述内部结构紧密的候选词的查询词,从所述获取的查询词中分类出所述内部结构紧密的候选词的前缀不为空的查询词和前缀为空的查询词,根据所述前缀不为空的查询词和前缀为空的查询词计算所述内部结构紧密的候选词的前缀边界熵;
后缀边界熵计算单元,用于从所述获取的查询词中分类出所述内部结构紧密的候选词的后缀不为空的查询词和后缀为空的查询词,根据所述后缀不为空的查询词和后缀为空的查询词计算所述内部结构紧密的候选词的后缀边界熵。
所述前缀边界熵超过预设第三阈值且后缀边界熵超过预设第四阈值的候选词为边界紧密的候选词,所述第一获取模块还包括:
提取单元,用于从所述查询词集合中获取所述边界紧密的候选词的前缀和后缀都不为空且查询次数最大的查询词,从所述获取的查询词中提取所述边界紧密的候选词的前缀和后缀;
第一统计单元,用于从所述查询词集合中统计所述提取的前缀为所述边界紧密的候选词的前缀,同时所述提取的后缀为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Ta;
第二统计单元,用于从所述查询词集合中统计所述提取的前缀为所述边界紧密的候选词的前缀,同时所述提取的后缀不为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Tb;
第三统计单元,用于从所述查询词集合中统计所述提取的前缀不为所述边界紧密的候选词的前缀,同时所述提取的后缀为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Tc;
第四统计单元,用于从所述查询词集合中统计所述提取的前缀不为所述边界紧密的候选词的前缀,同时所述提取的后缀不为所述边界紧密的候选词的后缀的查询词的查询次数,从所述统计的查询次数中选择最大的查询次数Td;
第二计算单元,用于根据所述最大的查询次数Ta、Tb、Tc和Td计算所述边界紧密的候选词的上下文对数似然比。
其特征在于,所述装置还包括:
统计模块,用于基于搜索引擎的查询日志,获取一段时间内用户查询的所有查询词,将所述获取的查询词组成所述查询词集合,将所述一段时间划分成n个时间片段,统计所述查询词集合中的查询词分别在n个时间片段内的查询次数。
所述装置还包括:
第三获取模块,用于从所述查询词集合中获取包括所述语义完整的候选语的查询词,计算所述语义完整的候选词在所述获取的查询词中的贡献值;
第一表意能力值计算模块,用于根据所述语义完整的候选词在所述获取的查询词中的贡献值和所述获取的查询词的个数,计算所述语义完整的候选词的第一表意能力值;
第二表意能力值计算模块,用于根据所述查询词集合中的查询词的查询次数,所述获取的查询词的查询次数以及所述语义完整的候选词的查询次数,计算所述语义完整的候选词的第二表意能力值;
表意能力值计算模块,用于根据所述语义完整的候选词的第一表意能力值和第二表意能力值,计算所述语义完整的候选词的表意能力值。
在本发明中,计算查询词的热度值并根据热度值获取候选词,可以将一段时间内受到一定关注的查询词作为候选词,屏蔽掉频率始终较高的常用词;根据候选词的语义参数获取语义完整的候选词,可以屏蔽到语义不完整的候选词;根据语义完整的候选词的表意能力值从语义完整的候选词中获取热点价值词,可以屏蔽掉语义价值不明确的候选词,从而使得获取的热点价值词中不会包含大量的常用词、语义不完整以及语义价值不强的词,从而减少热点价值词中的噪音词。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
如图1所示,本发明实施例提供了一种获取热点价值词的方法,包括:
步骤101:计算查询词集合中的查询词的热度值,根据查询词的热度值从查询词集合中获取候选词;
步骤102:根据获取的候选词的语义参数,获取语义完整的候选词;
步骤103:根据语义完整的候选词的表意能力值从语义完整的候选词中获取具有明确语义价值的热点价值词。
其中,步骤101、102和103的执行顺序可以不分先后。即在本实施例中,可以先从查询词集合中获取具有明确主义价值的词,再从明确主义价值的词中获取语义完整的词,最后计算语义完整的的热度值,并根据热度值获取热点价值词;或者,可以先从查询词集合中获取语义完整的词,再从语义完整的词中获取具有明确语义价值的词,最后计算具有明确语义价值的词的热度值,并根据热度值获取热点价值词等执行方式。
其中,如果先根据热度值从查询词集合中获取候选词,可以先去除查询词集合中的大量的噪音词,再从候选词中获取语义完整的词,可以进一步去除大量的噪音词,最后从语义完整的词中获取具有明确语义价值的热点价值词,可以提高获取热点价值词的效率。
在本发明实施例中,计算查询词的热度值并根据热度值获取候选词,可以将一段时间内受到一定关注的查询词作为候选词,屏蔽掉频率始终较高的常用词;根据候选词的语义参数获取语义完整的候选词,可以屏蔽到语义不完整的候选词;根据语义完整的候选词的表意能力值从语义完整的候选词中获取热点价值词,可以屏蔽掉语义价值不强的候选词,从而使得获取的热点价值词中不会包含大量的常用词、语义不完整以及语义价值不强的词,从而减少热点价值词中的噪音词。
实施例2
如图2所示,本发明实施例提供了一种获取热点价值词的方法,包括:
步骤201:对于任意一段时间,基于搜索引擎的查询日志,获取用户在该段时间内向搜索引擎提交的查询词,并组成查询词集合;
其中,用户在使用搜索引擎时,搜索引擎会将用户提交的查询词以及查询时间等信息记录在查询日志中。
例如,对于一段时间T,基于搜索引擎的查询日志,获取用户在时间段T内向搜索引擎提交的所有查询词Q1,Q2,...,Qx,再将获取的所有查询词组成查询词集合{Q1,Q2,...,Qx}。
步骤202:将该时间段划分成n个时间片段,基于搜索引擎的查询日志,统计查询词集合中的每个查询词分别在每个时间片段内被用户查询的查询次数;其中,n为大于或等于2的整数;
例如,将一段时间T划分成n个时间片段分别为T1,...,Tn,对于查询词集合{Q1,Q2,...,Qx}里的任一个查询词,假设查询词Query为查询词集合中{Q1,Q2,...,Qx}一个查询词,分别统计查询词Query在时间片段T1,...,Tn内被用户查询的查询次数分别为freQuery,1,...,freQuery,n。对于查询词集合{Q1,Q2,...,Qx}中其他的每个查询词也按与查询词Query相同的方法分别统计在时间片段T1,...,Tn内被用户查询的查询次数。
其中,由于搜索引擎具有大规模和时效性的特点,搜索日志能够在一个侧面反映用户群的信息需求和热点关注。所以在本实施例中,可以从搜索引擎的查询日志中获取一段时间内出现的、受到一定关注的且具有明确语义价值的热点价值词。
步骤203:根据每个查询词在每个时间片段的查询次数,计算每个查询词分别在第m至n个时间片段的热度值,将热度值超过预设第一阈值的查询词确定为候选词,其中,m为大于或等于2且小于或等于n的值;
其中,根据每个查询词在每个时间片段内被用户查询的查询次数,计算每个查询词分别在第m至n个时间片段的热度值的操作,可以包括如下三个步骤:
第一步,根据每个查询词在每个时间片段内被用户查询的查询次数,计算每个查询词分别在第m至n个时间片段的数学期望;
其中,可以按如下的公式(1)计算每个查询词的数学期望:
其中,在公式(1)中,freQuery,k为查询词Query在第k个时间片段内被用户查询的查询次数,i为大于或等于m且小于或等于n的区间内的值,k为大于或等于1且小于或等于i的区间内的值,Mean(Query,i)为查询词Query在第i个时间片段内的数学期望。
第二步,根据每个查询词在每个时间片段内被用户查询的查询次数和每个查询词分别在第m至n个时间片段的数学期望,计算每个查询词分别在第m至n个时间片段的方差;
其中,可以按如下的公式(2)计算每个查询词分别在第m至n个时间片段的方差:
其中,在公式(2)中,Var(Query,i)为查询词在第i个时间片段内的方差。
第三步,根据每个查询词在每个时间片段内被用户查询的查询次数以及每个查询词分别在第m至n个时间片段的数学期望和方差,计算每个查询词分别在第m至n个时间片段的热度值;
其中,可以按如下的公式(3)计算每个查询词分别在第m至n个时间片段的热度值:
其中,在公式(3)中,hot(Query,i)为查询词Query在第i个时间片段内的热度值。
其中,在公式(3)中,i为大于或等于m且小于或等于n的区间内的所有值,所以对于查询词Query具有(n-m+1)个热度值。对于查询词集合中的其他每个查询词也同查询词Query一样,按上述三步计算出其他每个查询词的(n-m+1)个热度值。
其中,由于查询词集合中的每个查询词都有(n-m+1)个热度值,在本实施例中,将存在热度值超过第一阈值的查询词确定为候选词。
其中,类似“姚明”这样的频率始终较高的词,用户每天搜索的次数基本保持不变,这样通过计算热度的方法计算出的热度值较低,所以可以去除这样的常见高频词。
步骤204:计算每个候选词的语言模型度量值,根据每个候选词的语言模型度量值从确定的候选词中获取内部结构紧密的候选词;
具体地,按如下(1)-(4)的步骤计算每个候选词的语言模型度量值,并确定出内部结构紧密的候选词,包括:
(1):基于搜索引擎的查询日志,针对任一个确定的候选词cand,计算候选词cand在该段时间内被用户查询的概率;
具体地,基于搜索引擎的查询日志,统计查询词集合中的所有查询词被用户查询的总查询次数,以及统计候选词cand被用户查询的查询次数,根据所有查询词被用户查询的总查询次数和候选词cand被用户查询的查询次数,计算候选词cand被用户查询的概率。
其中,候选词cand被用户查询的概率为候选cand被用户查询的查询次数与总查询次数的比值。
(2)对候选词cand进行划分得到候选词cand包括的所有分词组合(S1,,...,Sm),计算每个分词组合(S1,...,Sm)的概率P(S1,...,Sm);
具体地,对该候选词进行划分得到所有分词组合(S1,,...,Sm),对于每个分词组合(S1,,...,Sm),计算分词组合(S1,,...,Sm)内的每个分词Si的概率P(Si),将分词组合(S1,...,Sm)内每个分词Si的概率P(Si)的乘积作为分词组合的概率,即P(S1,...,Sm)=∏P(Si)。其中,i为1至m的区间内的所有值。
例如,假设候选词cand为“三国演义啊”,其中,“三国演义啊”的查询概率为P(cand),对候选词“三国演义啊”进行划分得到的分词组合(S1,...,Sm)可以包括(“三国演义”,“啊”)、(“三国”,“演义”,“啊”)和(“三国”,“演义啊”),其中,分词组合(“三国演义”,“啊”)的概率P1为分别“三国演义”的概率和“啊”的概率的乘积;分词组合(“三国”,“演义”,“啊”)的概率P2为“三国”的概率、“演义”的概率和“啊”的概率三者之间的乘积;分词组合“三国”,“演义啊”)的概率P3为“三国”的概率和“演义啊”的概率的乘积。
(3):根据候选词cand的查询概率以及候选词cand的每个分词组合的查询概率,计算候选词cand的语言模型度量值;
其中,可以按如下公式(4)计算查询词cand的语言模型度量值:
其中,在公式(4)中P(cand)为候选词cand被用户查询的概率,P(S1,...,Sm)为分词组合(S1,...Sm)的查询概率,LM(cand)为候选词cand的语言模型度量值。
其中,对于其他每个候选词同候选词cand相同,按上述(1)-(3)的步骤计算其他每个候选词的语言模型度量值。
(4):从确定的所有候选词中将语言模型度量值超过预设第二阈值的候选词确定为内部结构紧密的候选词。
步骤205:计算内部结构紧密的每个候选词的前缀边界熵和后缀边界熵,根据每个候选词的前缀边界熵和后缀边界熵获取边界紧密的候选词;
其中,边界紧密的候选词的语义较完整,不会与其他的词组成新的词,而边界松散的候选词语义都不完整,可以与其他的词组成新的词。例如,对于候选词“水浒在线观看”和“水浒在线”,候选词“水浒在线观看”的边界紧密且语义较完整;候选词“水浒在线”的边界松散且语义不完整,“水浒在线”可以与其他的词组成“水浒在线观看”或“水浒在线下载”等语义完整的词。
具体地,按如下(A)-(D)的步骤计算候选词的前缀边界熵和后缀边界熵,再获取边界紧密的候选词,包括:
(A),对于任一内部结构紧密的候选词cand,获取包括该候选词cand的所有查询词;
例如,假设候选词cand为“汶川地震”,则“四川汶川地震”和“汶川地震中的灾民”都为包括候选词“汶川地震”的查询词。
其中,需要说明的是:“四川汶川地震”为候选词“汶川地震”的前缀不为空的查询词,而“汶川地震中的灾民”为候选词“汶川地震”的前缀为空的查询词;“四川汶川地震”为候选词“汶川地震”的后缀为空的查询词,而“汶川地震中的灾民”为候选词“汶川地震”的后缀不为空的查询词。
(B),从获取的查询词中分类出候选词cand的前缀不为空的查询词以及前缀为空的查询词,计算候选cand的前缀边界熵;
具体地,基于搜索引擎的查询日志,统计候选词cand的前缀不为空的每个查询词的查询次数,以及统计候选词cand的前缀为空的所有查询词的查询次数,然后按如下的公式(5)计算候选词cand的前缀边界熵:
其中,在公式(5)中,Xi为候选词cand的前缀不为空的查询词,T(Xi)查询词Xi的查询次数,T为查询词集合的所有查询词的总查询次数,T(NULL)为候选词cand的前缀为空的所有查询词的查询次数;CEpre(cand)为候选词cand的前缀边界熵。
(C),从获取的查询词中分类出候选词cand的后缀不为空的查询词以及后缀为空的查询词,计算候选cand的后缀边界熵;
具体地,基于搜索引擎的查询日志,统计候选词cand的后缀不为空的每个查询词的查询次数,以及统计候选词cand的后缀为空的所有查询词的查询次数,然后按如下的公式(6)计算候选词cand的后缀边界熵:
其中,在公式(6)中,Yi为候选词cand的后缀不为空的查询词,T(Yi)查询词Yi的查询次数,T为查询词集合中的所有查询词的总查询次数,T(NULL)为候选词cand的后缀为空的所有查询的查询次数;CEpost(cand)为候选词cand的后缀边界熵。
其中,分别同候选词cand一样,按上述(A)-(C)的步骤计算其他每个候选词的前缀边界熵和后缀边界熵。
(D):从内部结构紧密的每个候选词中,将前缀边界熵超过预设第三阈值以及后缀边界熵超过预设第四阈值的候选词确定为边界紧密的候选词。
步骤206:计算边界紧密的每个候选词的上下文对数似然比,根据每个候选词的上下文对数据似然比获取语义完整的候选词;
具体地,按下(a)-(g)的步骤计算候选词的上下文对数似然比,以及获取语义完整的候选词,包括:
(a):针对一个候选词cand,获取候选词cand的前缀和后缀都不为空且查询次数最大的查询词,从该查询词中获取候选词cand的前缀pre和后缀post;
具体地,从查询词集合中获取包括候选词cand且候选词cand的前缀和后缀都不为空的查询词,基于搜索引擎的查询日志统计前缀和后缀都不为空的每个查询词的查询次数,选择查询次数最大的查询词,从选择的查询词中提取候选词cand的前缀pre和后缀post。
例如,对于查询词“四川汶川地震中的灾民”为候选词“汶川地震”的前缀和后缀都不为空的查询词,假设,候选词“汶川地震”的前缀和后缀都不为空且查询次数最大的查询词为“四川汶川地震中的灾民”,则从查询词“四川汶川地震中的灾民”中提取候选词“汶川地震”的前缀pre为“四川”以及后缀post为“中的灾民”。
(b):从查询词集合中统计提取的前缀pre为候选词cand的前缀,同时提取的后缀post为候选词cand的后缀的查询词的查询次数,从统计的查询次数中选择最大的查询次数Ta;
具体地,从查询词集合中获取提取的前缀pre为候选词cand的前缀,同时提取的后缀post为候选词cand的后缀的每个查询词,基于搜索引擎的查询日志,统计获取的每个查询词的查询次数,从统计的每个查询次数中选择最大的查询次数Ta。
(c):从查询词集合中统计提取的前缀pre为候选词cand的前缀,同时提取的后缀post不为候选词cand的后缀的所有查询词的查询次数,从统计的查询次数中选择最大的查询次数Tb;
具体地,从查询词集合中获取提取的前缀pre为候选词cand的前缀,同时提取的后缀post不为候选词cand的后缀的每个查询词,基于搜索引擎的查询日志,统计获取的每个查询词的查询次数,从统计的每个查询次数中选择最大的查询次数Tb。
(d):从查询词集合中统计提取的前缀pre不为候选词cand的前缀,同时提取的后缀post为候选词cand的后缀的所有查询词的查询次数,从统计的查询次数中选择最大的查询次数Tc;
具体地,从查询词集合中获取提取的前缀pre不为候选词cand的前缀,同时提取的后缀post为候选词cand的后缀的每个查询词,基于搜索引擎的查询日志,统计获取的每个查询词的查询次数,从统计的每个查询次数中选择最大的查询次数Tc。
(e):从查询词集合中统计提取的前缀pre不为候选词cand前缀,同时提取的后缀post不为候选词cand的后缀的所有查询词的查询次数,从统计的查询次数中选择最大的查询次数Td,
具体地,从查询词集合中获取提取的前缀pre不为候选词cand的前缀,同时提取的后缀post不为候选词cand的后缀的每个查询词,基于搜索引擎的查询日志,统计获取的每个查询词的查询次数,从统计的每个查询次数中选择最大的查询次数Td。
(f):根据最大的查询次数Ta、Tb、Tc和Td,按如下的公式(7)计算候选词cand的上下文对数似然比LLR(cand);
……(7)
其中,在公式(7)中,T为查询词集合中的每个查询词的查询次数,A为固定值。
其中,对于其他每个候选词分别与候选词cand一样,按上述(a)-(f)的步骤计算其他每个候选词的上下文对数似然比。
(g):从边界紧密的每个候选词中将上下文对数似然比超过预设第五阈值的候选词确定为语义完整的候选词。
其中,步骤204、205和206三个步骤的执行顺序可以不分先后。即在本实施例中,三个步骤可以同时进行,即同时计算每个候选词的语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比,并根据每个候选词的语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比获取语义完整的候选词;或者,可以先执行步骤205获取边界紧密的候选词,再执行206计算边界紧密的候选词的上下文对数似然比并根据上下文对数据似然比筛选边界紧密的候选词,最后执行步骤204计算剩下每个候选词的前缀边界熵和后缀界熵,并根据剩下每个候选词的前缀边界熵和后缀界熵筛选出语义完整的候选词等方式,本实施例对上述三个步骤的执行顺序不做限制。
步骤207:计算每个语义完整的候选词的表意能力值,根据每个候选词的表意能力值,从语义完整的候选词中获取具有明确语义价值的热点价值词。
具体地,可以按如下的(S1)-(S5)的步骤计算每个语义完整的候选词的表意能力值,并从语义完整的候选词中获取具有明确语义价值的热点价值词,包括:
(S1):针对任一个语义完整的候选词cand,从查询词集合中获取包括候选语cand的查询词,计算候选词cand在每个获取的查询词中的贡献值;
具体地,从查询词集合中获取包括候选词的cand的查询词,针对任一个获取的查询词Query,对查询词Query进行分词得到查询词Query包括的分词数Num(Query),根据查询词Query包括的分词数Num(Query)按如下的公式(8)计算候选词cand在查询词Query中的贡献值ide(cand,Query)。
其中,按上述相同的方法计算候选词cand在获取的其他每个查询词中的贡献值。
(S2):根据候选词cand在获取的每个查询词中的贡献值和获取的查询词的个数N,按如下的公式(9)计算候选词cand的第一表意能力值Ide(cand,Query);
其中,在公式(9)中Q为获取的每个查询词,Query为Q中的任一个查询词。
(S3):根据查询词集合中的所有查询词的查询次数之和T_total,获取的每个查询词的查询次数之和Q_total以及候选词的cand的查询次数T_cand,按如下的公式(10)计算候选词cand的第二表意能力值Wpro(cand);
(S4):根据候选词cand的第一表意能力值和第二表意能力值,按如下的公式(11)计算候选词cand的表意能力值Value(cand);
Value(cand)=λ×Ide(cand,Query)+(1-λ)×Wpro(cand)……(11)。
其中,对于其他语义完整的候选词按上述(S1)-(S4)的步骤,计算各自对应的表意能力值。
(S5):从所有语义完整的候选词中将表意能力值超过预设第六阈值的候选词确定为热点价值词。
在本发明实施例中,计算查询词的热度值并根据热度值获取候选词,可以将一段时间内受到一定关注的查询词作为候选词,屏蔽掉频率始终较高的常用词;根据候选词的语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比获取语义完整的候选词,可以屏蔽到语义不完整的候选词;根据语义完整的候选词的表意能力值从语义完整的候选词中获取具有明确语义价值的热点价值词,可以屏蔽掉语义价值不明确的候选词,从而使得获取的热点价值词中不会包含大量的常用词、语义不完整以及语义价值不明确定的噪音词,从而减少热点价值词中的噪音词。
实施例3
如图3所示,本发明实施例提供了一种获取热点价值词的装置,包括:
计算模块301,用于计算查询词集合中的查询词的热度值,根据查询词的热度值从查询词集合中获取候选词;
第一获取模块302,用于根据候选词的语义参数,获取语义完整的候选词;
第二获取模块303,用于根据语义完整的候选词的表意能力值从语义完整的候选词中获取具有明确语义价值的热点价值词。
其中,计算模块301包括:
第一计算单元,用于根据查询词分别在n个时间片段内的查询次数,计算查询词分别在第m至n个时间片段内的热度值;
第一确定单元,用于从查询词集合中将热度值超过预设第一阈值的查询词确定为候选词;其中,n为大于或等于2的整数,m为大于或等于2且小于或等于n的整数。
其中,第一计算单元包括:
第一计算子单元,用于根据查询词分别在n个时间片段内的查询次数,计算查询词分别在第m至n个时间片段内的数学期望;
第二计算子单元,用于根据查询词分别在n个时间片段内的查询次数以及查询词分别在第m至n个时间片段内的数学期望,计算查询词分别在第m至n个时间片段内的方差;
第三计算子单元,用于根据查询词分别在n个时间片段内的查询次数以及查询词分别在第m至n个时间片段内的数学期望和方差,计算查询词分别在第m至n个时间片段内的热度值。
其中,语义参数至少包括语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比;
相应地,第一获取模块302,具体用于将语言模型度量值超过预设第二阈值、前缀边界熵超过预设第三阈值、后缀边界熵超过第四阈值以及上下文对数似然比超过第五阈值的候选词确定为语义完整的候选词。
进一步地,第一获取模块302还包括:
语言模型度量值计算单元,用于计算候选词的查询概率,对候选词进行划分得到候选词包括的分词组合,计算分词组合的查询概率,根据候选词的查询概率和分词组合的查询概率计算候选词的语言模型度量值。
其中,语言模型度量值超过预设第二阈值的候选词为内部结构紧密的候选词,进一步地,第一获取模块302还包括:
前缀边界熵计算单元,用于获取包括内部结构紧密的候选词的查询词,从获取的查询词中分类出内部结构紧密的候选词的前缀不为空的查询词和前缀为空的查询词,根据前缀不为空的查询词和前缀为空的查询词计算内部结构紧密的候选词的前缀边界熵;
后缀边界熵计算单元,用于从获取的查询词中分类出内部结构紧密的候选词的后缀不为空的查询词和后缀为空的查询词,根据后缀不为空的查询词和后缀为空的查询词计算内部结构紧密的候选词的后缀边界熵。
其中,前缀边界熵超过预设第三阈值且后缀边界熵超过预设第四阈值的候选词为边界紧密的候选词,进一步地,第一获取模块302还包括:
提取单元,用于获取边界紧密的候选词的前缀和后缀都不为空且查询次数最大的查询词,从获取的查询词中提取边界紧密的候选词的前缀和后缀;
第一统计单元,用于从查询词集合中统计提取的前缀为边界紧密的候选词的前缀,同时提取的后缀为边界紧密的候选词的后缀的查询词的查询次数,从统计的查询次数中选择最大的查询次数Ta;
第二统计单元,用于从查询词集合中统计提取的前缀为边界紧密的候选词的前缀,同时提取的后缀不为边界紧密的候选词的后缀的查询词的查询次数,从统计的查询次数中选择最大的查询次数Tb;
第三统计单元,用于从查询词集合中统计提取的前缀不为边界紧密的候选词的前缀,同时提取的后缀为边界紧密的候选词的后缀的查询词的查询次数,从统计的查询次数中选择最大的查询次数Tc;
第四统计单元,用于从查询词集合中统计提取的前缀不为边界紧密的候选词的前缀,同时提取的后缀不为边界紧密的候选词的后缀的查询词的查询次数,从统计的查询次数中选择最大的查询次数Td;
第二计算单元,用于根据最大的查询次数Ta、Tb、Tc和Td计算边界紧密的候选词的上下文对数似然比。
进一步地,该装置还包括:
统计模块,用于基于搜索引擎的查询日志,获取一段时间内用户查询的所有查询词,将获取的查询词组成查询词集合,将段时间划分成n个时间片段,统计查询词集合中的查询词分别在n个时间片段内的查询次数。
进一步地,该装置还包括:
第三获取模块,用于从查询词集合中获取包括语义完整的候选语的查询词,计算语义完整的候选词在获取的查询词中的贡献值;
第一表意能力值计算模块,用于根据语义完整的候选词在获取的查询词中的贡献值和获取的查询词的个数,计算语义完整的候选词的第一表意能力值;
第二表意能力值计算模块,用于根据查询词集合中的查询词的查询次数,获取的查询词的查询次数以及语义完整的候选词的查询次数,计算语义完整的候选词的第二表意能力值;
表意能力值计算模块,用于根据语义完整的候选词的第一表意能力值和第二表意能力值,计算语义完整的候选词的表意能力值。
在本发明实施例中,计算查询词的热度值并根据热度值获取候选词,可以将一段时间内受到一定关注的查询词作为候选词,屏蔽掉频率始终较高的常用词;根据候选词的语言模型度量值、前缀边界熵、后缀边界熵和上下文对数似然比获取语义完整的候选词,可以屏蔽到语义不完整的候选词;根据语义完整的候选词的表意能力值从语义完整的候选词中获取热点价值词,可以屏蔽掉语义价值不强的候选词,从而使得获取的热点价值词中不会包含大量的常用词、语义不完整以及语义价值不强的词,从而减少热点价值词中的噪音词。
需要说明的是:上述实施例提供的一种获取热点价值词的装置在获取热点价值词时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供获取热点价值词的装置与获取热点价值词的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。