CN105677664A - 基于网络搜索的紧密度确定方法及装置 - Google Patents

基于网络搜索的紧密度确定方法及装置 Download PDF

Info

Publication number
CN105677664A
CN105677664A CN201410665320.9A CN201410665320A CN105677664A CN 105677664 A CN105677664 A CN 105677664A CN 201410665320 A CN201410665320 A CN 201410665320A CN 105677664 A CN105677664 A CN 105677664A
Authority
CN
China
Prior art keywords
word
ness rating
pattern
tight ness
described word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410665320.9A
Other languages
English (en)
Other versions
CN105677664B (zh
Inventor
刘安安
王迪
赵琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410665320.9A priority Critical patent/CN105677664B/zh
Publication of CN105677664A publication Critical patent/CN105677664A/zh
Application granted granted Critical
Publication of CN105677664B publication Critical patent/CN105677664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于网络搜索的紧密度确定方法,包括:接收网络搜索请求;对所述网络搜索请求中的检索串进行分词处理,获得所述检索串的词语对;从预先计算的紧密度词典中获取与所述词语对匹配的紧密度分值及词语对的点击次数;根据所述词语对的点击次数,对所述词语对的紧密度分值进行相应的加权计算,获得所述词语对的紧密度。本发明还公开一种基于网络搜索的紧密度确定装置。本发明在收到网络搜索请求时可以快速地确定各词语对的紧密度,而且还避免了网络搜索请求的检索串中语义紧密的词语对在文档中分散命中时出现语义漂移的现象。

Description

基于网络搜索的紧密度确定方法及装置
技术领域
本发明涉及网络技术领域,尤其涉及基于网络搜索的紧密度确定方法及装置。
背景技术
随着互联网的快速发展,人们可以快速地浏览互联网上的信息。尤其是搜索引擎的发展,只要人们在搜索引擎的搜索框中输入检索串后,搜索引擎就可以根据检索词搜索互联网上与检索词匹配的页面,供用户访问,极大地方便了用户的信息获取。
但是现有技术中,若搜索引擎中无法准确地确定检索串中各检索词之间的紧密度时,给用户提供的检索结果无法满足要求。因此,网络搜索中紧密度的确定至关重要。
发明内容
本发明实施例的主要目的在于提供一种基于网络搜索的紧密度确定方法和装置,旨在解决现有技术中网络搜索时的紧密度确定不准确而导致搜索结果无法满足用户要求的技术问题。
为实现上述目的,本发明实施例提供了一种基于网络搜索的紧密度确定方法,包括:
接收网络搜索请求;
对所述网络搜索请求中的检索串进行分词处理,获得所述检索串的词语对;
从预先计算的紧密度词典中获取与所述词语对匹配的紧密度分值及词语对的点击次数;
对所述词语对的紧密度分值进行加权计算,获得所述词语对的紧密度。
此外,为实现上述目的,本发明实施例还提供了一种基于网络搜索的紧密度确定装置,包括:
接收模块,用于接收网络搜索请求;
分词模块,用于对所述网络搜索请求中的检索串进行分词处理,获得所述检索串的词语对;
紧密度分值获取模块,用于从预先计算的紧密度词典中获取与所述词语对匹配的紧密度分值及词语对的点击次数;
紧密度计算模块,用于对所述词语对的紧密度分值进行加权计算,获得所述词语对的紧密度。
本发明实施例通过预先设置紧密度词典,在接收到网络搜索请求时,先对网络搜索请求中的检索串进行分词处理,然后根据紧密度词典中与词语对匹配的紧密度分值及词语对的次数,最后再根据词语对匹配的紧密度分值,计算该词语对的紧密度。由于预先生成了紧密度词典,因此在收到网络搜索请求时可以快速地确定各词语对的紧密度。另外,由于该紧密度词典是基于用户的点击日志而生成的,因此该词语对的紧密度的确定,避免了网络搜索请求的检索串中语义紧密的词语对在文档中分散命中时出现语义漂移的现象。
附图说明
图1为本发明基于网络搜索的紧密度确定方法一实施例的流程示意图;
图2为本发明预先计算的紧密度词典的生成方法的流程示意图;
图3为本发明预先计算的紧密度词典的生成方法中根据所述三元组信息,获得词语对在不同模式时,词语对在页面标题中的紧密命中次数之和、词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和的细化流程示意图;
图4为本发明基于网络搜索的紧密度确定方法中,根据词语对的紧密度分值生成词语对的紧密度的细化流程示意图;
图5为本发明基于网络搜索的紧密度确定方法所应用的服务器的硬件架构示意图;
图6为本发明基于网络搜索的紧密度确定装置一实施例的功能模块示意图;
图7为本发明基于网络搜索的紧密度确定装置另一实施例中紧密度词典生成模块的功能模块示意图;
图8为本发明基于网络搜索的紧密度确定装置中次数计算单元的细化功能模块示意图;
图9为本发明基于网络搜索的紧密度确定装置中紧密度计算模块的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的核心思想是:在搜索引擎中,接收到用户输入的搜索词时,将搜索与搜索词匹配的页面,并基于用户输入的搜索词与页面的匹配程度对搜索到的页面进行排序,然后返回给用户。为了提供给用户最需要的信息,本发明提出了一种紧密度的确定方法,即获取用户输入的搜索词之间的紧密度,以使搜索引擎根据该紧密度高的搜索词,准确获得用户输入的搜索词与页面的匹配程度。
如图1所示,示出了本发明一种基于网络搜索的紧密度确定方法。该实施例的基于网络搜索的紧密度确定方法包括以下步骤:
步骤S110、接收网络搜索请求;
首先,用户打开搜索引擎页面。然后,用户在页面的搜索框中输入相应的检索词,并触发“搜索”控件。此时终端将侦测到搜索引擎页面的搜索操作,并获取该搜索引擎页面的搜索框中的检索词,生成携带有该检索词的网络搜索请求。终端将该生成的网络搜索请求发送至搜索服务器。
步骤S120、对网络搜索请求中的检索串进行分词处理,获得所述检索串的词语对;
对所述检索串query进行分词处理,获得该检索串query的分词结果中任意相邻的两个词语,形成词语对。该分词处理可以由检索串query从左向右,进行句法、语义分析,将检索串query分成多个字符串。若该检索串为多个字符串组成,且字符串之间具有空格时,则按照空格对其进行分词,同时再对每个字符串再进行分词。另外,若该检索串存在不符合要求的字符,例如标点符号“,”、“?”或者“-”等,则自动将其去除后再进行分词处理。
步骤S130、从预先计算的紧密度词典中获取与所述词语对匹配的紧密度分值和词语对的点击次数;
本发明实施例中,将预先生成一紧密度词典,该紧密度词典包括词语对在全上下文模式、单上文模式、单下文模式、无上下文模式下的紧密度分值及词语对的点击次数。该紧密度词典的生成依据为搜索服务器所统计的用户点击日志。用户通过搜索引擎所搜索的页面触发的每次点击,服务器均将生成点击日志。
步骤S140、根据所述词语对的点击次数,对所述词语对的紧密度分值进行相应的加权计算,获得所述词语对的紧密度。
本发明实施例计算词语对的紧密度的规则如下:
(1)在优先级上,全上下文(allContextBigram)紧密度>单上下文(aboveBigram,belowBigram)紧密度>无上下文(noContextBigram)紧密度;
(2)词语对的点击次数Cclick(ALL)的值越高,该词语对的模式ContextBigram的可信度越高;当Cclick(ALL)大于或等于预设阈值ClickThrould时,该ContextBigram完全可信。
本发明实施例通过预先设置紧密度词典,在接收到网络搜索请求时,先对网络搜索请求中的检索串进行分词处理,然后根据紧密度词典中与词语对匹配的紧密度分值及词语对的次数,最后再根据词语对匹配的紧密度分值,计算该词语对的紧密度。由于预先生成了紧密度词典,因此在收到网络搜索请求时可以快速地确定各词语对的紧密度。另外,由于该紧密度词典是基于用户的点击日志而生成的,因此该词语对的紧密度的确定,避免了网络搜索请求的检索串中语义紧密的词语对在文档中分散命中时出现语义漂移的现象。
进一步地,如图2所示,上述预先计算的紧密度词典的生成方法可包括以下步骤:
步骤S210、根据用户的网络搜索点击日志,统计依据所搜索的检索串进行检索,且在检索页面中点击的页面标题对应的点击次数,获得三元组信息;
用户每次在搜索引擎界面中的点击数据都将会自动存储至搜索引擎的后台数据库中,形成用户点击日志。例如:用户输入“北京大学”,且用户在搜索结果页面中点击了第一个搜索结果,该搜索结果的标题anchor为“北京大学-PekingUniversity”,则将该标题被点击的次数click_num加1,并形成三元组query=北京大学、anchor=北京大学-PekingUniversity、click_num。若该标题的页面是在通过“北京大学”进行搜索后的搜索结果中被点击的,则累加次数click_num加1。需要说明的是,该click_num的统计仅与点击有关,只要被点击,就算1次点击次数。例如,若同一用户通过“北京大学”进行搜索后,在搜索结果中点击了2次该页面,则该页面的点击次数为2次。
步骤S220、根据所述三元组信息,累加获得词语对分别在全上下文模式、单上文模式、单下文模式、无上下文模式时,所述词语对在页面标题中的紧密命中次数之和、所述词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和;
对所述三元组信息中的词语对与页面标题进行匹配,确定并输出所述检索串的词语对在无上下文模式、单上下文模式、全上下文模式时,该检索串query的词语对在anchor中的紧密命中次数、该检索串query的词语对的两个词语都在anchor中的次数、该检索串query的词语对的点击次数。然后,统计词语对处于同一模式下,所述词语对在页面标题中的紧密命中次数之和、所述词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和。
其中无上下文模式是指该检索串query的词语对在页面标题中出现,且紧密命中;单上下文模式是指该检索串query的词语对在页面标题中出现,且该词语对的上文或下文与该词语对之间还具有其他词语;全上下文模式是指该检索串query的词语对在页面标题中出现,且该词语对的上文及下文与该词语对之间均具有其他词语。
步骤S230、按照预设的计算公式,根据词语对在页面标题中的紧密命中次数之和、所述词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和,计算获得所述词语对分别在全上下文模式、单上文模式、单下文模式、无上下文模式时的紧密度分值;
本实施例中,预设的计算公式为:
adjoin ( Key ) = λ × C click ( BC ) C click ( B , C ) + ( 1 + λ ) × C click ( BC ) C click ( ALL )
其中,adjoin(Key)为该key的紧密度分值。为当B和C同时命中,紧密命中的概率。为词语对BC在页面标题anchor中紧密命中的概率,因为Cclick(ALL)除了包含Cclick(B,C)之外,还包含了B或C没有在页面标题anchor中命中的情况,即考虑到了词语对BC在检索串query中的重要程度。λ为预先设置的常数。
依照上述方式,计算该词语对BC在无上下文模式、单上下文模式、全上下文模式时的紧密度分值。
步骤S240、根据所述词语对分别在全上下文模式、单上文模式、单下文模式、无上下文模式时的紧密度分值及点击次数,生成紧密度词典。
根据步骤S230计算获得的紧密度分值,生成紧密度词典。如下表1所示:
表1.紧密度词典
Key Value
B C adjoin(Key),Cclick(Key)
A TAB B C adjoin(Key),Cclick(Key)
B C TAB D adjoin(Key),Cclick(Key)
A TAB B C TAB D adjoin(Key),Cclick(Key)
需要说明的是,由于搜索点击日志数据量非常大,很难较快的使用单台机器完成计算过程,因此本实施例中将利用mapreduce机群进行计算,即包括map阶段及reduce阶段。在map阶段需要对检索串query和页面标题anchor进行分词,下发检索串query的各词语对在ContextBigram的统计值;在reduce阶段合并map阶段的输出,计算并输出词语对的紧密度分值。
进一步地,如图3所示,上述步骤S220包括:
步骤S221、对所述三元组信息中的检索串及点击的页面标题进行分词处理,分别获得检索串的词语对及页面标题的分词结果;
首先,对所述检索串query进行分词处理,获得该检索串query的分词结果中任意相邻的两个词语,形成词语对。该分词处理可以由检索串query从左向右,进行句法、语义分析,将检索串query分成多个字符串。例如“北京大学”将分成“北京”和“大学”两个词;“goodmorning”将分成“good”和“morning”。若该检索串为多个字符串组成,且字符串之间具有空格时,则按照空格对其进行分词,同时再对每个字符串再进行分词。例如“北京大学英语招生”将分成“北京”、“大学”、“英语”、“招生”。另外,若该检索串存在不符合要求的字符,例如标点符号“,”、“?”或者“-”等,则自动将其去除后再进行分词处理。然后,按照上述检索串query的分词规则对页面标题anchor进行分词处理,获得页面标题anchor的分词结果。
步骤S222、根据所述词语对及页面标题的分词结果,获得词语对在全上下文模式、单上文模式、单下文模式、无上下文模式时,所述词语对在页面标题中的紧密命中次数、所述词语对的两个词语都在页面标题中的次数、所述词语对的点击次数;
一示例中,检索串query的分词结果为A、B、C、D,且该词语对为BC,该词语对BC的上文为A,该词语对BC的下文为D。因此,BC为该词语对的无上下文模式,ATABBC为该词语对的单上文模式,BCTABD为该词语对的单下文模式,ATABBCTABD为该词语对的全上下文模式。
根据检索串query的词语对在页面标题中出现的情况确定每个模式下,该词语对在页面标题anchor中的紧密命中次数、该检索串query的词语对的两个词语都在页面标题anchor中的次数,该检索串query的词语对的点击次数。以词语对bigram(B,C)为例,具体的计算方式如下表2所示:
表2.词语对BC的页面标题命中情况
依照上述方法,可计算获得词语对BC在无上下文模式、单上下文模式、全上下文模式时的Cclick(BC)、Cclick(B,C)、Cclick(Key)。具体如下表3所示:
表3.词语对BC在各模式下的页面标题命中情况
Key Value
B C Cclick(BC),Cclick(B,C),Cclick(Key)
A TAB B C Cclick(BC),Cclick(B,C),Cclick(Key)
B C TAB D Cclick(BC),Cclick(B,C),Cclick(Key)
A TAB B C TAB D Cclick(BC),Cclick(B,C),Cclick(Key)
步骤S223、将所述词语对同一模式下时,所述词语对在页面标题中的紧密命中次数、所述词语对的两个词语都在页面标题中的次数、所述词语对的点击次数对应进行累加,获得所述词语对同一模式下时,所述词语对在页面标题中的紧密命中次数之和、所述词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和。
具体为:如上表3所示,词语对的同一模式标记为一个key,以便于步骤S204的次数累加计算。以bigram(B,C)为例,将属于同一key的Cclick(BC)进行累加,将属于同一key的Cclick(B,C)进行累加,将属于同一key的Cclick(Key)进行累加。
进一步地,如图4所示,上述步骤S130可包括以下步骤:
步骤S131、判断词语对在全上下文模式时的点击次数是否大于或等于预设的阈值;若是,则转入步骤S132;否则转入步骤S133;
由于词语对在全上下文模式时的点击次数越高,则认为该词语对在全上下文模式时的可信度越高。因此本发明实施例将设置一阈值,用于限定可信阈值。当词语对在全上下文模式时的点击次数大于或等于该阈值时,则认为该词语对在全上下文模式完全可信。
步骤S132、将该词语对在全上下文模式的紧密度分值作为该词语对的紧密度;
当词语对在全上下文模式时的点击次数大于或等于预设的阈值时,则将该词语对在全上下文模式时的紧密度分值作为该词语对的紧密度。以词语对BC为例,即score(B,C)=adjoin(allContextBigram(B,C))。
步骤S133、判断词语对在单上文模式时的点击次数与该词语对在单下文模式时的点击次数之和是否大于或等于预设的阈值;若是,则转入步骤S134;否则转入步骤S135;
当该词语对在全上下文模式时的点击次数小于阈值时,则计算词语对在单上文模式时的点击次数与该词语对在单下文模式时的点击次数之和num,然后判断该num是否大于或等于预设的阈值。
步骤S134、对所述词语对在全上下文模式的紧密度分值、该词语对在单上文模式的紧密度分值与该词语对在单下文模式的紧密度分值进行加权计算,获得该词语对的紧密度;
当词语对在单上文模式时的点击次数与该词语对在单下文模式时的点击次数之和num大于或等于预设阈值时,将所述词语对在全上下文模式的紧密度分值及该词语对在单上下文的紧密度分值与该词语对在单下文模式的紧密度分值进行加权计算,获得该词语对的紧密度。以词语对BC为例,具体加权计算过程如下:
第一,按如下公式计算词语对在全上下文模式的紧密度分值的权重λ1
λ 1 = Cclick ( allContextBigram ( B , C ) ) ClickThrould
其中,公式的分子为词语对BC在全上下文模式时的点击次数,分母为阈值。根据λ1,计算词语对BC在单上下文模式的紧密度分值的权重值λ2=1-λ1
第二,根据词语对BC在单上下文模式的紧密度分值的权重值λ2,计算词语对BC在单上文模式的紧密度分值及词语对BC在单下文模式的紧密度分值的权重:
k 1 = λ 2 × Cclick ( aboveBigram ( B , C ) ) Cclick ( aboveBigram ( B , C ) ) + Cclick ( belowBigram ( B , C ) )
k 2 = λ 2 × Cclick ( belowBigram ( B , C ) ) Cclick ( aboveBigram ( B , C ) ) + Cclick ( belowBigram ( B , C ) )
其中,k1为词语对BC在单上文模式的紧密度分值的权重值,k2为词语对BC在单下文模式的紧密度分值的权重值。
第三,对所述词语对BC在全上下文模式的紧密度分值、词语对BC在单上下文模式的紧密度分值进行加权计算,获得词语对的紧密度:
score(B,C)=λ1*adjoin(allContextBigram(B,C))+λ2*(k1*adjoin(aboveBigram(B,C))+k2*adjoin(belowBigram(B,C)))
其中,adjoin(allContextBigram(B,C))为词语对BC在全上下文模式的紧密度分值,adjoin(aboveBigram(B,C))为词语对BC在单上文模式的紧密度分值,adjoin(belowBigram(B,C))为词语对BC在单下文模式的紧密度分值。
步骤S135、对所述词语对在全上下文模式的紧密度分值、该词语对在单上文模式的紧密度分值、该词语对在单下文模式的紧密度分值和该词语对在无上下文模式的紧密度分值进行加权计算,获得该词语对的紧密度。
当词语对在单上文模式时的点击次数与该词语对在单下文模式时的点击次数之和num小于预设阈值时,将所述词语对在全上下文模式的紧密度分值、该词语对在单上下文的紧密度分值、该词语对在单下文模式的紧密度分值及该词语对在无上下文模式的紧密度分值进行加权计算,获得该词语对的紧密度。以词语对BC为例,具体加权计算过程如下:
第一,按照上述步骤S134中的方式,计算词语对BC在全文上下模式下的紧密度分值的权重λ1;然后按照以下公式计算词语对BC在单上下文模式的紧密度分值:
λ 2 = ( 1 - λ 1 ) × Cclick ( aboveBrigram ( B , C ) ) + Cclick ( belowBigram ( B , C ) ) ClickThrould
其中,Cclick(aboveBrigram(B,C))为词语对BC在单上文模式的点击次数,Cclick(belowBrigram(B,C))为词语对BC在单下文模式的点击次数。
第二,按照上述步骤S134的方式,根据前一步计算获得的λ2,计算词语对在单上文模式的紧密度分值的权重k1及词语对在单下文模式的紧密度分值的权重k2。
第三,根据计算所获得的λ1和λ2,按照以下公式计算获得无上下文模式的紧密度分值的权重λ3:λ3=(1-λ1-λ2)
其中,Cclick(noContextBrigram(B,C))为词语对BC在无上下文的点击次数,CclickThrould为阈值。
第四,根据上述所计算的各紧密度分值的权重值,对各紧密度分值进行加权计算,获得词语对最终的紧密度:
score(B,C)=λ1*adjoin(allContextBigram(B,C))+λ2*(k1*adjoin(aboveBigram(B,C))+k2*adjoin(belowBigram(B,C)))+λ3*adjoin(noContextBigram(B,C))
其中,adjoin(noContextBigram(B,C))为词语对BC在无上下文模式的紧密度分值。
对应地,本发明还提供了一种基于网络搜索的紧密度确定装置。该紧密度确定装置可以独立设置,也可以设置在网络搜索的服务器中,以为网络搜索提供检索串中词语对的紧密度,从而使得服务器根据该确定的紧密度,对搜索到的页面标题进行排序。如图5所示,示出了本发明服务器的硬件架构。该服务器包括:处理器101、存储器102、通讯模块103以及通信总线105。其中通信总线105用于该电子设备中各组成部件之间的通信。通讯模块103用于实现服务器与外部设备进行互相通讯,例如根据用户的网络搜索请求,搜索网络信息等等。该通讯模块103可包括RS232模块、射频模块、WIFI模块等等。存储器102可以包括一个或一个以上计算机可读存储介质,而且其不但包括内部存储器,还包括外部存储器。该存储器102中存储有操作系统及电子书浏览系统等等。处理器101调用存储器102中的紧密度确定装置以及其他组件,以实现网络搜索请求的检索串中词语对对应的紧密度。
如图6所示,上述紧密度确定装置可包括:
接收模块110,用于接收网络搜索请求;
分词模块120,用于对所述网络搜索请求中的检索串进行分词处理,获得所述检索串的词语对;
紧密度分值获取模块130,用于从预先计算的紧密度词典中获取与所述词语对匹配的紧密度分值及词语对的点击次数;
紧密度计算模块140,用于根据所述词语对的点击次数,对所述词语对的紧密度分值进行相应的加权计算,获得所述词语对的紧密度。
首先,用户打开搜索引擎页面。然后,用户在页面的搜索框中输入相应的检索词,并触发“搜索”控件。此时终端将侦测到搜索引擎页面的搜索操作,并获取该搜索引擎页面的搜索框中的检索词,生成携带有该检索词的网络搜索请求。终端将该生成的网络搜索请求发送至搜索服务器。服务器的接收模块110通过通讯模块103接收该网络搜索请求。
分词模块120对所述检索串query进行分词处理,获得该检索串query的分词结果中任意相邻的两个词语,形成词语对。该分词处理可以由检索串query从左向右,进行句法、语义分析,将检索串query分成多个字符串。若该检索串为多个字符串组成,且字符串之间具有空格时,则按照空格对其进行分词,同时再对每个字符串再进行分词。另外,若该检索串存在不符合要求的字符,例如标点符号“,”、“?”或者“-”等,则自动将其去除后再进行分词处理。
紧密度分值获取模块130中所获取的词语对的紧密度分值及词语对的点击次数将由预先生成的紧密度词典中获取。紧密度词典可包括:根据用户的网络搜索点击日志统计用户所搜索的检索串的词语对在全上下文模式、单上文模式、单下文模式、无上下文模式时的紧密度分值和词语对的点击次数。该紧密度词典的生成依据为搜索服务器所统计的用户点击日志。用户通过搜索引擎所搜索的页面触发的每次点击,服务器均将生成点击日志。
紧密度计算模块140计算词语对的紧密度的规则如下:
(1)在优先级上,全上下文(allContextBigram)紧密度>单上下文(aboveBigram,belowBigram)紧密度>无上下文(noContextBigram)紧密度;
(2)Cclick(ALL)的值越高,该ContextBigram的可信度越高;当Cclick(ALL)大于或等于ClickThrould时,该ContextBigram完全可信。
本发明实施例通过预先设置紧密度词典,在接收到网络搜索请求时,先对网络搜索请求中的检索串进行分词处理,然后根据紧密度词典中与词语对匹配的紧密度分值及词语对的次数,最后再根据词语对匹配的紧密度分值,计算该词语对的紧密度。由于预先生成了紧密度词典,因此在收到网络搜索请求时可以快速地确定各词语对的紧密度。另外,由于该紧密度词典是基于用户的点击日志而生成的,因此该词语对的紧密度的确定,避免了网络搜索请求的检索串中语义紧密的词语对在文档中分散命中时出现语义漂移的现象。
进一步地,如图7所示,上述紧密度确定装置还可包括:紧密度词典生成模块150,其中所述紧密度词典生成模块150包括:
三元组信息获取单元151,用于根据用户的网络搜索点击日志,统计依据所搜索的检索串进行检索,且在检索页面中点击的页面标题对应的点击次数,获得三元组信息;
次数计算单元152,用于根据所述三元组信息,累加获得词语对分别在全上下文模式、单上文模式、单下文模式、无上下文模式时,所述词语对在页面标题中的紧密命中次数之和、所述词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和;
紧密度分值计算单元153,用于按照预设的计算公式,根据词语对在页面标题中的紧密命中次数之和、所述词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和,计算获得所述词语对分别在全上下文模式、单上文模式、单下文模式、无上下文模式时的紧密度分值;
紧密度词典生成单元154,用于根据所述词语对分别在全上下文模式、单上文模式、单下文模式、无上下文模式时的紧密度分值及点击次数,生成紧密度词典。
进一步地,如图8所示,上述次数计算单元152可包括:
分词子单元1521,用于对所述三元组信息中的检索串及点击的页面标题进行分词处理,分别获得检索串的词语对及页面标题的分词结果;
次数获取子单元1522,用于根据所述词语对及页面标题的分词结果,获得词语对在全上下文模式、单上文模式、单下文模式、无上下文模式时,所述词语对在页面标题中的紧密命中次数、所述词语对的两个词语都在页面标题中的次数、所述词语对的点击次数;
累加子单元1523,用于将所述词语对同一模式下时,所述词语对在页面标题中的紧密命中次数、所述词语对的两个词语都在页面标题中的次数、所述词语对的点击次数对应进行累加,获得所述词语对同一模式下时,所述词语对在页面标题中的紧密命中次数之和、所述词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和。
进一步地,如图9所示,上述紧密度计算模块140包括:
第一判断单元141,用于判断所述词语对在全上下文模式的点击次数是否大于或等于预设阈值;
第一计算单元142,用于当所述词语对在全上下文模式的点击次数大于或等于预设阈值时,将所述词语对在全上下文模式的紧密度分值作为所述词语对的紧密度;
第二判断单元143,用于当所述词语对在全上下文模式的点击次数小于预设阈值时,判断所述词语对在单上文模式的点击次数和所述词语对在单下文模式的点击次数之和是否大于或等于预设阈值;
第二计算单元144,用于当所述词语对在单上文模式的点击次数和所述词语对在单下文模式的点击次数之和大于或等于预设阈值时,对所述词语对在全上下文模式的紧密度分值、所述词语对在单上文模式的紧密度分值、所述词语对在单下文模式的紧密度分值进行加权计算,获得所述词语对的紧密度;
第三计算单元145,用于当所述词语对在单上文模式的点击次数和所述词语对在单下文模式的点击次数之和小于预设阈值时,对所述词语对在全上下文模式的紧密度分值、所述词语对在单上文模式的紧密度分值、所述词语对在单下文模式的紧密度分值、所述词语对在无上下文模式的紧密度分值进行加权计算,获得所述词语对的紧密度。
以上所述仅为本发明的优选实施例,并非因此限制其专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于网络搜索的紧密度确定方法,其特征在于,所述基于网络搜索的紧密度确定方法包括以下步骤:
接收网络搜索请求;
对所述网络搜索请求中的检索串进行分词处理,获得所述检索串的词语对;
从预先计算的紧密度词典中获取与所述词语对匹配的紧密度分值及词语对的点击次数;
根据所述词语对的点击次数,对所述词语对的紧密度分值进行相应的加权计算,获得所述词语对的紧密度。
2.如权利要求1所述的基于网络搜索的紧密度确定方法,其特征在于,所述紧密度词典包括:根据用户的网络搜索点击日志统计用户所搜索的检索串的词语对在全上下文模式、单上文模式、单下文模式、无上下文模式时的紧密度分值和词语对的点击次数。
3.如权利要求2所述的基于网络搜索的紧密度确定方法,其特征在于,所述紧密度词典的生成方法包括:
根据用户的网络搜索点击日志,统计依据所搜索的检索串进行检索,且在检索页面中点击的页面标题对应的点击次数,获得三元组信息;
根据所述三元组信息,累加获得词语对分别在全上下文模式、单上文模式、单下文模式、无上下文模式时,所述词语对在页面标题中的紧密命中次数之和、所述词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和;
按照预设的计算公式,根据词语对在页面标题中的紧密命中次数之和、所述词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和,计算获得所述词语对分别在全上下文模式、单上文模式、单下文模式、无上下文模式时的紧密度分值;
根据所述词语对分别在全上下文模式、单上文模式、单下文模式、无上下文模式时的紧密度分值及点击次数,生成紧密度词典。
4.如权利要求3所述的基于网络搜索的紧密度确定方法,其特征在于,所述根据所述三元组信息,累加获得词语对分别在全上下文模式、单上文模式、单下文模式、无上下文模式时,所述词语对在页面标题中的紧密命中次数之和、所述词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和包括:
对所述三元组信息中的检索串及点击的页面标题进行分词处理,分别获得检索串的词语对及页面标题的分词结果;
根据所述词语对及页面标题的分词结果,获得词语对在全上下文模式、单上文模式、单下文模式、无上下文模式时,所述词语对在页面标题中的紧密命中次数、所述词语对的两个词语都在页面标题中的次数、所述词语对的点击次数;
将所述词语对同一模式下时,所述词语对在页面标题中的紧密命中次数、所述词语对的两个词语都在页面标题中的次数、所述词语对的点击次数对应进行累加,获得所述词语对同一模式下时,所述词语对在页面标题中的紧密命中次数之和、所述词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和。
5.如权利要求1所述的基于网络搜索的紧密度确定方法,其特征在于,所述根据所述词语对的点击次数,对所述词语对的紧密度分值进行相应的加权计算,获得所述词语对的紧密度包括以下步骤:
判断所述词语对在全上下文模式的点击次数是否大于或等于预设阈值;
当所述词语对在全上下文模式的点击次数大于或等于预设阈值时,将所述词语对在全上下文模式的紧密度分值作为所述词语对的紧密度;
当所述词语对在全上下文模式的点击次数小于预设阈值时,判断所述词语对在单上文模式的点击次数和所述词语对在单下文模式的点击次数之和是否大于或等于预设阈值;
当所述词语对在单上文模式的点击次数和所述词语对在单下文模式的点击次数之和大于或等于预设阈值时,对所述词语对在全上下文模式的紧密度分值、所述词语对在单上文模式的紧密度分值、所述词语对在单下文模式的紧密度分值进行加权计算,获得所述词语对的紧密度;
当所述词语对在单上文模式的点击次数和所述词语对在单下文模式的点击次数之和小于预设阈值时,对所述词语对在全上下文模式的紧密度分值、所述词语对在单上文模式的紧密度分值、所述词语对在单下文模式的紧密度分值、所述词语对在无上下文模式的紧密度分值进行加权计算,获得所述词语对的紧密度。
6.一种基于网络搜索的紧密度确定装置,其特征在于,所述基于网络搜索的紧密度确定装置包括:
接收模块,用于接收网络搜索请求;
分词模块,用于对所述网络搜索请求中的检索串进行分词处理,获得所述检索串的词语对;
紧密度分值获取模块,用于从预先计算的紧密度词典中获取与所述词语对匹配的紧密度分值及词语对的点击次数;
紧密度计算模块,用于根据所述词语对的点击次数,对所述词语对的紧密度分值进行相应的加权计算,获得所述词语对的紧密度。
7.如权利要求6所述的基于网络搜索的紧密度确定装置,其特征在于,所述紧密度词典包括:根据用户的网络搜索点击日志统计用户所搜索的检索串的词语对在全上下文模式、单上文模式、单下文模式、无上下文模式时的紧密度分值和词语对的点击次数。
8.如权利要求7所述的基于网络搜索的紧密度确定装置,其特征在于,所述紧密度确定装置还包括:紧密度词典生成模块,其中所述紧密度词典生成模块包括:
三元组信息获取单元,用于根据用户的网络搜索点击日志,统计依据所搜索的检索串进行检索,且在检索页面中点击的页面标题对应的点击次数,获得三元组信息;
次数计算单元,用于根据所述三元组信息,累加获得词语对分别在全上下文模式、单上文模式、单下文模式、无上下文模式时,所述词语对在页面标题中的紧密命中次数之和、所述词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和;
紧密度分值计算单元,用于按照预设的计算公式,根据词语对在页面标题中的紧密命中次数之和、所述词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和,计算获得所述词语对分别在全上下文模式、单上文模式、单下文模式、无上下文模式时的紧密度分值;
紧密度词典生成单元,用于根据所述词语对分别在全上下文模式、单上文模式、单下文模式、无上下文模式时的紧密度分值及点击次数,生成紧密度词典。
9.如权利要求8所述的基于网络搜素的紧密度确定装置,其特征在于,所述次数计算单元包括:
分词子单元,用于对所述三元组信息中的检索串及点击的页面标题进行分词处理,分别获得检索串的词语对及页面标题的分词结果;
次数获取子单元,用于根据所述词语对及页面标题的分词结果,获得词语对在全上下文模式、单上文模式、单下文模式、无上下文模式时,所述词语对在页面标题中的紧密命中次数、所述词语对的两个词语都在页面标题中的次数、所述词语对的点击次数;
累加子单元,用于将所述词语对同一模式下时,所述词语对在页面标题中的紧密命中次数、所述词语对的两个词语都在页面标题中的次数、所述词语对的点击次数对应进行累加,获得所述词语对同一模式下时,所述词语对在页面标题中的紧密命中次数之和、所述词语对的两个词语都在页面标题中的次数之和、所述词语对的点击次数之和。
10.如权利要求6所述的基于网络搜索的紧密度确定装置,其特征在于,所述紧密度计算模块包括:
第一判断单元,用于判断所述词语对在全上下文模式的点击次数是否大于或等于预设阈值;
第一计算单元,用于当所述词语对在全上下文模式的点击次数大于或等于预设阈值时,将所述词语对在全上下文模式的紧密度分值作为所述词语对的紧密度;
第二判断单元,用于当所述词语对在全上下文模式的点击次数小于预设阈值时,判断所述词语对在单上文模式的点击次数和所述词语对在单下文模式的点击次数之和是否大于或等于预设阈值;
第二计算单元,用于当所述词语对在单上文模式的点击次数和所述词语对在单下文模式的点击次数之和大于或等于预设阈值时,对所述词语对在全上下文模式的紧密度分值、所述词语对在单上文模式的紧密度分值、所述词语对在单下文模式的紧密度分值进行加权计算,获得所述词语对的紧密度;
第三计算单元,用于当所述词语对在单上文模式的点击次数和所述词语对在单下文模式的点击次数之和小于预设阈值时,对所述词语对在全上下文模式的紧密度分值、所述词语对在单上文模式的紧密度分值、所述词语对在单下文模式的紧密度分值、所述词语对在无上下文模式的紧密度分值进行加权计算,获得所述词语对的紧密度。
CN201410665320.9A 2014-11-19 2014-11-19 基于网络搜索的紧密度确定方法及装置 Active CN105677664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410665320.9A CN105677664B (zh) 2014-11-19 2014-11-19 基于网络搜索的紧密度确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410665320.9A CN105677664B (zh) 2014-11-19 2014-11-19 基于网络搜索的紧密度确定方法及装置

Publications (2)

Publication Number Publication Date
CN105677664A true CN105677664A (zh) 2016-06-15
CN105677664B CN105677664B (zh) 2019-11-19

Family

ID=56945698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410665320.9A Active CN105677664B (zh) 2014-11-19 2014-11-19 基于网络搜索的紧密度确定方法及装置

Country Status (1)

Country Link
CN (1) CN105677664B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294676A (zh) * 2016-08-05 2017-01-04 张家口乐淘商贸有限公司 一种电子商务政务系统的数据检索方法
CN109241356A (zh) * 2018-06-22 2019-01-18 腾讯科技(深圳)有限公司 一种数据处理方法、装置及存储介质
CN111209746A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司 自然语言处理方法、装置、存储介质及电子设备
CN111897994A (zh) * 2020-07-15 2020-11-06 腾讯音乐娱乐科技(深圳)有限公司 搜索方法、装置及服务器和计算机可读存储介质
CN113268978A (zh) * 2020-02-17 2021-08-17 北京搜狗科技发展有限公司 一种信息生成方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187921A (zh) * 2007-12-20 2008-05-28 腾讯科技(深圳)有限公司 一种中文复合词的提取方法及提取系统
CN102799586A (zh) * 2011-05-24 2012-11-28 北京百度网讯科技有限公司 一种用于搜索结果排序的转义度确定方法和装置
CN103020212A (zh) * 2012-12-07 2013-04-03 合一网络技术(北京)有限公司 一种基于用户查询日志实时发现热点视频的方法和装置
CN103544266A (zh) * 2013-10-16 2014-01-29 北京奇虎科技有限公司 一种搜索建议词生成的方法以及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187921A (zh) * 2007-12-20 2008-05-28 腾讯科技(深圳)有限公司 一种中文复合词的提取方法及提取系统
CN102799586A (zh) * 2011-05-24 2012-11-28 北京百度网讯科技有限公司 一种用于搜索结果排序的转义度确定方法和装置
CN103020212A (zh) * 2012-12-07 2013-04-03 合一网络技术(北京)有限公司 一种基于用户查询日志实时发现热点视频的方法和装置
CN103544266A (zh) * 2013-10-16 2014-01-29 北京奇虎科技有限公司 一种搜索建议词生成的方法以及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李树青等: "搜索引擎系统中的Web个性化信息推荐技术", 《情报杂志》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294676A (zh) * 2016-08-05 2017-01-04 张家口乐淘商贸有限公司 一种电子商务政务系统的数据检索方法
CN106294676B (zh) * 2016-08-05 2017-05-31 张家口乐淘商贸有限公司 一种电子商务政务系统的数据检索方法
CN109241356A (zh) * 2018-06-22 2019-01-18 腾讯科技(深圳)有限公司 一种数据处理方法、装置及存储介质
CN111209746A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司 自然语言处理方法、装置、存储介质及电子设备
CN111209746B (zh) * 2019-12-30 2024-01-30 航天信息股份有限公司 自然语言处理方法、装置、存储介质及电子设备
CN113268978A (zh) * 2020-02-17 2021-08-17 北京搜狗科技发展有限公司 一种信息生成方法、装置和电子设备
CN113268978B (zh) * 2020-02-17 2024-08-27 北京搜狗科技发展有限公司 一种信息生成方法、装置和电子设备
CN111897994A (zh) * 2020-07-15 2020-11-06 腾讯音乐娱乐科技(深圳)有限公司 搜索方法、装置及服务器和计算机可读存储介质
CN111897994B (zh) * 2020-07-15 2024-06-14 腾讯音乐娱乐科技(深圳)有限公司 搜索方法、装置及服务器和计算机可读存储介质

Also Published As

Publication number Publication date
CN105677664B (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN107220295B (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN110704743B (zh) 一种基于知识图谱的语义搜索方法及装置
CN102708100B (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
CN103473283B (zh) 一种文本案例匹配方法
US8280902B2 (en) High precision search system and method
CN103377226B (zh) 一种智能检索方法及其系统
CN104978314B (zh) 媒体内容推荐方法及装置
CN103577416A (zh) 扩展查询方法及系统
CN103365910B (zh) 一种信息检索的方法和系统
CN113722478B (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN102081602B (zh) 确定未登录词的类别的方法和设备
CN102609433A (zh) 基于用户日志进行查询推荐的方法及系统
CN112988969A (zh) 用于文本检索的方法、装置、设备以及存储介质
JP4969554B2 (ja) トピックグラフを利用したドキュメント検索サーバ及び方法
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN102722558A (zh) 一种为用户推荐提问的方法和装置
CN103186574A (zh) 一种搜索结果的生成方法和装置
CN105677664A (zh) 基于网络搜索的紧密度确定方法及装置
US20180210897A1 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
US11487795B2 (en) Template-based automatic software bug question and answer method
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN103425650A (zh) 推荐搜索方法和系统
CN116401345A (zh) 智能问答方法、装置、存储介质和设备
CN102799586B (zh) 一种用于搜索结果排序的转义度确定方法和装置
CN103020083B (zh) 需求识别模板的自动挖掘方法、需求识别方法及对应装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant