CN103885947A - 一种搜索需求的挖掘方法、智能搜索方法及其装置 - Google Patents

一种搜索需求的挖掘方法、智能搜索方法及其装置 Download PDF

Info

Publication number
CN103885947A
CN103885947A CN201210554903.5A CN201210554903A CN103885947A CN 103885947 A CN103885947 A CN 103885947A CN 201210554903 A CN201210554903 A CN 201210554903A CN 103885947 A CN103885947 A CN 103885947A
Authority
CN
China
Prior art keywords
word
follow
general demand
search
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210554903.5A
Other languages
English (en)
Other versions
CN103885947B (zh
Inventor
黄荣升
辜斯缪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210554903.5A priority Critical patent/CN103885947B/zh
Publication of CN103885947A publication Critical patent/CN103885947A/zh
Application granted granted Critical
Publication of CN103885947B publication Critical patent/CN103885947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种搜索需求的挖掘方法、智能搜索方法及其装置,其中搜索需求的挖掘方法包括:A.从搜索日志的关键词中确定泛需求词;B.从所述搜索日志中提取泛需求词对应的后继词;C.根据预设的过滤策略对泛需求词对应的后继词进行过滤,以得到泛需求词对应的精确需求词,并根据泛需求词与对应的精确需求词之间的关联强度建立对应关系词表。智能搜索方法包括:获取用户的搜索关键词;将所述搜索关键词与对应关系词表中的泛需求词进行匹配,并在匹配通过时,利用所述对应关系词表中所述搜索关键词对应的精确需求词获取第一搜索结果。通过上述方式,能够提高搜索引擎返回结果的准确性。

Description

一种搜索需求的挖掘方法、智能搜索方法及其装置
【技术领域】
本发明涉自然语言处理技术,特别涉及一种搜索需求的挖掘方法、智能搜索方法及其装置。
【背景技术】
随着互联网的普及,搜索引擎越来越成为人们生活中不可缺少的工具。搜索引擎极大地加快了信息传播的速度,改变了人们获取知识的途径,人们只需要向搜索引擎输入感兴趣的关键词,就可以从搜索引擎获取大量的相关信息。
但是,现有的搜索引擎是通过在索引库中查询用户输入的关键词来获取字面匹配的搜索结果的,在这种方式下,无论用户输入的是什么类型的关键词,搜索引擎均只能向用户返回字面匹配的搜索结果,由于搜索引擎无法判断用户搜索时的真实需求,因此无法自适应用户的需要,为用户返回更准确的搜索结果。
【发明内容】
本发明所要解决的技术问题是提供一种搜索需求的挖掘方法、智能搜索方法及其装置,以提高搜索引擎返回结果的准确性。
本发明为解决技术问题而采用的技术方案是提供一种搜索需求的挖掘方法,包括:A.从搜索日志的关键词中确定泛需求词;B.从所述搜索日志中提取泛需求词对应的后继词,并确定泛需求词与对应的后继词之间的关联强度,其中一个泛需求词的后继词是与该泛需求词共同出现在一个会话中且在该泛需求词之后出现的词语;C.根据预设的过滤策略对泛需求词对应的后继词进行过滤,以得到泛需求词对应的精确需求词,并根据泛需求词与对应的精确需求词之间的关联强度建立对应关系词表。
根据本发明之一优选实施例,所述步骤A中确定泛需求词的方式至少包括以下一种:方式一、从搜索日志中提取以预设的模式词表中的词为前缀的关键词作为泛需求词;或者,方式二、从搜索日志中提取以预设的模式词表中的词为前缀的关键词,并将提取的关键词去除所述前缀后的剩余部分作为泛需求词;或者,方式三、确定搜索日志中各关键词的后继词,并将属于同一实体类别的后继词所占比例超过第一设定阈值的关键词作为泛需求词,其中一个关键词的后继词是与该关键词共同出现在一个会话中且在该关键词之后出现的词语。
根据本发明之一优选实施例,所述步骤B中根据下列公式计算泛需求词X与对应的后继词Y之间的关联强度:
Figure BDA00002615525500021
其中,R表示X与Y的关联强度,m表示所述搜索日志中Y作为互异泛需求词的后继词出现的总次数,n表示所述搜索日志中Y作为X的后继词出现的总次数,wi表示Y在与X共同出现的第i个会话中的权重,其中wi的大小与第i个会话中X的后继词总数成反比,与第i个会话中Y作为X的后继词出现的位序成正比。
根据本发明之一优选实施例,所述过滤策略至少包括以下一种:策略一、将泛需求词对应的后继词中与该泛需求词之间的关联强度低于第二设定阈值的后继词过滤掉;策略二、将泛需求词对应的后继词中与该泛需求词具有相同分词的后继词过滤掉;策略三、将泛需求词对应的后继词中属于同一实体类别所占比例低于第三设定阈值的后继词过滤掉。
本发明还提供了一种智能搜索方法,包括:获取用户的搜索关键词;将所述搜索关键词与前文所述方法得到的对应关系词表中的泛需求词进行匹配,并在匹配通过时,利用所述对应关系词表中所述搜索关键词对应的精确需求词获取第一搜索结果。
根据本发明之一优选实施例,所述第一搜索结果中的各结果项分别由所述搜索关键词对应的不同精确需求词得到,且各结果项的排列顺序由得到该结果项的精确需求词与所述搜索关键词之间的关联强度确定。
根据本发明之一优选实施例,所述方法进一步包括:利用所述搜索关键词获取第二搜索结果,并将所述第一搜索结果嵌入到所述第二搜索结果中返回给用户。
本发明还提供了一种搜索需求的挖掘装置,包括:泛需求词挖掘单元,用于从搜索日志的关键词中确定泛需求词;后继词确定单元,用于从所述搜索日志中提取泛需求词对应的后继词,并确定泛需求词与对应的后继词之间的关联强度,其中一个泛需求词的后继词是与该泛需求词共同出现在一个会话中且在该泛需求词之后出现的词语;精确需求词确定单元,用于根据预设的过滤策略对泛需求词对应的后继词进行过滤,以得到泛需求词对应的精确需求词,并根据泛需求词与对应的精确需求词之间的关联强度建立对应关系词表。
根据本发明之一优选实施例,所述泛需求词挖掘单元确定泛需求词的方式至少包括以下一种:方式一、从搜索日志中提取以预设的模式词表中的词为前缀的关键词作为泛需求词;或者,方式二、从搜索日志中提取以预设的模式词表中的词为前缀的关键词,并将提取的关键词去除所述前缀后的剩余部分作为泛需求词;或者,方式三、确定搜索日志中各关键词的后继词,并将属于同一实体类别的后继词所占比例超过第一设定阈值的关键词作为泛需求词,其中一个关键词的后继词是与该关键词共同出现在一个会话中且在该关键词之后出现的词语。
根据本发明之一优选实施例,所述后继词确定单元根据下列公式计算泛需求词X与对应的后继词Y之间的关联强度:
Figure BDA00002615525500031
其中,R表示X与Y的关联强度,m表示所述搜索日志中Y作为互异泛需求词的后继词出现的总次数,n表示所述搜索日志中Y作为X的后继词出现的总次数,wi表示Y在与X共同出现的第i个会话中的权重,其中wi的大小与第i个会话中X的后继词总数成反比,与第i个会话中Y作为X的后继词出现的位序成正比。
根据本发明之一优选实施例,所述过滤策略至少包括以下一种:策略一、将泛需求词对应的后继词中与该泛需求词之间的关联强度低于第二设定阈值的后继词过滤掉;策略二、将泛需求词对应的后继词中与该泛需求词具有相同分词的后继词过滤掉;策略三、将泛需求词对应的后继词中属于同一实体类别所占比例低于第三设定阈值的后继词过滤掉。
本发明还提供了一种智能搜索装置,包括:接收单元,用于获取用户的搜索关键词;匹配单元,用于将所述搜索关键词与前文所述装置得到的对应关系词表中的泛需求词进行匹配;第一搜索单元,用于在所述匹配单元匹配通过时,利用所述对应关系词表中所述搜索关键词对应的精确需求词获取第一搜索结果。
根据本发明之一优选实施例,所述第一搜索结果中的各结果项分别由所述搜索关键词对应的不同精确需求词得到,且各结果项的排列顺序由得到该结果项的精确需求词与所述搜索关键词之间的关联强度确定。
根据本发明之一优选实施例,所述装置进一步包括:第二搜索单元,用于利用所述搜索关键词获取第二搜索结果,并将所述第一搜索结果嵌入到所述第二搜索结果中返回给用户。
由以上技术方案可以看出,本发明通过从搜索日志中挖掘泛需求词,并通过泛需求词挖掘精确需求词,可以得到从泛需求词到精确需求词的对应关系词表,该词表反映了用户行为背后的搜索需求,通过这一词表,可以对线上用户的搜索行为进行更好的适配,当用户的输入行为带有泛需求特征时,将与精确需求对应的结果返回给用户,能够提高搜索引擎返回结果的准确性,节约用户时间。
【附图说明】
图1为本发明中搜索需求的挖掘方法的实施例的流程示意图;
图2为本发明中智能搜索方法的实施例的流程示意图;
图3为本发明中智能搜索结果的一个实施例的示意图;
图4为本发明中搜索需求的挖掘装置的实施例的结构示意框图;
图5为本发明中智能搜索装置的实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中搜索需求的挖掘方法的实施例的流程示意图。如图1所示,该实施例的方法包括:
步骤S101:从搜索日志的关键词中确定泛需求词。
步骤S102:从搜索日志中提取泛需求词对应的后继词,并确定泛需求词语对应的后继词之间的关联强度,其中一个泛需求词的后继词是与该泛需求词共同出现在一个会话中且在该泛需求词之后出现的词语。
步骤S103:根据预设的过滤策略对泛需求词对应的后继词进行过滤,以得到泛需求词对应的精确需求词,并根据泛需求词与对应的精确需求词之间的关联强度建立对应关系词表。
下面对步骤S101的具体实施方式进行介绍。
本发明中的泛需求词指的是表意范围可以覆盖若干个命名实体的词语。例如“火锅店”就是一个泛需求词,因为“火锅店”的表意范围可以覆盖“海底捞火锅”、“小肥羊火锅”等等。
本实施例中的步骤S101中确定泛需求词的方式可采用以下至少一种:
方式一、从搜索日志中提取以预设的模式词表中的词为前缀的关键词作为泛需求词。模式词表可通过人工对词语进行选取或者数据挖掘的方式得到。模式词表中的词包括起修饰作用的形容词,例如“好玩的”、“好看的”、“聪明的”等等。搜索日志记录了一个以上用户的搜索行为,包括用户搜索时使用的关键词,因此,通过模式词表,可以从搜索日志中提取出一个以上前缀匹配的关键词,例如“好玩的地方”、“好看的电影”等等,这些前缀与模式词表中的词匹配的关键词均可作为本实施例中的泛需求词。
方式二、从搜索日志中提取以预设的模式词表中的词为前缀的关键词,并将提取的关键词去除前缀后的剩余部分作为泛需求词。例如以模式词表中的词为前缀的关键词有“好看的电影”、“好玩的地方”,其中“好看的”、“好玩的”是前缀,则“电影”、“地方”就是泛需求词。
方式三、确定搜索日志中各关键词的后继词,并将属于同一实体类别的后继词所占比例超过第一设定阈值的关键词作为泛需求词,其中一个关键词的后继词是与该关键词共同出现在一个会话中且在该关键词之后出现的词语。
搜索日志可以会话(session)为单位切分为一个以上的切分片段,其中每个切分片段对应一个会话的记录。在每个切分片段中,记录了一个用户在一段时间内的操作行为,其中包括用户按时间顺序搜索过的关键词。例如有下面几个切分片段:
切分片段A:“好看的电影”、“盗梦空间”、“让子弹飞”
切分片段B:“电影”、“好看的电影”、“1942”、“让子弹飞”
切分片段C:“好看的电影”、“少年派”、“江南style”
则根据上面三个切分片段,可以得到关键词“好看的电影”的后继词有“盗梦空间”、“让子弹飞”、“1942”、“少年派”和“江南style”,共5个。
由于关键词“好看的电影”的后继词中,属于“电影”实体类别的后继词有“盗梦空间”、“让子弹飞”、“1942”和“少年派”,即属于同一实体类别的后继词数量为4,在“好看的电影”的后继词中占比=0.8,假设第一设定阈值为0.6,则根据方式三,可以确定“好看的电影”为泛需求词。确定后继词的实体类别,可通过现有的实体词表进行匹配确定,该实体词表的结构可以表示成以下形式:
  实体词类型   实体词
  电影   盗梦空间、让子弹飞……
  ……   ……
以会话为单位对搜索日志进行切分,可以采用机器学习的方法进行,即首先在搜索日志样本中进行切分标注,然后对搜索日志样本提取特征,最后利用具有特征的标注样本对未知参数的切分模型进行机器学习训练,以得到切分模型的参数。这样,就可以使用具有参数的切分模型对任意待切分的搜索日志进行切分了。在上述过程中,对搜索日志样本提取的特征,以及在使用切分模型对待切分的搜索日志进行切分前,对待切分的搜索日志提取的特征,可以是以下特征中的任意一种或多种的组合:相邻关键词分别所属词语类别、相邻关键词分别被搜索的时间间隔、当前关键词被搜索时距首个被搜索的关键词的时间间隔。
下面对步骤S102的具体实施方式进行介绍。
步骤S102中,为了从搜索日志中提取泛需求词对应的后继词,首先需要对搜索日志以会话为单位进行切分。如果步骤S101中确定泛需求词的方式是方式一或/和方式二,则此处可按照前面介绍的切分方式对搜索日志以会话为单位进行切分,如果步骤S101中采用了方式三确定泛需求词,则此处只需要针对每个泛需求词,确定包含该泛需求词的切分片段,以提取该泛需求词对应的后继词及计算相应的关联强度。
具体地,本实施例中可根据下列公式计算泛需求词X与对应的后继词Y之间的关联强度:
Figure BDA00002615525500071
其中,R表示X与Y的关联强度,m表示所述搜索日志中Y作为互异泛需求词的后继词出现的总次数,n表示所述搜索日志中Y作为X的后继词出现的总次数,wi表示Y在与X共同出现的第i个会话中的权重,其中wi的大小与第i个会话中X的后继词总数成反比,与第i个会话中Y作为X的后继词出现的位序成正比。
仍以前面的切分片段A、B、C为例进行介绍。对泛需求词“好看的电影”而言,搜索日志中包含该词语的切分片段有A、B、C,根据后继词的定义,可以确定泛需求词“好看的电影”的后继词有“盗梦空间”、“让子弹飞”、“1942”、“少年派”、“江南style”。
若计算后继词“让子弹飞”与泛需求词“好看的电影”之间的关联强度,需要确定上述公式中的m、n和wi的值。可以看出,“让子弹飞”作为“好看的电影”的后继词出现的总次数为2次,即n等于2。“让子弹飞”与“好看的电影”共同出现的第1个会话为切分片段A,即“让子弹飞”在切分片段A中的权重就是w1,“让子弹飞”与“好看的电影”共同出现的第2个会话为切分片段B,即“让子弹飞”在切分片段B中的权重就是w2。其中w1的值与切分片段A中“好看的电影”的后继词总数(总数为2)成反比,与“让子弹飞”在切分片段A中作为“好看的电影”的后继词出现的位序(第2位)成正比,w2的值与切分片段B中“好看的电影”的后继词总数(总数为2)成反比,与“让子弹飞”在切分片段B中作为“好看的电影”的后继词出现的位序(第2位)成正比。而m的值由搜索日志中以“让子弹飞”为后继词的互异泛需求词的数量决定。假设搜索日志中泛需求词“优秀导演”、“金马奖作品”、“好看的电影”的后继词中均有“让子弹飞”,则m的值就是3。所以“让子弹飞”与“好看的电影”之间的关联强度
Figure BDA00002615525500081
下面介绍一种求上述公式中wi的实施方式。在该方式下,可按照下列公式确定wi的值:
Figure BDA00002615525500082
其中,j表示第i个会话中Y作为X的后继词出现的位序,S表示第i个会话中X的后继词总数。值得注意的是,这里的位序越大,表明Y作为X的后继词出现得越晚,即用户搜索Y的行为在一个会话中越靠后。
按照该公式,前面例子中,由于切分片段A中“好看的电影”的后继词总数为2,“让子弹飞”在“好看的电影”的后继词中排在第2位,因此
Figure BDA00002615525500083
由于切分片段B中“好看的电影”的后继词总数为2,“让子弹飞”在“好看的电影”的后继词中排在第2位,因此
Figure BDA00002615525500084
综上所述可以计算出“让子弹飞”与“好看的电影”之间的关联强度
R = ( 1 - 1 3 ) * ( 0.33 + 0.33 ) = 0.44 .
按照前面介绍的方式,在步骤S102中可以针对每个泛需求词,分别求出该泛需求词对应的每个后继词与该泛需求词之间的关联强度。
下面对步骤S103中的过滤策略进行介绍。具体地,本实施例中的过滤策略至少包括以下一种:
策略一:将泛需求词对应的后继词中与该泛需求词之间的关联强度低于第二设定阈值的后继词过滤掉。例如,“好看的电影”的后继词按照关联强度的大小排列如下:“让子弹飞”、“1942”、“少年派”、“盗梦空间”、“江南style”,其中“盗梦空间”与“好看的电影”之间的关联强度为0.35,“江南style”与“好看的电影”之间的关联强度为0.1,如果第二设定阈值为0.3,则根据策略一,后继词“江南style”将被过滤掉。
策略二:将泛需求词对应的后继词中与该泛需求词具有相同分词的后继词过滤掉。例如泛需求词“好看的电影”的后继词中有一个词为“好看的电影2012”,由于泛需求词“好看的电影”的分词包括“好看的”、“电影”,而后继词“好看的电影2012”的分词包括“好看的”、“电影”、“2012”,这两者有相同的分词“好看的”、“电影”,因此根据策略二,后继词“好看的电影2012”就会被过滤掉。
策略三:将泛需求词对应的后继词中属于同一实体类别所占比例低于第三设定阈值的后继词过滤掉。例如泛需求词“好看的电影”的后继词有“盗梦空间”、“让子弹飞”、“1942”、“少年派”、“江南style”、“I believe”,共6个,其中“盗梦空间”、“让子弹飞”、“1942”、“少年派”均属于同一实体即“电影”类别,该实体类别的后继词所占比例为4/6=0.67,“江南style”和“I believe”属于同一实体“歌曲”类别,该实体类别的后继词所占比例为2/6=0.33,如果第三设定阈值为0.5,则根据策略三,“歌曲”类别下的“江南style”和“I believe”将被过滤掉。
在步骤S103对后继词进行过滤后,剩下的与各个泛需求词对应的后继词就是与该泛需求词对应的精确需求词。对应关系词表是泛需求词和对应的精确需求词之间的映射表,其中泛需求词对应的精确需求词按照关联强度排列。下面是对应关系词表的一种示意结构:
  泛需求词   精确需求词
  好看的电影   “让子弹飞”、“1942”、“少年派”……
  ……   ……
请参考图2,图2为本发明中智能搜索方法的实施例的流程示意图。如图2所示,该实施例的方法包括:
步骤S201:获取用户的搜索关键词。
步骤S202:将用户的搜索关键词与图1所示的方法得到的对应关系词表中的泛需求词进行匹配,并在匹配通过时,利用对应关系词表中搜索关键词对应的精确需求词获取第一搜索结果。
例如搜索关键词为“开黄花的树”,其在对应关系词表中与泛需求词“开黄花的树”匹配,在对应关系词表中,“开黄花的树”对应的精确需求词有“金合欢”、“黄花槐”、“棕榈”,则步骤S201中可以利用“金链花”、“金合欢”、“黄花槐”、“棕榈”获取第一搜索结果返回给用户。
作为优选的方式,获取第一搜索结果时,各个结果项可由不同的精确需求词得到,并且各个结果项在展示时的排列顺序由得到该结果项的精确需求词和搜索关键词之间的关联强度确定,关联强度越强的精确需求词得到的结果项在第一搜索结果中排列越靠前。
此外,在另一个智能搜索方法的实施例中,还可以使用搜索关键词获取第二搜索结果,即获取与搜索关键词字面匹配的结果,并将第一搜索结果嵌入到第二搜索结果中返回给用户。请参考图3,图3为本发明中智能搜索结果的一个实施例的示意图。其中第一搜索结果中的“金合欢”、“黄花槐”结果项是由精确需求词“金合欢”、“黄花槐”得到,并且由于“金合欢”的关联强度高于“黄花槐”的关联强度,因此得到如图3所示的排列顺序。
可以看出,本发明的方案大大提高了搜索引擎的智能程度,能够更好地满足用户需求。。
请参考图4,图4为本发明中搜索需求的挖掘装置的实施例的结构示意框图。如图4所示,该实施例的装置包括:泛需求词挖掘单元301、后继词确定单元302及精确需求词确定单元303。
其中泛需求词挖掘单元301,用于从搜索日志的关键词中确定泛需求词。
后继词确定单元302,用于从搜索日志中提取泛需求词对应的后继词,并确定泛需求词与对应的后继词之间的关联强度,其中一个泛需求词的后继词是与该泛需求词共同出现在一个会话中且在该泛需求词之后出现的词语。
精确需求词确定单元303,用于根据预设的过滤策略对泛需求词对应的后继词进行过滤,以得到泛需求词对应的精确需求词,并根据泛需求词与对应的精确需求词之间的关联强度建立对应关系词表。
具体地,泛需求词挖掘单元301确定泛需求词的方式至少包括以下一种:
方式一、从搜索日志中提取以预设的模式词表中的词为前缀的关键词作为泛需求词。
方式二、从搜索日志中提取以预设的模式词表中的词为前缀的关键词,并将提取的关键词去除所述前缀后的剩余部分作为泛需求词。
方式三、确定搜索日志中各关键词的后继词,并将属于同一实体类别的后继词所占比例超过第一设定阈值的关键词作为泛需求词,其中一个关键词的后继词是与该关键词共同出现在一个会话中且在该关键词之后出现的词语。
具体地,后继词确定单元302根据下列公式计算泛需求词X与对应的后继词Y之间的关联强度:
Figure BDA00002615525500111
其中,R表示X与Y的关联强度,m表示所述搜索日志中Y作为互异泛需求词的后继词出现的总次数,n表示所述搜索日志中Y作为X的后继词出现的总次数,wi表示Y在与X共同出现的第i个会话中的权重,其中wi的大小与第i个会话中X的后继词总数成反比,与第i个会话中Y作为X的后继词出现的位序成正比。
具体地,精确需求词确定单元303可采用的过滤策略至少包括以下一种:
策略一、将泛需求词对应的后继词中与该泛需求词之间的关联强度低于第二设定阈值的后继词过滤掉;
策略二、将泛需求词对应的后继词中与该泛需求词具有相同分词的后继词过滤掉;
策略三、将泛需求词对应的后继词中属于同一实体类别所占比例低于第三设定阈值的后继词过滤掉。
请参考图5,图5为本发明中智能搜索装置的实施例的结构示意框图。如图5所示,该实施例的装置包括:接收单元401、匹配单元402、第一搜索单元403及第二搜索单元404。
其中接收单元401,用于获取用户的搜索关键词。
匹配单元402,用于将搜索关键词与图4所示的挖掘装置得到的对应关系词表中的泛需求词进行匹配。
第一搜索单元403,用于在匹配单元402匹配通过时,利用对应关系词表中搜索关键词对应的精确需求词获取第一搜索结果。具体地,第一搜索结果中的各结果项分别由搜索关键词对应的不同精确需求词得到,且各结果项的排列顺序由得到该结果项的精确需求词与搜索关键词之间的关联强度确定。
第二搜索单元404,用于利用搜索关键词获取第二搜索结果,并将第一搜索结果嵌入到第二搜索结果中返回给用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (14)

1.一种搜索需求的挖掘方法,包括:
A.从搜索日志的关键词中确定泛需求词;
B.从所述搜索日志中提取泛需求词对应的后继词,并确定泛需求词与对应的后继词之间的关联强度,其中一个泛需求词的后继词是与该泛需求词共同出现在一个会话中且在该泛需求词之后出现的词语;
C.根据预设的过滤策略对泛需求词对应的后继词进行过滤,以得到泛需求词对应的精确需求词,并根据泛需求词与对应的精确需求词之间的关联强度建立对应关系词表。
2.根据权利要求1所述的方法,其特征在于,所述步骤A中确定泛需求词的方式至少包括以下一种:
方式一、从搜索日志中提取以预设的模式词表中的词为前缀的关键词作为泛需求词;或者,
方式二、从搜索日志中提取以预设的模式词表中的词为前缀的关键词,并将提取的关键词去除所述前缀后的剩余部分作为泛需求词;或者,
方式三、确定搜索日志中各关键词的后继词,并将属于同一实体类别的后继词所占比例超过第一设定阈值的关键词作为泛需求词,其中一个关键词的后继词是与该关键词共同出现在一个会话中且在该关键词之后出现的词语。
3.根据权利要求1所述的方法,其特征在于,所述步骤B中根据下列公式计算泛需求词X与对应的后继词Y之间的关联强度:
Figure FDA00002615525400011
其中,R表示X与Y的关联强度,m表示所述搜索日志中Y作为互异泛需求词的后继词出现的总次数,n表示所述搜索日志中Y作为X的后继词出现的总次数,wi表示Y在与X共同出现的第i个会话中的权重,其中wi的大小与第i个会话中X的后继词总数成反比,与第i个会话中Y作为X的后继词出现的位序成正比。
4.根据权利要求1所述的方法,其特征在于,所述过滤策略至少包括以下一种:
策略一、将泛需求词对应的后继词中与该泛需求词之间的关联强度低于第二设定阈值的后继词过滤掉;
策略二、将泛需求词对应的后继词中与该泛需求词具有相同分词的后继词过滤掉;
策略三、将泛需求词对应的后继词中属于同一实体类别所占比例低于第三设定阈值的后继词过滤掉。
5.一种智能搜索方法,包括:
获取用户的搜索关键词;
将所述搜索关键词与权利要求1至4中任一权项所述方法得到的对应关系词表中的泛需求词进行匹配,并在匹配通过时,利用所述对应关系词表中所述搜索关键词对应的精确需求词获取第一搜索结果。
6.根据权利要求5所述方法,其特征在于,所述第一搜索结果中的各结果项分别由所述搜索关键词对应的不同精确需求词得到,且各结果项的排列顺序由得到该结果项的精确需求词与所述搜索关键词之间的关联强度确定。
7.根据权利要求5所述的方法,其特征在于,所述方法进一步包括:
利用所述搜索关键词获取第二搜索结果,并将所述第一搜索结果嵌入到所述第二搜索结果中返回给用户。
8.一种搜索需求的挖掘装置,包括:
泛需求词挖掘单元,用于从搜索日志的关键词中确定泛需求词;
后继词确定单元,用于从所述搜索日志中提取泛需求词对应的后继词,并确定泛需求词与对应的后继词之间的关联强度,其中一个泛需求词的后继词是与该泛需求词共同出现在一个会话中且在该泛需求词之后出现的词语;
精确需求词确定单元,用于根据预设的过滤策略对泛需求词对应的后继词进行过滤,以得到泛需求词对应的精确需求词,并根据泛需求词与对应的精确需求词之间的关联强度建立对应关系词表。
9.根据权利要求8所述的装置,其特征在于,所述泛需求词挖掘单元确定泛需求词的方式至少包括以下一种:
方式一、从搜索日志中提取以预设的模式词表中的词为前缀的关键词作为泛需求词;或者,
方式二、从搜索日志中提取以预设的模式词表中的词为前缀的关键词,并将提取的关键词去除所述前缀后的剩余部分作为泛需求词;或者,
方式三、确定搜索日志中各关键词的后继词,并将属于同一实体类别的后继词所占比例超过第一设定阈值的关键词作为泛需求词,其中一个关键词的后继词是与该关键词共同出现在一个会话中且在该关键词之后出现的词语。
10.根据权利要求8所述的装置,其特征在于,所述后继词确定单元根据下列公式计算泛需求词X与对应的后继词Y之间的关联强度:
Figure FDA00002615525400031
其中,R表示X与Y的关联强度,m表示所述搜索日志中Y作为互异泛需求词的后继词出现的总次数,n表示所述搜索日志中Y作为X的后继词出现的总次数,wi表示Y在与X共同出现的第i个会话中的权重,其中wi的大小与第i个会话中X的后继词总数成反比,与第i个会话中Y作为X的后继词出现的位序成正比。
11.根据权利要求8所述的装置,其特征在于,所述过滤策略至少包括以下一种:
策略一、将泛需求词对应的后继词中与该泛需求词之间的关联强度低于第二设定阈值的后继词过滤掉;
策略二、将泛需求词对应的后继词中与该泛需求词具有相同分词的后继词过滤掉;
策略三、将泛需求词对应的后继词中属于同一实体类别所占比例低于第三设定阈值的后继词过滤掉。
12.一种智能搜索装置,包括:
接收单元,用于获取用户的搜索关键词;
匹配单元,用于将所述搜索关键词与权利要求8至11所述装置得到的对应关系词表中的泛需求词进行匹配;
第一搜索单元,用于在所述匹配单元匹配通过时,利用所述对应关系词表中所述搜索关键词对应的精确需求词获取第一搜索结果。
13.根据权利要求12所述的装置,其特征在于,所述第一搜索结果中的各结果项分别由所述搜索关键词对应的不同精确需求词得到,且各结果项的排列顺序由得到该结果项的精确需求词与所述搜索关键词之间的关联强度确定。
14.根据权利要求12所述的装置,其特征在于,所述装置进一步包括:
第二搜索单元,用于利用所述搜索关键词获取第二搜索结果,并将所述第一搜索结果嵌入到所述第二搜索结果中返回给用户。
CN201210554903.5A 2012-12-19 2012-12-19 一种搜索需求的挖掘方法、智能搜索方法及其装置 Active CN103885947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210554903.5A CN103885947B (zh) 2012-12-19 2012-12-19 一种搜索需求的挖掘方法、智能搜索方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210554903.5A CN103885947B (zh) 2012-12-19 2012-12-19 一种搜索需求的挖掘方法、智能搜索方法及其装置

Publications (2)

Publication Number Publication Date
CN103885947A true CN103885947A (zh) 2014-06-25
CN103885947B CN103885947B (zh) 2018-08-10

Family

ID=50954842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210554903.5A Active CN103885947B (zh) 2012-12-19 2012-12-19 一种搜索需求的挖掘方法、智能搜索方法及其装置

Country Status (1)

Country Link
CN (1) CN103885947B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102723A (zh) * 2014-07-21 2014-10-15 百度在线网络技术(北京)有限公司 搜索内容提供方法和搜索引擎
WO2016062255A1 (zh) * 2014-10-22 2016-04-28 百度在线网络技术(北京)有限公司 多轮会话交互方法、系统和计算机设备
CN105677633A (zh) * 2014-11-21 2016-06-15 科大讯飞股份有限公司 词语联想方法及装置
CN106681598A (zh) * 2017-01-13 2017-05-17 北京百度网讯科技有限公司 信息输入方法和装置
CN108306814A (zh) * 2017-08-11 2018-07-20 腾讯科技(深圳)有限公司 基于即时通讯的信息推送方法、装置、终端及存储介质
CN109299378A (zh) * 2018-10-26 2019-02-01 Oppo广东移动通信有限公司 搜索结果的展示方法、装置、终端及存储介质
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140587A (zh) * 2007-10-15 2008-03-12 深圳市迅雷网络技术有限公司 一种搜索方法及装置
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN102402619A (zh) * 2011-12-23 2012-04-04 广东威创视讯科技股份有限公司 一种搜索方法和装置
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN102722498A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 搜索引擎及其实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140587A (zh) * 2007-10-15 2008-03-12 深圳市迅雷网络技术有限公司 一种搜索方法及装置
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN102722498A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 搜索引擎及其实现方法
CN102402619A (zh) * 2011-12-23 2012-04-04 广东威创视讯科技股份有限公司 一种搜索方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102723A (zh) * 2014-07-21 2014-10-15 百度在线网络技术(北京)有限公司 搜索内容提供方法和搜索引擎
CN104102723B (zh) * 2014-07-21 2017-07-25 百度在线网络技术(北京)有限公司 搜索内容提供方法和搜索引擎
WO2016062255A1 (zh) * 2014-10-22 2016-04-28 百度在线网络技术(北京)有限公司 多轮会话交互方法、系统和计算机设备
US10817786B2 (en) 2014-10-22 2020-10-27 Baidu Online Network Technology (Beijing) Co., Ltd. Multi-round session interaction method and system, and computer device
CN105677633A (zh) * 2014-11-21 2016-06-15 科大讯飞股份有限公司 词语联想方法及装置
CN106681598A (zh) * 2017-01-13 2017-05-17 北京百度网讯科技有限公司 信息输入方法和装置
CN106681598B (zh) * 2017-01-13 2020-12-15 北京百度网讯科技有限公司 信息输入方法和装置
CN108306814A (zh) * 2017-08-11 2018-07-20 腾讯科技(深圳)有限公司 基于即时通讯的信息推送方法、装置、终端及存储介质
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置
CN109299378A (zh) * 2018-10-26 2019-02-01 Oppo广东移动通信有限公司 搜索结果的展示方法、装置、终端及存储介质

Also Published As

Publication number Publication date
CN103885947B (zh) 2018-08-10

Similar Documents

Publication Publication Date Title
CN103885947A (zh) 一种搜索需求的挖掘方法、智能搜索方法及其装置
CN102708100B (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
CN102760134B (zh) 一种同义词的挖掘方法和装置
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN108829658A (zh) 新词发现的方法及装置
CN105045901A (zh) 搜索关键词的推送方法和装置
CN109543178A (zh) 一种司法文本标签体系构建方法及系统
CN105389713A (zh) 基于用户历史数据的移动流量套餐推荐算法
CN102110098B (zh) 网络信息推荐方法及系统
CN105159930A (zh) 搜索关键词的推送方法和装置
CN103631948A (zh) 命名实体的识别方法
CN107943909A (zh) 基于评论数据的用户需求趋势挖掘方法及装置、存储介质
CN106407484A (zh) 一种基于弹幕语义关联的视频标签提取方法
CN102760142A (zh) 一种针对搜索请求抽取搜索结果主题标签的方法和装置
CN101393555A (zh) 一种垃圾博客检测方法
CN106202034A (zh) 一种基于依存约束和知识的形容词词义消歧方法和装置
CN104298683B (zh) 主题挖掘方法和设备、以及查询扩展方法和设备
CN104679738A (zh) 互联网热词挖掘方法及装置
CN106202294A (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN108027814A (zh) 停用词识别方法与装置
CN105528411A (zh) 船舶装备交互式电子技术手册全文检索装置及方法
CN109657070B (zh) 一种终端辅助swot指标体系的构建方法
CN103778122A (zh) 搜索方法和系统
CN108647199A (zh) 一种地名新词的发现方法
CN102521402B (zh) 文本过滤系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant