CN101140587A - 一种搜索方法及装置 - Google Patents
一种搜索方法及装置 Download PDFInfo
- Publication number
- CN101140587A CN101140587A CNA2007101628427A CN200710162842A CN101140587A CN 101140587 A CN101140587 A CN 101140587A CN A2007101628427 A CNA2007101628427 A CN A2007101628427A CN 200710162842 A CN200710162842 A CN 200710162842A CN 101140587 A CN101140587 A CN 101140587A
- Authority
- CN
- China
- Prior art keywords
- search
- related term
- search word
- record
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种搜索方法,用于提供与搜索词的主题相关的相关词,提高搜索准确率,以及提升用户体验。所述方法为:根据用户输入的搜索词在搜索词库中查找到对应的相关词,其中该相关词与所述搜索词对应有相同的点击的记录;根据所述搜索词进行搜索,并输出获得的相关词和搜索结果。本发明还公开了与搜索方法有关的确定相关词的方法、更新搜索词库的方法及用于实现上述方法的装置,以及公开了一种系统。
Description
技术领域
本发明涉及计算机及通信领域,特别是涉及搜索方法及装置。
背景技术
随着全球信息的急剧膨胀,人们对信息的获取显得尤为迫切。搜索引擎作为获得信息的主要工具之一,为人们高效、准确的获取信息带来了极大的便利。如何快速的让用户快速准确获取所需要的信息,已成为搜索引擎研究的热点。
大多数搜索引擎在根据用户输入的搜索词进行搜索的同时,还向用户提供搜索词的相关词,相关词具有提示和建议的功能,提示出常用的与搜索词相关的主题,节省了用户获取信息的困难程度。
目前,现有技术确定相关词的方法主要有以下几种:
一、在具有公共文字的多个搜索词之间建立相关性,这是目前比较通用的方式。该方法所得到的相关词与对应的搜索词必须存在相同的词,具有一定的局限性,并且具有公共文字的多个搜索词不一定指向同一主题,例如“北京大学”与“北京交通”。
二、通过统计每个用户的搜索词集合,确定各个集合中每两个搜索词间具有相关性。与电子商务有关的搜索引擎通常使用该方法。但通常同一用户的搜索词间并没有明显的相关性,例如数码产品对应的集合中的“手机”和“数码照相机”,该方法所带来的无效信息较多。
三、通过人工编辑的方式为搜索词添加对应的相关词。该方法占用较多的人力资源,并且缺乏即时性。
发明内容
本发明实施例提供一种搜索方法及装置,用于提供与搜索词的主题相关的相关词,提高搜索准确率,以及提升用户体验。
一种确定相关词的方法,包括以下步骤:
获得有搜索词与点击记录的对应关系;
确定对应关系中一条点击记录对应的多个搜索词互为相关词。
一种更新搜索词库的方法,包括以下步骤:
根据用户输入的第一搜索词搜索到至少一条记录,并记录用户点击的记录;
在搜索词库中查找到对应有所述点击的记录的第二搜索词;
当确定搜索词库中未记录第一搜索词和第二搜索词互为相关词时,在搜索词库中记录第一搜索词为第二搜索词的相关词,以及,记录第二搜索词为第一搜索词的相关词。
一种搜索方法,包括以下步骤:
根据用户输入的搜索词在搜索词库中查找到对应的相关词,其中该相关词与所述搜索词对应有相同的点击的记录;
根据所述搜索词进行搜索,并输出获得的相关词和搜索结果。
另一种搜索方法,包括以下步骤:
对用户输入的搜索词进行分词处理,并根据所述搜索词及其对应的分词查找相关词;
根据词长对获得的相关词进行过滤,根据过滤后保留的相关词和所述搜索词进行搜索。
一种用于确定相关词的装置,包括:
接口模块,用于获得搜索词与点击记录的对应关系;
判断模块,用于确定对应关系中一条点击记录对应的多个搜索词互为相关词。
一种用于更新搜索词库的装置,包括:
接口模块,用于接收用户输入的第一搜索词,以及确定用户点击的记录;
搜索模块,用于根据第一搜索词搜索到至少一条搜索记录;
查找模块,用于在搜索词库中查找到对应有所述点击的记录的第二搜索词;
执行模块,用于当确定搜索词库中未记录第一搜索词和第二搜索词互为相关词时,在搜索词库中记录第一搜索词为第二搜索词的相关词,以及,记录第二搜索词为第一搜索词的相关词。
一种用于搜索的装置,包括:
接口模块,用于接收用户输入的搜索词;
查找模块,用于根据所述搜索词在搜索词库中查找到对应的相关词,其中该相关词与所述搜索词对应有相同的点击的记录;
搜索模块,用于根据所述搜索词及获得的相关词进行搜索。
另一种用于搜索的装置,包括:
接口模块,用于接收用户输入的搜索词;
分词模块,用于对所述搜索词进行分词处理;
查找模块,用于根据所述搜索词及其对应的分词查找相关词;
过滤模块,用于根据词长对获得的相关词进行过滤;
搜索模块,用于根据过滤后保留的相关词和所述搜索词进行搜索。
一种系统,包括用于更新搜索词库的装置和用于搜索信息的装置。
本发明实施例将对应同一条点击记录的多个搜索词确定为相关词,自动确定指向相同主题但可能不具有公共词的多个搜索词之间互为相关词,获得的相关词较全面,为用户提供更多的信息,以及根据获得的相关词可搜索到较多的用户需要的信息。
附图说明
图1为本发明实施例中确定相关词的主要方法流程图;
图2为本发明实施例中确定相关词的详细方法流程图;
图3为本发明实施例中关于搜索词与搜索频率的示意图;
图4为本发明实施例中关于搜索词、点击记录和点击次数的示意图;
图5为本发明实施例中更新搜索词库的主要方法流程图;
图6为本发明实施例中更新搜索词库的详细方法流程图;
图7为本发明实施例中搜索词库更新前后变化的示意图;
图8为本发明实施例中搜索方法的主要方法流程图;
图9为本发明实施例中搜索方法的详细方法流程图;
图10为本发明实施例中合并过程的示意图;
图11为本发明实施例中关于查找相关词对应的分词的过程的示意图;
图12为本发明实施例中采用过滤过程的搜索方法的主要方法流程图;
图13为本发明实施例中装置的结构图;
图14为本发明实施例中用于实现采用过滤过程搜索的装置的结构图。
具体实施方式
可能不同的用户输入的搜索词不同,但他们关心的主题相同,因此,本发明实施例确定一条点击的记录对应的多个搜索词互为相关词。例如,一位用户输入的搜索词为“知识产权”,另一位用户输入的搜索词为“专利”,根据“知识产权”和“专利”均搜索到了“中华人民共和国国家知识产权局”的链接地址,并且这两位用户均点击了该地址,则确定“知识产权”和“专利”互为相关词。
参见图1,本实施例中确定相关词的主要方法流程如下:
步骤101:获得有搜索词与点击记录的对应关系。获得的方式有多种,如通过人工编辑的方式获得。或者,如根据用户输入的搜索词搜索到至少一条搜索记录,并确定用户点击的点击记录,以及确定用户输入的搜索词与用户点击的点击记录具有的对应关系。本实施例以下主要以通过用户输入而自动获得的方式进行详细说明。
步骤102:查找对应关系中的搜索词和点击记录。
步骤103:确定一条点击记录对应的多个搜索词互为相关词。其中,点击记录包括点击的统一资源定位(Uniform Resource Locator,URL)地址(如http://www.sipo.gov.cn/sipo/)和/或点击的标题(如“中华人民共和国国家知识产权局”)。
在实际应用中,可能对应同一点击记录的多个搜索词之间的相关性不大,指向的主题距离较远,并且对于一些大型搜索引擎,每天的搜索量非常大,如果对每个搜索词均执行上述实施例的过程,则占用较多的资源。为了解决上述问题,本实施例采用了一些技术手段,参见图2所示,具体流程如下:
步骤201:接收用户输入的搜索词,并更新搜索词对应的搜索频率,其中,搜索频率可通过多种方式确定,如方式一:为在一定时间范围内,该搜索词出现的次数与所有搜索词出现的次数和的比值(可以是百分比),本实施例将时间范围设定在一天。如方式二:将搜索词出现的次数确定为搜索频率。如方式三:将搜索词对应的用户数确定为搜索频率。或者是上述多种方式的结合。关于搜索词与搜索频率的对应关系,可参见图3所示的一个实例。例如,输入的搜索词为“知识产权的保护”和“如何申请专利”。
步骤202:对搜索词进行分词处理,确定搜索词对应的分词。例如,对“知识产权的保护”进行分词后得到“知识产权”、“的”和“保护”,或者得到“知识”、“产权”、“的”和“保护”。对“如何申请专利”进行分词后得到“如何”、“申请”和“专利”。
步骤203:根据词性对搜索词进行过滤。具体方式可以是去掉虚词和代词等,保留实义词,如名词。例如,对“知识产权的保护”过滤后保留的词为“知识产权”和“保护”,对“如何申请专利”过滤后保留的词为“申请”和“专利”,或者只保留“专利”。
步骤204:根据输入的搜索词及其对应的分词搜索到至少一条搜索记录,并确定用户点击的记录,以及保存该搜索词(还可以包括过滤后的搜索词和分解后的分词)、对应的点击记录和点击次数,保存的数据关系可参见图3和图4所示的实例。
步骤205:从保存的搜索词中选择符合条件的搜索词,条件包括确定搜索词的搜索频率大于预设的搜索阈值、确定搜索词与对应的点击的记录同时出现的次数大于预设的词频阈值、和确定搜索词对应的搜索记录的数目大于预设的搜索记录阈值中的一项或多项。通过该步骤可减少用于相关性判断的搜索词的数量,并且可以认为不符合条件的搜索词与其它搜索词的相关性较弱。
为了实现对搜索词相关性的进一步控制,还可以包括步骤206:从保存的点击记录中选择符合条件的点击记录,条件包括确定点击记录的点击次数大于预设的次数阈值。例如,搜索频率大于搜索阈值的两个搜索词对应同一点击记录,而该点击记录的点击次数未超过次数阈值,可认为这两个搜索词之间的相关性较弱。
步骤207:确定一条点击记录对应的多个搜索词互为相关词,以及确定所述多个搜索词中的搜索词为搜索词对应的分词的相关词。当点击记录为URL地址时,由于URL地址具有唯一性,所以根据URL地址确定的搜索词之间的相关性较强;当点击记录为点击的标题时,由于存在同一文章被多个网站转载的情况,所以根据点击的标题确定的搜索词较多,确定的相关词可能更全面。
关于步骤205-207,确定一条点击记录对应的多个搜索词互为相关词的具体实现过程有多种,如第一种:从图4中选择一条点击记录,对该点击记录执行步骤206,或者对所有的点击记录执行步骤206,并从满足条件的点击记录中选择一条;根据确定的点击记录在图3中查找对应的搜索词,对查找的搜索词执行步骤205,或者对所有的搜索词执行步骤205,根据确定的点击记录从满足条件的搜索词中查找对应的搜索词;确定查找到的且满足步骤205中的条件的搜索词互为相关词。如第二种:从图3中选择一个满足步骤205中的条件的搜索词,并从该搜索词对应的点击记录中选择一条满足步骤206中的条件的点击记录,再根据该点击记录查找其它满足步骤205中的条件的搜索词,将前述的搜索词与所述其它的搜索词彼此确定为相关词。
在步骤207中,可通过一些技术手段来筛选出相关性较强的相关词,本实施例中认为满足条件的两个搜索词之间的相关性较强,可确定互为相关词,条件包括确定两个搜索词分别与一条点击的记录同时出现的次数之和大于预设的词对阈值、确定两个搜索词均对应的点击的记录的数目大于预设的数目阈值、确定两个搜索词具有相同的词、和根据预设的权重确定关于两个搜索词的权重值大于预设的权重阈值中的一项或多项。
其中,权重包括关于两个搜索词具有相同的词的长度与两个搜索词的长度和的比值的权重W1、关于两个搜索词分别与一条点击的记录同时出现的次数之和的权重W2、关于两个搜索词均对应的点击的记录的数目的权重W3和关于一条点击的记录的点击次数的权重W4中的一项或多项。本实施例中各权重的关系为:W1>W2>W3>W4。例如,搜索词“知识产权”的长度为4,对应的点击记录“专利信息网”的点击次数为50,对应的点击记录“知识产权局”的点击次数为100,搜索词“知识”的长度为2,对应的点击记录“专利信息网”的点击次数为40,对应的点击记录“知识产权局”的点击次数为110,这两个搜索词具有相同的词(包括字)“知识”,其长度为2,则比值为2/(2+4)=0.33,点击记录“专利信息网”关于这两个搜索词的点击次数之和为50+40=90,点击记录“知识产权局”关于这两个搜索词的点击次数之和为100+110=210,搜索词“知识产权”和“知识”对应的相同点击记录的数目为2,可能存在搜索词“专利”也对应有点击记录“专利信息网”的点击次数为40,则点击记录“专利信息网”的点击次数为90+40=130,点击记录“知识产权局”对应的点击次数仍为210。则,根据点击记录“专利信息网”计算搜索词“知识产权”和“知识”的权重值1为0.33 W1+90W2+2W3+130W4,根据点击记录“知识产权局”计算搜索词“知识产权”和“知识”的权重值2为0.33 W1+210W2+2W3+210W4。只要权重值1和权重值2中的一个大于权重阈值,便可确定搜索词“知识产权”和“知识”互为相关词。或者,必须权重值1和权重值2均大于权重阈值,才能确定搜索词“知识产权”和“知识”互为相关词。
本实施例通过搜索词库存储搜索词及其对应的相关词,所以确定相关词的方法可用于更新搜索词库,参见图5所示,主要方法流程如下:
步骤501:接收用户输入的第一搜索词。
步骤502:根据第一搜索词搜索到至少一条记录,并记录用户点击的记录。其中点击记录包括URL地址和/或点击的标题。
步骤503:在搜索词库中查找到对应有所述点击的记录的第二搜索词。其中,搜索词库具体为一种数据库,但不限于此。
步骤504:当确定搜索词库中未记录第一搜索词和第二搜索词互为相关词时,在搜索词库中记录第一搜索词为第二搜索词的相关词,以及,记录第二搜索词为第一搜索词的相关词。
本实施例采用了一些技术手段来避免搜索词库存储与搜索词相关性较弱的相关词,参见图6所示,更新搜索词库的具体方法流程如下:
步骤601:接收用户输入的第一搜索词,并更新搜索词对应的搜索频率。
步骤602:对第一搜索词进行分词处理,确定第一搜索词对应的分词。
步骤603:根据词性对第一搜索词进行过滤。
步骤604:根据第一搜索词及其对应的分词搜索到至少一条搜索记录,并确定用户点击的记录,以及保存该第一搜索词(还可以包括过滤后的第一搜索词和分解后的分词)、对应的点击记录和点击次数。
步骤605:确定第一搜索词符合预设的条件,条件包括确定搜索词的搜索频率大于预设的搜索阈值、确定搜索词与对应的点击的记录同时出现的次数大于预设的词频阈值、和确定搜索词对应的搜索记录的数目大于预设的搜索记录阈值中的一项或多项。通过该步骤可减少用于相关性判断的搜索词的数量,并且可以认为不符合条件的搜索词与其它搜索词的相关性较弱。不符合条件时结束本流程。
步骤606:确定点击记录符合预设的条件,条件包括确定点击记录的点击次数大于预设的次数阈值。通过点击记录也可实现对搜索词相关性的控制。不符合条件时结束本流程。
步骤607:满足步骤605和606中条件后,在搜索词库中查找到对应有所述点击记录的第二搜索词。
步骤608:当搜索词库中未记录第一搜索词和第二搜索词互为相关词时,在搜索词库中记录第一搜索词为第二搜索词的相关词,以及,记录第二搜索词为第一搜索词的相关词。还可确定第二搜索词为第一搜索词对应的分词的相关词并记录在搜索词库中。
步骤609:在搜索词库中记录第二搜索词的相关词为第一搜索词的相关词,以及若搜索词库中已记录有第一搜索词的相关词,则记录第一搜索词的相关词为第二搜索词的相关词。
在步骤608中,可通过一些技术手段来筛选出相关性较强的相关词,本实施例中认为满足条件的两个搜索词之间的相关性较强,可确定互为相关词,条件包括确定两个搜索词分别与一条点击的记录同时出现的次数之和大于预设的词对阈值、确定两个搜索词均对应的点击的记录的数目大于预设的数目阈值、确定两个搜索词具有相同的词、和根据预设的权重确定关于两个搜索词的权重值大于预设的权重阈值中的一项或多项。
搜索词库更新前后的变化可参见图7所示的实例。搜索词库可包括图3、图4和图7中所示的内容,其中的内容也可通过人工编辑的方式进行补充。
搜索词库主要是为搜索信息服务,在搜索过程中需要的相关词主要从搜索词库中获得,下面介绍一种搜索方法,参见图8所示,主要方法流程如下:
步骤801:接收用户输入的搜索词。
步骤802:根据输入的搜索词在搜索词库中查找到对应的相关词,其中该相关词与所述搜索词对应有相同的点击的记录。其中,点击记录包括URL地址和/或点击的标题。
步骤803:向用户输出所述搜索词的相关词,并可根据所述搜索词及其相关词进行搜索。
可通过一些技术手段来进一步提高搜索效率,快速准确的搜索到用户需要的信息,参见图9所示,具体方法流程如下:
步骤901:接收用户输入的搜索词,并更新搜索词对应的搜索频率。
步骤902:对搜索词进行分词处理,确定搜索词对应的分词。本实施例用Sk表示搜索词,k=1、2......,k取不同的值来区分不同的搜索词,Sk对应的分词用Dn表示,n=1、2......,n取不同的值来区分Sk对应的多个分词。其中,分词也可能是记录中的搜索词。
步骤903:根据词性对输入的搜索词进行过滤。
步骤904:根据输入的搜索词在搜索词库中查找到对应的相关词,并根据所述搜索词对应的分词查找相关词,其中该相关词与搜索词(包括分词)对应有相同的点击的记录。相关词可用Pm表示,m=1、2......,用于标识一个Sk(及Sk对应的{Dn|n=1、2......})所对应的相关词,例如,P1表示S3对应的第二个相关词。
步骤905:判断查找到的相关词中是否有相同的相关词,若有,则保留相同多个相关词中的一个,使获得的相关词彼此唯一,减少重复操作,继续步骤906,若没有,则直接继续步骤906。例如,D2与D1均对应P1,所以会查找到两个P1,则保留其中一个即可。一个合并过程的示意图参见图10所示。
步骤906:根据词长对相关词进行过滤,之后可直接继续步骤909,根据过滤后保留的相关词进行搜索,为了实现较高的搜索效率,本实施例中继续步骤907。过滤的具体过程包括:确定当前获得的相关词分别对应的分词;确定各相关词对应的分词的总长度;过滤掉对应的总长度小于所述搜索词的长度的相关词,或者过滤掉对应的总长度小于预设的长度阈值的相关词。其中,长度可以指中文文字的个数,英文中单词的个数。
例如,Pm对应的分词包括{D1、D3、D4、......},Pm对应的总长度L(Pm)为{D1、D3、D4、......}中各Dn的长度和∑L(Dn),判断∑L(Dn)是否小于Sk的长度,若是,则认为分词组合后得到的词与Sk的相关性不强,即推定Pm与Sk的相关性不强,去掉该Pm,否则保留;或者,判断∑L(Dn)是否小于预设的长度阈值Lt,若是,则去掉该Pm,否则保留。对Sk对应的多个Pm依次执行上述过程。其中,确定Pm对应的分词的过程可视为合并过程的逆过程,参见图11所示的示意图。
步骤907:判断当前获得的Pm的个数是否大于预设的显示阈值,若是,则认为较多的相关词可能对用户产生干扰,则继续步骤908,否则继续步骤909。
步骤908:过滤掉超过显示阈值数量的相关词Pm。具体过滤方式有多种,如按照相关词作为搜索词时对应的搜索频率由高到低的顺序保留与显示阈值对应数量的相关词;或者,如随机保留与显示阈值对应数量的相关词;或者,如根据预设的关于搜索频率的权重和关于相同词的长度的权重确定各相关词的权重值,按照权重值由高到低的顺序保留与显示阈值对应数量的相关词。
例如,Pm与Sk的公共词长为Lc,关于公共词长的权重为T1,Pm作为搜索词时的搜索频率为Fk,k=1、2......,k取不同的值来区分不同的搜索词对应的搜索频率,关于搜索频率的权重为T2,在权重值为Lc*T1+Fk*T2。由于认为Lc值越大表示相关性越强,Fk值越大表示受关注的程度越高,所以认为权重值越大表示相关性越强。
步骤909:向用户输出所述搜索词的相关词,并可根据所述搜索词及其对应的相关词进行搜索。当前可能得到多个相关词,为了提高用户体验,优先输出或搜索相关性较强的相关词。确定优先级顺序的方式有多种,如按照相关词作为搜索词时对应的搜索频率由高到低的顺序;或者,如按照步骤908中的权重值由高到低的顺序依次。如果是按照搜索频率的高低确定优先级,可能导致搜索频率较高的相关词所对应的搜索频率越来越高,搜索频率较低的相关词所对应的搜索频率越来越低,使得相关词的确定出现偏差,则可以采用一些技术手段来避免这问题,如当再次根据所述搜索词进行搜索时,最后根据上次搜索过程中对应的搜索频率最高的相关词进行搜索,将较高搜索频率的相关词提升到最高搜索频率的位置,采用这种循环机制可解决该问题。
在步骤909中,向用户输出所述搜索词的相关词的方式有多种,如在输出信息的页面上集中输出各相关词,形如:相关词1 相关词2 相关词3,并且各相关词带有超连接,用户可直接点击相关词进行针对相关词的搜索。或者,如根据相关词进行搜索后输出搜索记录,搜索记录中包含对应的相关词,例如,相关词为“专利”,一条搜索记录为“目前我国对专利的保护......”。
在进行步骤909后,可记录用户点击的记录,以更新搜索词对应的相关词。
在进行步骤901时,可接续更新搜索词库的过程,搜索信息的过程与更新搜索词库的过程可同步进行,以完善搜索方法。
步骤906所示的过滤方法也可应用在目前的搜索方法中,参见图12所示,主要方法流程如下:
步骤1201:接收用户输入的搜索词。
步骤1202:对输入的搜索词进行分词处理,并根据所述搜索词及其对应的分词查找相关词。
步骤1203:根据词长对获得的相关词进行过滤,并根据过滤后保留的相关词和所述搜索词进行搜索。
过滤的具体过程包括:确定当前获得的相关词分别对应的分词;确定各相关词对应的分词的总长度;过滤掉对应的总长度小于所述搜索词的长度的相关词,或者过滤掉对应的总长度小于预设的长度阈值的相关词。
参见图13,本实施例中的装置包括接口模块1301、分词模块1302、查找模块1303、过滤模块1304、判断模块1305、搜索模块1306和执行模块1307。
接口模块1301用于获得搜索词与点击记录的对应关系,以及向用户输出信息。获得对应关系具体为:接收用户输入的搜索词,向用户输出搜索到的记录和获得的相关词,以及确定用户点击的记录;或者,接收人工编辑图3、图4和图7时的操作。
分词模块1302用于对搜索词进行分词处理。
查找模块1303用于查找对应关系中的搜索词和点击记录,在搜索词库中查找到对应有当前用户点击的记录的其它搜索词,以及根据当前输入的搜索词及其对应的分词在搜索词库中查找到对应的相关词。
过滤模块1304用于根据词性和/或词长对获得的相关词进行过滤。
判断模块1305用于直接确定一条点击的记录对应的多个搜索词互为相关词,或者采用多种技术手段确定一条点击的记录对应的多个搜索词是否互为相关词。
搜索模块1306用于根据所述搜索词及获得的相关词进行搜索。
执行模块1307用于当确定搜索词库中未记录第一搜索词和第二搜索词互为相关词时,在搜索词库中记录第一搜索词为第二搜索词的相关词,记录第二搜索词为第一搜索词的相关词,以及若搜索词库中已记录有第一搜索词的相关词,则记录第一搜索词的相关词为第二搜索词的相关词。
本实施例中的装置还可包括存储模块,本图未示出,该存储模块用于存储图3、图4和图7所示的内容,可具体为硬盘、磁带和闪存等存储介质。
当该装置用于确定相关词时,其中,接口模块1301用于获得搜索词与点击记录的对应关系;判断模块1305用于确定一条点击的记录对应的多个搜索词互为相关词。
当该装置用于更新搜索词库时,其中,接口模块1301用于接收用户输入的第一搜索词,以及确定用户点击的记录;搜索模块1306用于根据第一搜索词搜索到至少一条搜索记录;查找模块1303用于在搜索词库中查找到对应有所述点击的记录的第二搜索词;执行模块1307用于当确定搜索词库中未记录第一搜索词和第二搜索词互为相关词时,在搜索词库中记录第一搜索词为第二搜索词的相关词,以及,记录第二搜索词为第一搜索词的相关词。
当该装置用于搜索时,其中,接口模块1301用于接收用户输入的搜索词;查找模块1303用于根据所述搜索词在搜索词库中查找到对应的相关词,其中该相关词与所述搜索词对应有相同的点击的记录;搜索模块1306用于根据所述搜索词及获得的相关词进行搜索。
用于搜索信息的装置和用于更新搜索词库的装置可构成一个系统,即构成完整的搜索引擎。
参见图14,本实施例中用于实现图12所示的搜索方法的装置包括接口模块1401、分词模块1402、查找模块1403、过滤模块1404和搜索模块1405。
接口模块1401用于接收用户输入的搜索词。分词模块1402用于对所述搜索词进行分词处理。查找模块1403用于根据所述搜索词及其对应的分词查找相关词。过滤模块1404用于根据词长对获得的相关词进行过滤。搜索模块1405用于根据过滤后保留的相关词和所述搜索词进行搜索。
本发明实施例将对应同一条点击记录的多个搜索词确定为相关词,自动确定指向相同主题但可能不具有公共词的多个搜索词之间互为相关词,获得的相关词较全面,为用户提供更多的信息,以及根据获得的相关词可搜索到较多的用户需要的信息。同时,本发明实施例通过对相关词的过滤及为确定相关词设置条件,来对相关词进行筛选,保留相关性较强的相关词,减少了数据量的冗余及对用户的干扰。本发明实施例详细描述了两个主要的应用场景,更新搜索词库和搜索信息,便于在实际生产中的应用。本发明实施例适用于各类网站中的搜索引擎。
用于实现本发明实施例的软件可存在于软盘、硬盘、磁带和闪存等存储介质中。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (35)
1.一种确定相关词的方法,其特征在于,包括以下步骤:
获得有搜索词与点击记录的对应关系;
确定对应关系中一条点击记录对应的多个搜索词互为相关词。
2.如权利要求1所述的方法,其特征在于,获得搜索词与点击记录的对应关系的方式包括:
根据用户输入的搜索词搜索到至少一条搜索记录,并确定用户点击的点击记录,以及确定用户输入的搜索词与用户点击的点击记录具有的对应关系;或者
通过人工编辑的方式获得。
3.如权利要求1所述的方法,其特征在于,点击记录包括点击的统一资源定位URL地址和/或点击的标题。
4.如权利要求1所述的方法,其特征在于,在确定相关词前,对搜索词进行分词处理,并确定所述多个搜索词中的搜索词为搜索词对应的分词的相关词。
5.如权利要求4所述的方法,其特征在于,在确定相关词前,根据词性对搜索词进行过滤。
6.如权利要求1所述的方法,其特征在于,在确定相关词之前,需要至少满足下列条件之一:
确定搜索词的搜索频率大于预设的搜索阈值;
确定搜索词与对应的点击记录同时出现的次数大于预设的词频阈值;
确定所述一条点击记录的点击次数大于预设的次数阈值;
确定搜索词对应的搜索记录的数目大于预设的搜索记录阈值。
7.如权利要求1至6中任一项所述的方法,其特征在于,在判断所述多个搜索词中的两个搜索词互为相关词时,需要至少满足下列条件之一:
确定所述两个搜索词分别与所述一条点击记录同时出现的次数之和大于预设的词对阈值;
确定所述两个搜索词均对应的点击的记录的数目大于预设的数目阈值;
确定所述两个搜索词具有相同的词;
根据预设的权重确定关于所述两个搜索词的权重值大于预设的权重阈值。
8.如权利要求7所述的方法,其特征在于,所述权重包括关于所述两个搜索词具有相同的词的长度与所述两个搜索词的长度和的比值的权重、关于所述两个搜索词分别与所述一条点击的记录同时出现的次数之和的权重、关于所述两个搜索词均对应的点击的记录的数目的权重和关于所述一条点击的记录的点击次数的权重中的一项或多项。
9.一种更新搜索词库的方法,其特征在于,包括以下步骤:
根据用户输入的第一搜索词搜索到至少一条记录,并记录用户点击的记录;
在搜索词库中查找到对应有所述点击的记录的第二搜索词;
当确定搜索词库中未记录第一搜索词和第二搜索词互为相关词时,在搜索词库中记录第一搜索词为第二搜索词的相关词,以及,记录第二搜索词为第一搜索词的相关词。
10.如权利要求9所述的方法,其特征在于,进一步在搜索词库中记录第二搜索词的相关词为第一搜索词的相关词,以及在记录第一搜索词和第二搜索词互为相关词前搜索词库中已记录有第一搜索词的相关词时,记录第一搜索词的相关词为第二搜索词的相关词。
11.如权利要求9所述的方法,其特征在于,点击的记录包括点击的统一资源定位URL地址和/或点击的标题。
12.如权利要求9所述的方法,其特征在于,在确定相关词前,对第一搜索词进行分词处理,并确定第二搜索词为第一搜索词对应的分词的相关词并记录在搜索词库中。
13.如权利要求12所述的方法,其特征在于,在确定相关词前,根据词性对第一搜索词进行过滤。
14.如权利要求9所述的方法,其特征在于,在确定相关词之前,需要至少满足下列条件之一:
确定第一搜索词的搜索频率大于预设的搜索阈值;
确定第一搜索词与所述点击的记录同时出现的次数大于预设的词频阈值;
确定所述点击的记录的点击次数大于预设的次数阈值;
确定第一搜索词对应的搜索记录的数目大于预设的搜索记录阈值。
15.如权利要求9至14中任一项所述的方法,其特征在于,在判断互为相关词时,需要至少满足下列条件之一:
确定第一搜索词和第二搜索词分别与所述点击的记录同时出现的次数之和大于预设的词对阈值;
确定第一搜索词和第二搜索词均对应的点击的记录的数目大于预设的数目阈值;
确定第一搜索词和第二搜索词具有相同的词;
根据预设的权重确定关于第一搜索词和第二搜索词的权重值大于预设的权重阈值。
16.一种搜索方法,其特征在于,包括以下步骤:
根据用户输入的搜索词在搜索词库中查找到对应的相关词,其中该相关词与所述搜索词对应有相同的点击的记录;
根据所述搜索词进行搜索,并输出获得的相关词和搜索结果。
17.如权利要求16所述的方法,其特征在于,在查找相关词时,对所述搜索词进行分词处理,并根据所述搜索词对应的分词查找相关词。
18.如权利要求17所述的方法,其特征在于,在进行分词处理后,根据词性对所述搜索词进行过滤。
19.如权利要求18所述的方法,其特征在于,当查找到多个相关词且多个相关词中存在至少两个相同的相关词时,保留所述至少两个相同的相关词中的一个相关词。
20.如权利要求19所述的方法,其特征在于,进一步根据词长对相关词进行过滤,根据过滤后保留的相关词进行搜索。
21.如权利要求20所述的方法,其特征在于,根据词长对相关词进行过滤的步骤包括:
确定查找到且保留下的相关词分别对应的分词;
确定各相关词对应的分词的总长度;
过滤掉对应的总长度小于所述搜索词的长度的相关词,或者过滤掉对应的总长度小于预设的长度阈值的相关词。
22.如权利要求16至21中任一项所述的方法,其特征在于,当得到的相关词的个数大于预设的显示阈值时,过滤掉超过显示阈值数量的相关词。
23.如权利要求22所述的方法,其特征在于,过滤掉超过显示阈值数量的相关词的实现方式包括:
按照相关词作为搜索词时对应的搜索频率由高到低的顺序保留与显示阈值对应数量的相关词;或者
随机保留与显示阈值对应数量的相关词;或者
根据预设的关于搜索频率的权重和关于相同词的长度的权重确定各相关词的权重值,按照权重值由高到低的顺序保留与显示阈值对应数量的相关词。
24.如权利要求16所述的方法,其特征在于,进一步根据获得的相关词进行搜索。
25.如权利要求24所述的方法,其特征在于,在根据相关词进行搜索时,按照相关词作为搜索词时对应的搜索频率由高到低的顺序,依次对相关词进行搜索;或者,根据预设的关于搜索频率的权重和关于相同词的长度的权重确定各相关词的权重值,按照权重值由高到低的顺序依次进行搜索。
26.如权利要求25所述的方法,其特征在于,当再次根据所述搜索词进行搜索时,最后根据上次搜索过程中对应的搜索频率最高的相关词进行搜索。
27.如权利要求16所述的方法,其特征在于,点击的记录包括点击的统一资源定位URL地址和/或点击的标题。
28.一种搜索方法,其特征在于,包括以下步骤:
对用户输入的搜索词进行分词处理,并根据所述搜索词及其对应的分词查找相关词;
根据词长对获得的相关词进行过滤,根据过滤后保留的相关词和所述搜索词进行搜索。
29.如权利要求28所述的方法,其特征在于,当查找到多个相关词且多个相关词中存在至少两个相同的相关词时,保留所述至少两个相同的相关词中的一个相关词。
30.如权利要求28所述的方法,其特征在于,根据词长对相关词进行过滤的步骤包括:
确定查找到且保留下的相关词分别对应的分词;
确定各相关词对应的分词的总长度;
过滤掉对应的总长度小于所述搜索词的长度的相关词,或者过滤掉对应的总长度小于预设的长度阈值的相关词。
31.一种用于确定相关词的装置,其特征在于,包括:
接口模块,用于获得搜索词与点击记录的对应关系;
判断模块,用于确定对应关系中一条点击记录对应的多个搜索词互为相关词。
32.一种用于更新搜索词库的装置,其特征在于,包括:
接口模块,用于接收用户输入的第一搜索词,以及确定用户点击的记录;
搜索模块,用于根据第一搜索词搜索到至少一条搜索记录;
查找模块,用于在搜索词库中查找到对应有所述点击的记录的第二搜索词;
执行模块,用于当确定搜索词库中未记录第一搜索词和第二搜索词互为相关词时,在搜索词库中记录第一搜索词为第二搜索词的相关词,以及,记录第二搜索词为第一搜索词的相关词。
33.一种用于搜索的装置,其特征在于,包括:
接口模块,用于接收用户输入的搜索词;
查找模块,用于根据所述搜索词在搜索词库中查找到对应的相关词,其中该相关词与所述搜索词对应有相同的点击的记录;
搜索模块,用于根据所述搜索词进行搜索,并通过所述接口模块输出获得的相关词和搜索结果。
34.一种用于搜索的装置,其特征在于,包括:
接口模块,用于接收用户输入的搜索词;
分词模块,用于对所述搜索词进行分词处理;
查找模块,用于根据所述搜索词及其对应的分词查找相关词;
过滤模块,用于根据词长对获得的相关词进行过滤;
搜索模块,用于根据过滤后保留的相关词和所述搜索词进行搜索。
35.一种系统,其特征在于,包括权利要求32所述的装置和权利要求33所述的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101628427A CN101140587A (zh) | 2007-10-15 | 2007-10-15 | 一种搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101628427A CN101140587A (zh) | 2007-10-15 | 2007-10-15 | 一种搜索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101140587A true CN101140587A (zh) | 2008-03-12 |
Family
ID=39192539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007101628427A Pending CN101140587A (zh) | 2007-10-15 | 2007-10-15 | 一种搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101140587A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737038A (zh) * | 2011-04-07 | 2012-10-17 | 阿里巴巴集团控股有限公司 | 关联度确定方法及装置、信息提供方法及装置 |
CN102982142A (zh) * | 2012-03-16 | 2013-03-20 | 张占平 | 一种基于众多用户人工参与而生成折射词的方法 |
CN103034657A (zh) * | 2011-09-29 | 2013-04-10 | 日立(中国)研究开发有限公司 | 文档摘要生成方法和装置 |
CN103235778A (zh) * | 2013-01-30 | 2013-08-07 | 苏州海客科技有限公司 | 行程单关键字的智能衍生方法 |
CN103324637A (zh) * | 2012-03-23 | 2013-09-25 | 腾讯科技(深圳)有限公司 | 一种热点信息挖掘方法和系统 |
CN103425643A (zh) * | 2012-05-14 | 2013-12-04 | 深圳市世纪光速信息技术有限公司 | 一种相关搜索请求串推荐方法和系统 |
CN103678560A (zh) * | 2013-12-06 | 2014-03-26 | 乐视网信息技术(北京)股份有限公司 | 多媒体资源纠错检索方法、多媒体资源服务器及系统 |
CN103885947A (zh) * | 2012-12-19 | 2014-06-25 | 北京百度网讯科技有限公司 | 一种搜索需求的挖掘方法、智能搜索方法及其装置 |
CN104142964A (zh) * | 2013-06-13 | 2014-11-12 | 腾讯科技(北京)有限公司 | 信息匹配的方法及装置 |
CN104391958A (zh) * | 2014-11-28 | 2015-03-04 | 北京国双科技有限公司 | 网页搜索关键词的相关性检测方法及装置 |
CN104424215A (zh) * | 2013-08-23 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 进行数据搜索的方法及搜索服务器 |
CN105159884A (zh) * | 2015-09-23 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 行业词典的建立方法和装置及行业识别方法和装置 |
CN105512199A (zh) * | 2015-11-27 | 2016-04-20 | 广州神马移动信息科技有限公司 | 搜索方法、搜索装置以及搜索服务器 |
CN105955987A (zh) * | 2016-04-19 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 搜索推荐词的展示方法和装置 |
CN106557178A (zh) * | 2016-11-29 | 2017-04-05 | 百度国际科技(深圳)有限公司 | 用于更新输入法词条的方法及装置 |
CN106611029A (zh) * | 2015-10-27 | 2017-05-03 | 北京国双科技有限公司 | 提高网站站内搜索效率的方法和装置 |
CN106653006A (zh) * | 2016-11-17 | 2017-05-10 | 百度在线网络技术(北京)有限公司 | 基于语音交互的搜索方法和装置 |
WO2017215245A1 (zh) * | 2016-06-17 | 2017-12-21 | 广州视源电子科技股份有限公司 | 简历搜索方法和装置 |
CN107665220A (zh) * | 2016-07-29 | 2018-02-06 | 苏宁云商集团股份有限公司 | 一种用于搜索业务的处理方法及系统 |
CN107784014A (zh) * | 2016-08-30 | 2018-03-09 | 广州市动景计算机科技有限公司 | 信息搜索方法、设备及电子设备 |
CN109543113A (zh) * | 2018-12-21 | 2019-03-29 | 北京字节跳动网络技术有限公司 | 确定点击推荐词的方法、装置、存储介质及电子设备 |
CN109697256A (zh) * | 2018-12-21 | 2019-04-30 | 北京字节跳动网络技术有限公司 | 确定相关搜索词的方法、装置、存储介质及电子设备 |
-
2007
- 2007-10-15 CN CNA2007101628427A patent/CN101140587A/zh active Pending
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737038B (zh) * | 2011-04-07 | 2015-09-23 | 阿里巴巴集团控股有限公司 | 关联度确定方法及装置、信息提供方法及装置 |
CN102737038A (zh) * | 2011-04-07 | 2012-10-17 | 阿里巴巴集团控股有限公司 | 关联度确定方法及装置、信息提供方法及装置 |
CN103034657A (zh) * | 2011-09-29 | 2013-04-10 | 日立(中国)研究开发有限公司 | 文档摘要生成方法和装置 |
CN103034657B (zh) * | 2011-09-29 | 2015-12-02 | 日立(中国)研究开发有限公司 | 文档摘要生成方法和装置 |
CN102982142A (zh) * | 2012-03-16 | 2013-03-20 | 张占平 | 一种基于众多用户人工参与而生成折射词的方法 |
CN103324637B (zh) * | 2012-03-23 | 2017-12-12 | 深圳市世纪光速信息技术有限公司 | 一种热点信息挖掘方法和系统 |
CN103324637A (zh) * | 2012-03-23 | 2013-09-25 | 腾讯科技(深圳)有限公司 | 一种热点信息挖掘方法和系统 |
CN103425643A (zh) * | 2012-05-14 | 2013-12-04 | 深圳市世纪光速信息技术有限公司 | 一种相关搜索请求串推荐方法和系统 |
CN103885947A (zh) * | 2012-12-19 | 2014-06-25 | 北京百度网讯科技有限公司 | 一种搜索需求的挖掘方法、智能搜索方法及其装置 |
CN103885947B (zh) * | 2012-12-19 | 2018-08-10 | 北京百度网讯科技有限公司 | 一种搜索需求的挖掘方法、智能搜索方法及其装置 |
CN103235778A (zh) * | 2013-01-30 | 2013-08-07 | 苏州海客科技有限公司 | 行程单关键字的智能衍生方法 |
CN104142964A (zh) * | 2013-06-13 | 2014-11-12 | 腾讯科技(北京)有限公司 | 信息匹配的方法及装置 |
CN104424215A (zh) * | 2013-08-23 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 进行数据搜索的方法及搜索服务器 |
CN104424215B (zh) * | 2013-08-23 | 2018-02-27 | 腾讯科技(深圳)有限公司 | 进行数据搜索的方法及搜索服务器 |
CN103678560A (zh) * | 2013-12-06 | 2014-03-26 | 乐视网信息技术(北京)股份有限公司 | 多媒体资源纠错检索方法、多媒体资源服务器及系统 |
CN104391958B (zh) * | 2014-11-28 | 2018-06-26 | 北京国双科技有限公司 | 网页搜索关键词的相关性检测方法及装置 |
CN104391958A (zh) * | 2014-11-28 | 2015-03-04 | 北京国双科技有限公司 | 网页搜索关键词的相关性检测方法及装置 |
CN105159884A (zh) * | 2015-09-23 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 行业词典的建立方法和装置及行业识别方法和装置 |
CN105159884B (zh) * | 2015-09-23 | 2018-06-29 | 百度在线网络技术(北京)有限公司 | 行业词典的建立方法和装置及行业识别方法和装置 |
CN106611029A (zh) * | 2015-10-27 | 2017-05-03 | 北京国双科技有限公司 | 提高网站站内搜索效率的方法和装置 |
CN106611029B (zh) * | 2015-10-27 | 2020-03-03 | 北京国双科技有限公司 | 提高网站站内搜索效率的方法和装置 |
CN105512199B (zh) * | 2015-11-27 | 2020-04-14 | 广州神马移动信息科技有限公司 | 搜索方法、搜索装置以及搜索服务器 |
CN105512199A (zh) * | 2015-11-27 | 2016-04-20 | 广州神马移动信息科技有限公司 | 搜索方法、搜索装置以及搜索服务器 |
CN105955987A (zh) * | 2016-04-19 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 搜索推荐词的展示方法和装置 |
WO2017215245A1 (zh) * | 2016-06-17 | 2017-12-21 | 广州视源电子科技股份有限公司 | 简历搜索方法和装置 |
CN107665220A (zh) * | 2016-07-29 | 2018-02-06 | 苏宁云商集团股份有限公司 | 一种用于搜索业务的处理方法及系统 |
CN107784014A (zh) * | 2016-08-30 | 2018-03-09 | 广州市动景计算机科技有限公司 | 信息搜索方法、设备及电子设备 |
CN106653006B (zh) * | 2016-11-17 | 2019-11-08 | 百度在线网络技术(北京)有限公司 | 基于语音交互的搜索方法和装置 |
CN106653006A (zh) * | 2016-11-17 | 2017-05-10 | 百度在线网络技术(北京)有限公司 | 基于语音交互的搜索方法和装置 |
CN106557178A (zh) * | 2016-11-29 | 2017-04-05 | 百度国际科技(深圳)有限公司 | 用于更新输入法词条的方法及装置 |
CN106557178B (zh) * | 2016-11-29 | 2021-03-09 | 百度国际科技(深圳)有限公司 | 用于更新输入法词条的方法及装置 |
CN109543113A (zh) * | 2018-12-21 | 2019-03-29 | 北京字节跳动网络技术有限公司 | 确定点击推荐词的方法、装置、存储介质及电子设备 |
CN109697256A (zh) * | 2018-12-21 | 2019-04-30 | 北京字节跳动网络技术有限公司 | 确定相关搜索词的方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101140587A (zh) | 一种搜索方法及装置 | |
JP6488508B2 (ja) | ウェブページのアクセス方法、装置、デバイス及びプログラム | |
US8548973B1 (en) | Method and apparatus for filtering search results | |
CN103678494A (zh) | 客户端同步服务端数据的方法及装置 | |
CN108848244B (zh) | 一种分页显示的方法及装置 | |
CN111258978A (zh) | 一种数据存储的方法 | |
WO2014099488A1 (en) | Personalized search library based on continual concept correlation | |
CN107609192A (zh) | 一种搜索引擎的补充搜索方法和装置 | |
US20160070754A1 (en) | System and method for microblogs data management | |
CN105302807A (zh) | 一种获取信息类别的方法和装置 | |
CN102937905A (zh) | 一种试用应用软件和支持试用应用软件的方法及设备 | |
CN109388614A (zh) | 一种目录文件个数配额的方法、系统及设备 | |
CN107451204B (zh) | 一种数据查询方法、装置及设备 | |
CN106776136B (zh) | 数据库处理方法和装置 | |
CN107220248B (zh) | 一种用于存储数据的方法和装置 | |
CN103475532A (zh) | 硬件检测方法和系统 | |
CN111428117B (zh) | 应用程序的数据获取方法和装置 | |
CN112231531A (zh) | 一种基于opentsdb的数据展示方法、设备及介质 | |
CN105635821A (zh) | 一种视频过滤方法及装置 | |
CN103164491B (zh) | 一种数据处理和检索的方法及设备 | |
CN112966029B (zh) | 一种信息显示和发送方法、装置、设备和可读介质 | |
CN113343141A (zh) | 一种网页获取方法及装置 | |
CN103279575A (zh) | 文件信息处理方法及装置 | |
CN111459411B (zh) | 数据迁移方法、装置、设备及存储介质 | |
CN103152411B (zh) | 微博信息显示方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |