CN104424215A - 进行数据搜索的方法及搜索服务器 - Google Patents

进行数据搜索的方法及搜索服务器 Download PDF

Info

Publication number
CN104424215A
CN104424215A CN201310370878.XA CN201310370878A CN104424215A CN 104424215 A CN104424215 A CN 104424215A CN 201310370878 A CN201310370878 A CN 201310370878A CN 104424215 A CN104424215 A CN 104424215A
Authority
CN
China
Prior art keywords
word
search
inquiry
threshold value
query word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310370878.XA
Other languages
English (en)
Other versions
CN104424215B (zh
Inventor
王顼
唐文宁
禹荣凌
岑植旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310370878.XA priority Critical patent/CN104424215B/zh
Publication of CN104424215A publication Critical patent/CN104424215A/zh
Application granted granted Critical
Publication of CN104424215B publication Critical patent/CN104424215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了进行数据搜索的方法及搜索服务器,其中,该方法包括:从搜索日志中提取出设定时间段内的搜索记录;从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;由查询词的特征参数确定查询词是否为异常查询词;对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。本发明方案能够提高数据搜索时显示提示词的准确性。

Description

进行数据搜索的方法及搜索服务器
技术领域
本发明涉及数据处理技术,尤其涉及进行数据搜索的方法及搜索服务器。
背景技术
现有技术中,进行数据搜索时,用户在搜索网页的查询栏中输入查询词,向搜索服务器发送包含查询词的查询请求,接收搜索服务器反馈关于查询词的搜索条目;之后,用户可点击搜索条目,以切换到该搜索条目对应的网页查询详细内容。
在用户输入查询词的过程中,搜索服务器会根据用户输入的过程信息反馈联想词,以显示在网页的智能提示栏中;用户可直接点击联想词,以作为查询词,发送给搜索服务器。并且,在显示搜索条目时,网页在相关搜索栏还会显示与查询词关联的相关搜索词,一般地,相关搜索栏置于网页下端。
举例进行说明,想要输入的查询词为ABC,当输入到AB时,即过程信息为AB,联想词里包括ABC、阿波罗、ABB等,这时可以直接选中ABC;进行查询之后,相关搜索栏中显示的相关搜索词包括智能ABC输入法、ABC儿歌等。
用户的搜索行为记录在搜索日志中,搜索服务器对搜索日志进行分析,来确定各查询词的联想词和相关搜索词。分析方法有多种,举例说明:对于查询词ABC,如果搜索日志中记录的以“ABC公司最好”为查询词进行查询的次数大于设定阈值,则将“ABC公司最好”作为ABC的联想词和相关搜索词,分别放入联想词库和相关搜索词库中。这里,将联想词和相关搜索词统称为提示词。
在实际运用中,存在采用机器操作频繁输入查询词,以增加某查询词的搜索次数,进而将其设置到联想词库和相关搜索词库中,以提高该查询词为用户点击的几率。这导致搜索时显示提示词的准确性较低。
目前,机器操作一般具有搜索频率较高的特点,例如为1分钟10次查询,因而,为了避免机器操作,常采用如下的解决方式:对用户关于某查询词的搜索频率进行判断,如果大于设定阈值,例如大于1分钟5次,则判断为机器操作,对其进行标记,不将其作为提示词。但该方式存在以下缺陷:如果机器操作时将搜索频率降低,例如为1分钟1次,则无法对其进行避免,仍为将其确定为提示词,导致搜索时显示提示词的准确性很低。
发明内容
本发明提供了一种进行数据搜索的方法,该方法能够提高数据搜索时显示提示词的准确性。
本发明提供了一种进行数据搜索的搜索服务器,该搜索服务器提高数据搜索时显示提示词的准确性。
一种进行数据搜索的方法,该方法包括:
从搜索日志中提取出设定时间段内的搜索记录;
从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;
由查询词的特征参数确定查询词是否为异常查询词;
对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
一种进行数据搜索的搜索服务器,该搜索服务器包括搜索记录提取单元、特征参数统计单元、异常查询词确定单元和标记单元;
所述搜索记录提取单元,从搜索日志中提取出设定时间段内的搜索记录,发送给所述特征参数统计单元;
所述特征参数统计单元,从搜索记录中统计出对应查询词的特征参数,发送给所述异常查询词确定单元,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;
所述异常查询词确定单元,由查询词的特征参数确定查询词是否为异常查询词;
所述标记单元,对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
从上述方案可以看出,本发明中,从搜索日志中提取出设定时间段内的搜索记录;对提取出的搜索记录进行分析,从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次数Qv,查询词对应的查询前驱行为为空的查询次数NoReferQv;根据Qv、NoReferQv进行判断,确定出异常查询词;对异常查询词进行标记,以使联想词库和相关搜索词库中的异常查询词不用于后续的搜索处理。本发明基于查询词被查询的总次数Qv,查询词对应的查询前驱行为为空的查询次数NoReferQv,进行异常查询词的判断,而不采用基于搜索频率来确定异常查询词,这样,对于机器操作搜索频率较低的情况,可避免将其确定为提示词,从而,提高了数据搜索时显示提示词的准确性。
附图说明
图1为本发明进行数据搜索的方法示意性流程图;
图2为本发明进行数据搜索的方法流程图实例;
图3为本发明进行数据搜索的系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明进一步详细说明。
本发明基于查询词的多个特征参数确定其是否为异常查询词,而不再仅基于搜索频率来确定异常查询词;这样,对于机器操作搜索频率较低的情况,可避免将其确定为提示词,提高了数据搜索时显示提示词的准确性。
参见图1,为本发明进行数据搜索的方法示意性流程图,其包括以下步骤:
步骤101,从搜索日志中提取出设定时间段内的搜索记录。
用户的搜索行为记录在搜索日志中,包括对每次搜索的搜索时间、查询词、每次搜索后对搜索条目进行点击的次数,搜索行为输入的统一资源定位符(URL,Uniform Resource Locator)地址等等。
根据需要,可以从搜索日志中提取出设定时间段的搜索记录,设定时间段例如为2天。
步骤102,从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次数Qv,查询词对应的查询前驱行为为空的查询次数NoReferQv。
用于确定异常查询词的特征参数可根据需要设置,例如包括本步骤上述的两项,下面进行说明,设定时间段内记载的搜索记录中包含关于多个查询词的搜索行为,针对每个查询词分别统计出其特征参数。
针对某一查询词,Qv为设定时间段内该查询词被搜索的总次数,对设定时间段内关于该查询词的搜索行为进行累加,得到的结果便为总次数。
搜索记录中还包含各次搜索行为输入的URL地址,正常地,针对某次搜索行为,用户先输入前驱行为URL地址,然后再输入关于查询词的URL地址;一般地,前驱行为URL地址为搜索网站主页。举例说明,前驱行为URL地址为www.bdui.com,用户输入查询词“专利”,相应地,后续记录的URL地址为“http://www.bdui.com/s?wd=专利&rsv......”;正常地,搜索行为中记录有前驱行为URL地址;如果为机器操作,则直接多次输入后续URL地址,而没有前驱行为URL地址,这里统计出某查询词没有前驱行为URL地址的次数,作为前驱行为为空的查询次数NoreferQv。对应地,搜索记录中包含前驱行为URL地址的搜索行便为前驱行为非空的搜索,统计出某查询词有前驱行为URL地址的次数,作为前驱行为非空的查询次数referQv。
通过搜索记录,还可获知用户搜索各次查询词之后是否对搜索条目进行了点击,例如搜索关于查询词“专利”的搜索条目后,是否点击了搜索条目;对有点击的搜索行为数目进行统计,得到的结果作为有点击行为的查询次数CQv。进一步地,还可以统计针对搜索条目的点击次数,针对某查询词,将针对该查询词搜索条目进行点击的次数进行统计,得到的结果作为对搜索条目的点击次数Clicks。
所述特征参数还可以包括CQv、NoEentryQv、SentryQv和URLQv中的至少一种,关于NoEentryQv、SentryQv和URLQv,后续将分别进行说明。
步骤103,由查询词的特征参数确定查询词是否为异常查询词。
基于特征参数包含的不同内容,确定查询词是否为异常查询词具体方式也相应不同。下面进行具体说明。
特征参数包含Qv和NoReferQv时,本步骤可具体包括:判断NoReferQv/Qv是否大于第一设定阈值,如果是,则将查询词确定为异常查询词。
若所述特征参数还包括对查询词对应的查询结果有点击行为的查询次数CQv,所述判断NoReferQv/Qv不大于第一设定阈值之后,该方法还包括:
判断是否满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值,如果是,则将查询词确定为异常查询词。
如果判断出不满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值时,可以将查询词确定为非异常查询词。
进一步地,所述判断NoReferQv/Qv是否大于第一设定阈值之前,该方法还包括:
判断Qv是否大于第四设定阈值,如果是,则执行所述判断NoReferQv/Qv是否大于第一设定阈值的步骤,第四设定阈值小于第三设置阈值;否则,将查询词确定为非异常查询词。
步骤104,对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
具体标记时,可以对联想词库和相关搜索词库中的异常查询词进行标记;或者,生成异常词列表,将确定出的异常查询词添加到异常词列表中。
后续进行数据搜索,向用户反馈提示词时,可以结合标记,不向用户反馈异常查询词;具体地:
接收包含过程信息的查询过程输入信息;
从联想词库中获取与过程信息关联的联想词,去除其中标记为异常查询词的联想词,将剩余的联想词反馈给搜索客户端在智能提示栏中进行显示;
接收包含查询词的查询请求;
从相关搜索词库中获取与查询词关联的相关搜索词,反馈给搜索客户端在相关搜索栏中进行显示。
本发明中,从搜索日志中提取出设定时间段内的搜索记录;对提取出的搜索记录进行分析,从搜索记录中统计出对应查询词的多个特征参数,包括:Qv、NoReferQv;根据Qv、NoReferQv进行判断,确定出异常查询词;对异常查询词进行标记,以使联想词库和相关搜索词库中的异常查询词不用于后续的搜索处理。本发明基于查询词被查询的总次数Qv,查询词对应的查询前驱行为为空的查询次数NoReferQv,进行异常查询词的判断,而不采用基于搜索频率来确定异常查询词,这样,对于机器操作搜索频率较低的情况,可避免将其确定为提示词,从而,提高了数据搜索时显示提示词的准确性。
除了上述提到的根据Qv、NoReferQv和CQv进行判断,以确定出异常查询词。为了提高向用户显示提示词的准确性,还可以结合更多的特征参数或结合进一步的判断步骤确定异常查询词,下面进行举例说明:
实例一:
特征参数还包含查询词对应的搜索行为没有标明来源渠道的查询次数NoEentryQv,以及查询词对应的搜索行为来源渠道为特定渠道的查询次数SentryQv。
一般地,针对某查询词,其搜索记录中包含有搜索行为的来源,该来源具体如URL地址来源;对于机器操作,某些情况没有来源渠道,这里,对没有来源渠道的搜索行为次数进行统计,得到的总值表示为NoEentryQv。
通过记录的URL地址,可以获知来源渠道;确定SentryQv的方法包括:对于某查询词,对设定时间段内的搜索行为来源渠道进行统计,统计出关于各来源渠道的搜索次数,如果某来源渠道的搜索次数所占比例存在异常,则将该来源渠道确定为特定渠道,将关于该特定渠道的搜索行为进行统计,将得到的总次数作为SentryQv。举例说明,针对查询词“刘德华”,从三个来源渠道进行搜索,搜索行为总次数为1000次,三个入口分别为hao123网页、新浪网页和百度网页,搜索次数分别为200、300和500次,这属于正常行为;如果搜索行为总次数为1000次,从hao123网页、新浪网页和百度网页口三个入访问的搜索次数分别为20、40、940次,则确定从百度网页进行访问的搜索行为为特定渠道来源的行为,这种情况多为机器操作,则SentryQv为940。
相应地,步骤103所述判断不满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值之后,该方法还包括:
判断SentryQv/Qv是否大于第五设定阈值,如果是,则将查询词确定为异常查询词;否则判断NoEentryQv/Qv是否大于第六设定阈值,如果是,则将查询词确定为异常查询词。
实例二:
特征参数包含URL信息错误次数URLQv,所述URLQv表示查询词对应的URL信息中含有的标签与实际情况不相符合的次数。
搜索记录中还包含各次搜索行为输入的URL地址,正常地,针对某次搜索行为,用户先输入前驱行为URL地址,然后再输入关于查询词的URL地址,前驱行为URL地址为搜索网站主页;一般地,各次输入的URL地址是一致的;如果不一致,则多为机器操作,统计出这种搜索行为的次数,作为URLQv。
例如,前驱行为URL地址为www.bdui.com,用户输入查询词“专利”,后续记录的URL地址为“http://www.bdui.com/s?wd=专利&rsv......”,该地址中包含“www.bdui.com”,与前面的地址信息一致,确定两者一致;如果后续记录的地址为“http://www.bbb.com/s?wd=专利......”,与“www.bdui.com”不一致,则确定为机器操作,与实际情况不相符合。
相应地,所述判断NoEentryQv/Qv不大于第六设定阈值之后,该方法还包括:
判断URLQv/Qv是否大于第七设定阈值,如果是,则将查询词确定为异常查询词。
下面通过图2的流程,对本发明进行数据搜索的方法举例说明,其包括以下步骤:
步骤201,从搜索日志中提取出设定时间段内的搜索记录。
步骤202,从搜索记录中统计出对应查询词的特征参数。
本实例中,特征参数包括表1所示的统计项,其中Uv为针对某查询词,进行搜索行为的用户数目总和。
统计项 说明
Qv 查询词被查询的总次数
Uv 查询用户总数
CQv 对查询词对应的查询结果有点击行为的查询次数
Clicks 对搜索条目的点击次数
NoReferQv 查询词对应的查询前驱行为为空的查询次数
SEntryQv 查询词对应的搜索行为来源渠道为特定渠道的查询次数
NoEntryQv 查询词对应的搜索行为没有标明来源渠道的查询次数
UrlQv URL信息错误次数
表1特征参数包含的统计项
统计出特征参数后,对设定时间段内的各查询词分别执行步骤203-208,以确定其是否为异常查询词。针对每个特征参数,都有相应的设定阈值,各设定阈值为用于确定是否为异常查询词的临界值。
步骤203,判断Qv是否大于第四设定阈值,如果是,则执行步骤204;否则,将查询词确定为非异常查询词。
本实例中,第四设定阈值为50。
步骤204,判断NoReferQv/Qv是否大于第一设定阈值的步骤,如果是,则将查询词确定为异常查询词,否则,执行步骤205。
本实例中,第一设定阈值为0.8。
步骤205,判断是否满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值,如果是,则将查询词确定为异常查询词;否则执行步骤206。
本实例中,第二设定阈值为0.05,第三设定阈值为200。
步骤206,判断SentryQv/Qv是否大于第五设定阈值,如果是,则将查询词确定为异常查询词;否则执行步骤207。
本实例中,第五设定阈值为0.8。
步骤207,判断NoEentryQv/Qv是否大于第六设定阈值,如果是,则将查询词确定为异常查询词;否则执行步骤208。
本实例中,第六设定阈值为0.8。
步骤208,判断URLQv/Qv是否大于第七设定阈值,如果是,则将查询词确定为异常查询词;否则将查询词确定为非异常查询词。
本实例中,第七设定阈值为0.8。
步骤209,对异常查询词进行标记,以使联想词库和相关搜索词库中的异常查询词不用于后续的搜索处理。
本实例基于查询词的多个特征参数确定查询词是否为异常查询词,而不再仅基于搜索频率来确定异常查询词;这样,对于机器操作搜索频率较低的情况,可避免将其确定为提示词,提高了数据搜索时显示提示词的准确性。
参见图3,为本发明进行数据搜索的搜索服务器,其特征在于,该搜索服务器包括搜索记录提取单元、特征参数统计单元、异常查询词确定单元和标记单元;
所述搜索记录提取单元,从搜索日志中提取出设定时间段内的搜索记录,发送给所述特征参数统计单元;
所述特征参数统计单元,从搜索记录中统计出对应查询词的特征参数,发送给所述异常查询词确定单元,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;
所述异常查询词确定单元,由查询词的特征参数确定查询词是否为异常查询词;
所述标记单元,对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
较佳地,所述特征参数还包括CQv、NoEentryQv、SentryQv和URLQv中的至少一种。
较佳地,所述异常查询词确定单元包括第一判断子单元,判断NoReferQv/Qv是否大于第一设定阈值,如果是,则将查询词确定为异常查询词。
较佳地,所述特征参数还包括对查询词对应的查询结果有点击行为的查询次数CQv,所述异常查询词确定单元还包括第二判断子单元,判断NoReferQv/Qv不大于第一设定阈值之后,向所述第二判断子单元发送启动指令;
所述第二判断子单元,接收启动指令,判断是否满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值,如果是,则将查询词确定为异常查询词。
较佳地,所述异常查询词确定单元还包括第三判断子单元,判断Qv是否大于第四设定阈值,如果是,则向所述第一判断子单元发送启动指令,第四设定阈值小于第三设置阈值;否则,将查询词确定为非异常查询词;
所述第一判断子单元在接收启动指令后才对查询词的特征参数进行判断。
较佳地,所述特征参数还包含查询词对应的搜索行为没有标明来源渠道的查询次数SentryQv,以及查询词对应的搜索行为来源渠道为特定渠道的查询次数NoEentryQv;所述异常查询词确定单元还包括第四判断子单元;
所述第二判断子单元,判断查询词的特征参数不满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值时,向所述第四判断子单元发送启动指令;
所述第四判断子单元,接收启动指令,判断SentryQv/Qv是否大于第五设定阈值,如果是,则将查询词确定为异常查询词;否则判断NoEentryQv/Qv是否大于第六设定阈值,如果是,则将查询词确定为异常查询词。
较佳地,所述特征参数还包含URL信息错误次数URLQv,所述URLQv表示查询词对应的URL信息中含有的标签与实际情况不相符合的次数;所述异常查询词确定单元还包括第五判断子单元;
所述第四判断子单元判断出NoEentryQv/Qv不大于第六设定阈值时,向所述第五判断子单元发送启动指令;
所述第五判断子单元,接收启动指令,判断URLQv/Qv是否大于第七设定阈值,如果是,则将查询词确定为异常查询词。
较佳地,该搜索服务器还包括搜索反馈单元,接收包含过程信息的查询过程输入信息;从联想词库中获取与过程信息关联的联想词,去除其中标记为异常查询词的联想词,将剩余的联想词反馈给搜索客户端在智能提示栏中进行显示;接收包含查询词的查询请求,从相关搜索词库中获取与查询词关联的相关搜索词,反馈给搜索客户端在相关搜索栏中进行显示。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种进行数据搜索的方法,其特征在于,该方法包括:
从搜索日志中提取出设定时间段内的搜索记录;
从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;
由查询词的特征参数确定查询词是否为异常查询词;
对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
2.如权利要求1所述的方法,其特征在于,所述特征参数还包括CQv、NoEentryQv、SentryQv和URLQv中的至少一种。
3.如权利要求1所述的方法,其特征在于,所述由查询词的特征参数确定查询词是否为异常查询词,包括:判断NoReferQv/Qv是否大于第一设定阈值,如果是,则将查询词确定为异常查询词。
4.如权利要求3所述的方法,其特征在于,所述特征参数还包括对查询词对应的查询结果有点击行为的查询次数CQv,判断NoReferQv/Qv不大于第一设定阈值之后,该方法还包括:
判断是否满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值,如果是,则将查询词确定为异常查询词。
5.如权利要求4所述的方法,其特征在于,所述判断NoReferQv/Qv是否大于第一设定阈值之前,该方法还包括:
判断Qv是否大于第四设定阈值,如果是,则执行所述判断NoReferQv/Qv是否大于第一设定阈值的步骤,第四设定阈值小于第三设置阈值;否则,将查询词确定为非异常查询词。
6.如权利要求4或5所述的方法,其特征在于,所述特征参数还包含查询词对应的搜索行为没有标明来源渠道的查询次数NoEentryQv,以及查询词对应的搜索行为来源渠道为特定渠道的查询次数SentryQv;判断不满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值之后,该方法还包括:
判断SentryQv/Qv是否大于第五设定阈值,如果是,则将查询词确定为异常查询词;否则判断NoEentryQv/Qv是否大于第六设定阈值,如果是,则将查询词确定为异常查询词。
7.如权利要求6所述的方法,其特征在于,所述特征参数还包含统一资源定位符URL信息错误次数URLQv,所述URLQv表示查询词对应的URL信息中含有的标签与实际情况不相符合的次数;所述判断NoEentryQv/Qv不大于第六设定阈值之后,该方法还包括:
判断URLQv/Qv是否大于第七设定阈值,如果是,则将查询词确定为异常查询词。
8.如权利要求1所述的方法,其特征在于,该方法还包括:
接收包含过程信息的查询过程输入信息;
从联想词库中获取与过程信息关联的联想词,去除其中标记为异常查询词的联想词,将剩余的联想词反馈给搜索客户端在智能提示栏中进行显示;
接收包含查询词的查询请求;
从相关搜索词库中获取与查询词关联的相关搜索词,反馈给搜索客户端在相关搜索栏中进行显示。
9.一种进行数据搜索的搜索服务器,其特征在于,该搜索服务器包括搜索记录提取单元、特征参数统计单元、异常查询词确定单元和标记单元;
所述搜索记录提取单元,从搜索日志中提取出设定时间段内的搜索记录,发送给所述特征参数统计单元;
所述特征参数统计单元,从搜索记录中统计出对应查询词的特征参数,发送给所述异常查询词确定单元,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;
所述异常查询词确定单元,由查询词的特征参数确定查询词是否为异常查询词;
所述标记单元,对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
10.如权利要求9所述的搜索服务器,其特征在于,所述特征参数还包括CQv、NoEentryQv、SentryQv和URLQv中的至少一种。
11.如权利要求9所述的搜索服务器,其特征在于,所述异常查询词确定单元包括第一判断子单元,判断NoReferQv/Qv是否大于第一设定阈值,如果是,则将查询词确定为异常查询词。
12.如权利要求11所述的搜索服务器,其特征在于,所述特征参数还包括对查询词对应的查询结果有点击行为的查询次数CQv,所述异常查询词确定单元还包括第二判断子单元,判断NoReferQv/Qv不大于第一设定阈值之后,向所述第二判断子单元发送启动指令;
所述第二判断子单元,接收启动指令,判断是否满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值,如果是,则将查询词确定为异常查询词。
13.如权利要求12所述的搜索服务器,其特征在于,所述异常查询词确定单元还包括第三判断子单元,判断Qv是否大于第四设定阈值,如果是,则向所述第一判断子单元发送启动指令,第四设定阈值小于第三设置阈值;否则,将查询词确定为非异常查询词;
所述第一判断子单元在接收启动指令后才对查询词的特征参数进行判断。
14.如权利要求12或13所述的搜索服务器,其特征在于,所述特征参数还包含查询词对应的搜索行为没有标明来源渠道的查询次数SentryQv,以及查询词对应的搜索行为来源渠道为特定渠道的查询次数NoEentryQv;所述异常查询词确定单元还包括第四判断子单元;
所述第二判断子单元,判断查询词的特征参数不满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值时,向所述第四判断子单元发送启动指令;
所述第四判断子单元,接收启动指令,判断SentryQv/Qv是否大于第五设定阈值,如果是,则将查询词确定为异常查询词;否则判断NoEentryQv/Qv是否大于第六设定阈值,如果是,则将查询词确定为异常查询词。
15.如权利要求14所述的搜索服务器,其特征在于,所述特征参数还包含URL信息错误次数URLQv,所述URLQv表示查询词对应的URL信息中含有的标签与实际情况不相符合的次数;所述异常查询词确定单元还包括第五判断子单元;
所述第四判断子单元判断出NoEentryQv/Qv不大于第六设定阈值时,向所述第五判断子单元发送启动指令;
所述第五判断子单元,接收启动指令,判断URLQv/Qv是否大于第七设定阈值,如果是,则将查询词确定为异常查询词。
16.如权利要求9所述的搜索服务器,其特征在于,该搜索服务器还包括搜索反馈单元,接收包含过程信息的查询过程输入信息;从联想词库中获取与过程信息关联的联想词,去除其中标记为异常查询词的联想词,将剩余的联想词反馈给搜索客户端在智能提示栏中进行显示;接收包含查询词的查询请求,从相关搜索词库中获取与查询词关联的相关搜索词,反馈给搜索客户端在相关搜索栏中进行显示。
CN201310370878.XA 2013-08-23 2013-08-23 进行数据搜索的方法及搜索服务器 Active CN104424215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310370878.XA CN104424215B (zh) 2013-08-23 2013-08-23 进行数据搜索的方法及搜索服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310370878.XA CN104424215B (zh) 2013-08-23 2013-08-23 进行数据搜索的方法及搜索服务器

Publications (2)

Publication Number Publication Date
CN104424215A true CN104424215A (zh) 2015-03-18
CN104424215B CN104424215B (zh) 2018-02-27

Family

ID=52973213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310370878.XA Active CN104424215B (zh) 2013-08-23 2013-08-23 进行数据搜索的方法及搜索服务器

Country Status (1)

Country Link
CN (1) CN104424215B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874510A (zh) * 2017-03-01 2017-06-20 深圳市博信诺达经贸咨询有限公司 应用于大数据的统计方法及系统
CN112037818A (zh) * 2020-08-30 2020-12-04 北京嘀嘀无限科技发展有限公司 异常情况确定方法和正向匹配式生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140587A (zh) * 2007-10-15 2008-03-12 深圳市迅雷网络技术有限公司 一种搜索方法及装置
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
US20110060733A1 (en) * 2009-09-04 2011-03-10 Alibaba Group Holding Limited Information retrieval based on semantic patterns of queries
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140587A (zh) * 2007-10-15 2008-03-12 深圳市迅雷网络技术有限公司 一种搜索方法及装置
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
US20110060733A1 (en) * 2009-09-04 2011-03-10 Alibaba Group Holding Limited Information retrieval based on semantic patterns of queries
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874510A (zh) * 2017-03-01 2017-06-20 深圳市博信诺达经贸咨询有限公司 应用于大数据的统计方法及系统
CN112037818A (zh) * 2020-08-30 2020-12-04 北京嘀嘀无限科技发展有限公司 异常情况确定方法和正向匹配式生成方法

Also Published As

Publication number Publication date
CN104424215B (zh) 2018-02-27

Similar Documents

Publication Publication Date Title
CN108304410B (zh) 一种异常访问页面的检测方法、装置及数据分析方法
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及系统
CN106919625B (zh) 一种互联网用户属性识别方法和装置
CN101464905B (zh) 一种网页信息抽取的系统及方法
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN101329687B (zh) 一种新闻网页定位方法
WO2016000555A1 (zh) 基于社交网络的内容、新闻推荐方法和系统
CN103164427A (zh) 新闻聚合方法及装置
CN102567494B (zh) 网站分类方法及装置
JP2013531289A (ja) 検索におけるモデル情報群の使用
CN102411617B (zh) 一种对海量url进行存储和查询方法
CN110602045A (zh) 一种基于特征融合和机器学习的恶意网页识别方法
CN102662969A (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN102402563A (zh) 网络信息筛选方法和装置
CN103488675A (zh) 一种多网页新闻评论内容自动精确提取装置
CN104424215A (zh) 进行数据搜索的方法及搜索服务器
CN104636470A (zh) 一种推荐业务资讯的方法及装置
CN107526833B (zh) 一种url管理方法、系统
CN103853771A (zh) 一种搜索结果的推送方法及系统
CN102819595A (zh) 网页分类方法、装置及网络设备
CN101576933A (zh) 基于标题分隔符的全自动web页面分组法
CN104281671A (zh) 一种对搜索结果的详情页进行处理的方法和装置
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN105956013A (zh) 网站关键词提取方法、装置和系统
CN102567016A (zh) 应用程序编程接口使用示例提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240103

Address after: 518057, 35th Floor, Tencent Building, Keji Middle Road, High tech Zone, Shenzhen, Guangdong Province

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Address before: 2, 518044, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right