CN103530299A - 一种搜索结果的生成方法及装置 - Google Patents

一种搜索结果的生成方法及装置 Download PDF

Info

Publication number
CN103530299A
CN103530299A CN201210233248.3A CN201210233248A CN103530299A CN 103530299 A CN103530299 A CN 103530299A CN 201210233248 A CN201210233248 A CN 201210233248A CN 103530299 A CN103530299 A CN 103530299A
Authority
CN
China
Prior art keywords
info web
information
searching keyword
attribute
specific field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210233248.3A
Other languages
English (en)
Other versions
CN103530299B (zh
Inventor
韩小梅
宋超
韦袆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210233248.3A priority Critical patent/CN103530299B/zh
Priority to TW101142220A priority patent/TW201403360A/zh
Priority to US13/929,099 priority patent/US9934293B2/en
Priority to KR1020147035902A priority patent/KR101644817B1/ko
Priority to PCT/US2013/048731 priority patent/WO2014008139A2/en
Priority to JP2015520600A priority patent/JP6022056B2/ja
Publication of CN103530299A publication Critical patent/CN103530299A/zh
Application granted granted Critical
Publication of CN103530299B publication Critical patent/CN103530299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本申请提供了一种搜索结果的生成方法和装置,所述方法包括:依据用户输入的查询关键词搜索相应的网页信息;针对各网页信息对应的信息发布者,提取该信息发布者发布的所有网页信息中,比重大于预设阀值的第一指定字段或第二指定字段,将所述第一指定字段的核心词,作为该信息发布者的第一属性对应的属性值,第二指定字段作为第二属性对应的属性值;提取符合预设条件的网页信息作为搜索结果,所述预设条件为,所述网页信息对应的第一属性与所述查询关键词相匹配,或所述网页信息对应的第二属性与所述查询关键词相匹配。本申请可以减少向服务器发送请求的次数,减轻服务器的负载。

Description

一种搜索结果的生成方法及装置
技术领域
本申请涉及网络通信技术,特别是涉及一种搜索结果的生成方法和装置。
背景技术
现有的搜索系统中,以电子商务网站搜索为例,当用户在搜索页面输入搜索关键词进行检索时,搜索引擎将查询词与供应信息数据库中的供应信息进行匹配,对与查询词文本相似或语义相似的供应信息,依据点击率进行排序,将排名靠前的供应信息返回给用户。
以上现有技术中存在的问题是,由于搜索供应信息的时候仅仅针对搜索关键词和供应信息进行匹配,部分供应商为了增加商品曝光,会发布一些虚假的供应信息欺骗买家。例如某商家主营产品是钢琴,为了吸引更多人购买钢琴,就在网页上投放了标题为供应某热门手机的网页信息,买家点击相应链接却发现大量的关于钢琴的网页信息,不符合买家的购买意图,浪费了买家的搜索时间,进而增加了向服务器发送请求的次数,加重了服务器的负载。
因此,目前需要本领域技术人员解决的一个技术问题就是,提供一种搜索结果的生成机制,以减少向服务器发送请求的次数,减轻服务器的负载。
发明内容
本申请所要解决的技术问题是提供一种搜索结果的生成方法,以减少向服务器发送请求的次数,减轻服务器的负载。
本申请还提供了一种搜索结果的生成装置,用以保证上述方法在实际中的应用及实现。
为了解决上述问题,本申请公开了一种搜索结果的生成方法,包括:
依据用户输入的查询关键词搜索相应的网页信息;
针对各网页信息对应的信息发布者,提取该信息发布者发布的所有网页信息中,比重大于预设阀值的第一指定字段或第二指定字段,将所述第一指定字段的核心词,作为该信息发布者的第一属性对应的属性值,第二指定字段作为第二属性对应的属性值;
提取符合预设条件的网页信息作为搜索结果,所述预设条件为,所述网页信息对应的第一属性与所述查询关键词相匹配,或所述网页信息对应的第二属性与所述查询关键词相匹配。
优选的,所述第一属性为主营产品,所述第二属性为主营行业;
所述第一指定字段为供应产品词,所述第二指定字段为所属行业。
优选的,所述网页信息为供应信息时,所述网页信息包括供应产品词、所属行业、商品属性、发布者信息,所述发布者信息包括供应商地址、公司名称、主营产品和主营行业。
优选的,在针对各供应信息,统计其供应商的主营产品或主营行业之前,所述方法还包括:
过滤与所述查询关键词的相似度小于预设相似度的网页信息。
优选的,所述网页信息与查询关键词的相似度通过以下步骤获取:
分别提取各网页信息和查询关键词中的核心产品词;
由各核心产品词在不同点击类目中点击率,计算各网页信息与查询关键词的相似度。
优选的,所述方法还包括:
将所述搜索结果进行排序后在页面展示。
优选的,所述方法还包括:
依据各信息发布者的第一属性和第二属性对其发布者信息进行更新。
优选的,所述信息发布者为广告主,所述将提取的网页信息进行排序的步骤包括:
分别统计所述查询关键词在各网页信息中的特征信息,所述特征信息包括网页信息中查询关键词的位置信息,以及查询关键词与网页信息的相关度;
由所述特征信息和点击概率预测模型,获取各网页信息的预测点击概率,所述点击概率预测模型包括不同的特征信息对应的预测点击概率的统计值;
按照所述预测点击概率和查询关键词价格的乘积,对各网页信息进行排序。
本申请还提供了一种搜索结果的生成装置,包括:
网页信息搜索模块,用于依据用户输入的查询关键词搜索相应的网页信息;
属性值统计模块,用于针对各网页信息对应的信息发布者,提取该信息发布者发布的所有网页信息中,比重大于预设阀值的第一指定字段或第二指定字段,将所述第一指定字段的核心词,作为该信息发布者的第一属性对应的属性值,第二指定字段作为第二属性对应的属性值;
搜索结果提取模块,用于提取符合预设条件的网页供息作为搜索结果,所述预设条件为,所述网页信息对应的第一属性与所述查询关键词相匹配,或所述网页信息对应的第二属性与所述查询关键词相匹配。
优选的,所述装置还包括:
网页信息过滤模块,用于过滤与所述查询关键词的相似度小于预设相似度的网页信息。
与现有技术相比,本申请具有以下优点:
依据本申请,依据查询关键词搜索供应信息后,在过滤掉与查询关键词相似度较低的搜索结果后,找出供应商的主营产品和主营行业,将主营产品包括查询关键词对应的产品,或主营行业包括查询关键词对应行业的供应信息作为搜索结果,即搜索结果中的供应信息均是以查询关键词中的产品作为主营产品,或是主营行业的相关产品。若某供应商发布所查询产品的虚假交易信息,可以通过找出其主营产品和主营行业并非所需查询的产品,来过滤掉其供应信息,增加了与买家的购买意图的相关性,节约了用户的搜索时间。并且,由于在搜索结果中剔除了与主营产品,或主营行业不相关的供应信息,因此搜索引擎服务器向发起搜索请求的客户端传输搜索结果数据时,就相应的减少了传输的数据量(虚假交易信息被过滤掉,传输的数据量必然减少),导致网络传输速度加快,避免网络堵塞。
此外,本申请还可以对各供应信息的点击概率进行预测,并依据预测点击概率和查询关键词的出价对供应信息排序后进行展示,提高了搜索结果的点击率。同时,依据各供应商的主营产品和主营行业对其供应商信息进行更新,可以减少因为客户更新不及时导致信息遗漏的问题。
附图说明
图1是本申请的一种搜索结果的生成方法实施例1的流程图;
图2是本申请的一种搜索结果的生成方法实施例2的流程图;
图3是本申请的一种搜索结果的生成装置实施例1的结构框图;
图4是本申请的一种搜索结果的生成装置实施例2的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参考图1,示出了本申请的一种搜索结果的生成方法实施例1的流程图,具体可以包括以下步骤:
步骤101、依据用户输入的查询关键词搜索相应的网页信息。
用户在搜索页面输入查询关键词进行检索时,搜索引擎会将查询关键词与预置的网页信息数据库进行匹配,将与查询关键词文本相似或语义相近的网页信息,提取出来作为初步搜索结果。在本申请中,所述网页信息可以为供应信息。
步骤102、针对各网页信息对应的信息发布者,提取该信息发布者发布的所有网页信息中,比重大于预设阀值的第一指定字段或第二指定字段,将所述第一指定字段的核心词,作为该信息发布者的第一属性对应的属性值,第二指定字段作为第二属性对应的属性值。其中,所述第一指定字段的核心词可以是核心产品词。
其中,所述第一属性为主营产品,所述第二属性为主营行业,所述第一指定字段为供应产品词(例如可以是供应诺基亚手机),所述第二指定字段为所属行业(例如可以是通信设备),相应的,可以将第一指定字段的核心产品词作为第一属性的属性值(例如,第一指定字段为“供应诺基亚手机”,提取的核心产品词为“手机”,可以将手机作为主营产品的属性值),第二指定字段作为第二属性的属性值(例如,第二指定字段为“通信设备”,将“通信设备”作为主营行业的属性值)。在本申请中,所述网页信息为供应信息时,可以包括供应产品词、所属行业、商品属性、发布者等信息,其中发布者信息为供应商信息。每条供应信息可以对应相同的商品名称,但商品属性可以不一致。其中,所述发布者信息可以包括供应商地址、公司名称、主营产品和主营行业等信息。例如,用户搜索手机的供应信息,其中一条供应信息包括:
供应诺基亚手机
所属行业:通信设备
GSM红色,产地广州
供应商:User1,阿里巴巴网络技术有限公司
主营产品:手机,MP3,电脑,电话机
主营行业:通信设备,商业服务。
在本申请的一种优选实施例中,所述步骤102可以包括:
子步骤S11、针对各网页信息对应的信息发布者,在数据库中提取该信息发布者发布的所有网页信息;
子步骤S12、提取网页信息中的供应产品词或所属行业,计算各供应产品词和所属行业的比重;
子步骤S13、针对比重大于预设阀值的供应产品词,提取供应产品词的核心产品词作为该信息发布者的主营产品对应的属性值,比重大于预设阀值的所属行业作为该信息发布者的主营行业对应的属性值。
针对各供应信息,需要找出其主营产品或主营行业。首先,需要找出各供应信息发布者发布的所有供应信息,然后提取各供应信息中的供应产品词或所属行业,然后在所有供应产品词中提取比重较大的供应产品词,将比重较大的供应产品词的核心产品词作为主营产品的属性值,将比重较大的所属行业作主营行业对应的属性值。
在所有所属行业中提取比重较大的所属行业作为主营行业对应的属性值。具体的,可以将全量的供应信息和供应商做关联,提取出每个供应商对应的供应产品的集合,计算各个产品的比重,例如,第一预设阀值为10%,某供应信息发布者的所有供应信息中供应产品词A出现了50次,供应产品词B出现了30次,供应产品词C出现了2次;供应产品词C出现的比例为2/(50+30+2)小于10%,那供应产品词C可能不是该供应信息发布者的主营产品对应的属性值,而供应产品词A和B出现的比例大于10%,其对应的核心产品词可以作为该供应信息发布者的主营产品对应的属性值。
各供应产品词含有一个核心产品词,例如,诺基亚手机对应的核心产品词为手机,具体的,可以使用通用的词性标注的工具得到供应产品词中每个词的词性(名词、动词、形容词等),提取其中的名词即为核心产品词。
步骤103、提取符合预设条件的网页信息作为搜索结果,所述预设条件为,所述网页信息对应的第一属性与所述查询关键词相匹配,或所述网页信息对应的第二属性与所述查询关键词相匹配。
其中,本实施例所述第一属性与查询关键词相匹配可以是查询关键词与第一属性文字上相匹配、也可以是按照预先设定的对应关系上的相匹配。例如:第一属性为“手机”,查询关键词也是“手机”,则二者是文字上的相匹配;若第一属性为“手机”,查询关键词是“诺基亚”,若预先已建立“手机”与“诺基亚”之间的对应关系,则二者是按照预先设定的对应关系上的相匹配。同理,第二属性与查询关键词相匹配可以是查询关键词与第二属性文字上相匹配、也可以是按照预先设定的对应关系上的相匹配。
针对搜索结果中的各供应信息,找出其信息发布者的主营产品或主营行业之后,需要依据主营产品或主营行业对各供应信息进行判断,即需要对第一属性或第二属性不符合条件的搜索结果进行过滤。具体而言,即判断用户查询关键词所指产品中的供应产品词和各供应信息的供应商信息发布者的主营产品是不是一致是否匹配,或是查询关键词中产品的供应产品词所对应的行业信息和各供应信息的信息发布者的主营行业是否匹配是不是一致,若其中任一条件判断结果为是,则说明该网页信息和查询关键词是相关的。若两个条件的判断结果均为否,则说明是虚假的网页信息,需要进一步过滤掉。如此,若某供应商发布所查询产品虚假交易信息,可以通过判断其主营产品和主营行业均与查询关键词不匹配,来过滤掉其供应信息。
参考图2,示出了本申请的一种搜索结果的生成方法实施例2的流程图,具体可以包括以下步骤:
步骤201、依据用户输入的查询关键词搜索相应的网页信息。
优选的,本实施例在针对各网页信息统计其信息发布者的第一属性和第二属性之前,还可以对搜索得到的网页信息进行过滤,如图2所示,所述方法还可以包括:
步骤202、过滤与所述查询关键词的相似度小于预设相似度的网页信息。
具体的,所述网页信息与查询关键词的相似度通过以下步骤获取:
子步骤S21、分别提取各网页信息和查询关键词中的核心产品词;
子步骤S22、由各核心产品词在不同点击类目中的点击率,计算各网页信息与查询关键词的相似度。
由于用户填写的查询关键词没有严格的标准,大多是口语类型的,不仅包含了用户所想搜索的产品,还会包含了除产品之外的描述性词语,并且描述方式多种多样。例如用户想要购买一款给老人使用的手机时,可能会在网页上输入以下查询关键词“供应诺基亚手机,可供老人使用”或者“供应老人使用的多功能手机,诺基亚”,搜索的网页信息中可能会包含供老人使用的电脑,诺基亚显示器等与用户搜索关键词相关,但与用户想要购买的产品不一致的网页信息。因此,需要对用户查询关键词的核心产品词与搜索得到的网页信息的核心产品词进行对比,计算出两者的相似度,将相似度比较小的网页信息过滤掉。
具体的,首先提取出查询关键词和网页信息中的核心产品词,用户输入的查询关键词和网页信息大体上是按照汉语的语法结构填写的,用通用的词性标注的工具能得到每个词的词性(名词、动词、形容词等),提取其中的名词即为核心产品词。由于查询关键词和网页信息中含有至少一个核心产品词。如果只含有一个名词,那么其必为核心产品词;如果含有两个名词AB,则可以判断AB间的关系,若A修饰B的概率高,那么B为核心产品词,反之,A为核心产品词,或者概率差很低或者两者是相似的词,则两者均是核心产品词;如果是大于等于3个名词存在,则将最后一个名词C作为核心产品词,然后再判断前面的各个名词与C的关系(类似含有两个产品词的情况),将修饰概率低的1个或多个名词作为最终的核心产品词。
提取出查询关键词和网页信息的核心产品词之后,分别计算两者的核心产品词在不同的点击类目中的点击率,具体的,每条网页信息均携带了其所属的类目信息。当用户搜索一个核心产品词时,点击供应信息就相当于给这个核心产品词添加了一个类目信息,累积一定时间段后,统计该核心产品词的所属类目信息,并统计整体的点击类目分布情况,得出核心产品词在不同类目下的点击率。
通过核心产品词的文本及其点击类目分布情况来判断查询关键词和网页信息中的核心产品词的相似度,在获取了两者在相应的类目的点击率后,可以通过以下公式计算相似度:
D ( Q p , D p ) = Σ w p Q ( w ) · log p Q ( w ) p D ( w )
其中Qp为查询关键词(Query)的类目点击分布,Dp为网页信息(Doc)中核心词的类目点击分布,pQ(w)为Query的类目w的点击率,pD(w)为Doc中核心词的类目w的点击率。
步骤203、针对各网页信息对应的信息发布者,提取该信息发布者发布的所有网页信息中,比重大于预设阀值的第一指定字段或第二指定字段,将所述第一指定字段的核心产品词,作为该信息发布者的第一属性对应的属性值,第二指定字段作为第二属性对应的属性值。
步骤204、提取符合预设条件的网页信息作为搜索结果,所述预设条件为,所述网页信息对应的第一属性与包括所述查询关键词相匹配对应的,或所述网页信息对应的第二属性与包括所述查询关键词相匹配。
优选的,在得到搜索结果后,还可以对所述搜索结果进行展示,如图2所示,所述方法还可以包括步骤205。
步骤205、将所述搜索结果进行排序后在页面展示。
将通过两次过滤的供应信息置于一起再进行排序,最后展现给用户。在本申请的一种优选实施例中,若所述信息发布者为广告主,所述步骤205可以包括:
子步骤S31、分别统计所述查询关键词在各网页信息中的特征信息,所述特征信息包括网页信息中查询关键词的位置信息,以及查询关键词与网页信息的相关度;
子步骤S32、由所述特征信息和点击概率预测模型,获取各网页信息的预测点击概率,所述点击概率预测模型包括不同的特征信息对应的预测点击概率的统计值;
子步骤S33、按照所述预测点击概率和查询关键词价格的乘积,对各网页信息进行排序。
本申请不仅可以用于常用的网页搜索结果的生成,还可以用于作为广告的搜索结果生成。若网页信息是作为搜索结果进行展示,则可以依据各条网页信息的预测点击概率进行排序;若网页信息是作为搜索广告进行展示,则需要综合考虑预测点击概率和广告主的出价情况。
预估点击概率可以基于历史点击情况。记录每次搜索的查询关键词,当前展现的所有搜索结果及其在页面上的位置,以及此次查询下用户点击的网页信息。对于这些搜索,挖掘出查询的关键词与被点击的网页信息间的关系,即特征信息,如飘红、命中词的位置等位置信息,以及查询关键词与网页信息的相关度。
依据一段时间内搜索的多个信息(可能有几千万的数据条),利用一些机器学习的方法(如逻辑回归模型),统计特征信息和预测点击概率之间的关系,训练出用户在查询一个关键词的情况下,什么样的特征能够得到什么样的点击率,即建立点击概率预测模型,其中包括了不同的特征信息对应的预测点击概率的统计值。当新的查询来的时候,实时计算即将展现的网页信息与查询词之间的关系,然后用这个模型来预测出点击概率。
然后,分别统计所述查询关键词在各网页信息中的特征信息,由所述特征信息和点击概率预测模型,获取各网页信息的预测点击概率。供应商对于查询词的出价是从数据库里读取的,用户每买一个关键词都可以对它出价。最后对网页信息进行排序是依据预测点击率和出价的乘积。
优选的,在得到搜索结果后,还可以对网页发布者的信息进行展示,如图2所示,所述方法还可以包括步骤206。
步骤206、依据各信息发布者的第一属性和第二属性对其发布者信息进行更新。
提取出主营产品后,若供应商自行填写供应商信息中的主营产品没有包括该主营产品,则对其进行补充,对于供应商填写的,除提取的主营产品之外的其他产品,则可以删除。如上例,供应商自主填写的主营产品是“手机、MP3、电脑、电话机”,提取其所有的供应信息,发现该供应商除了该供应信息之外,只有另一条MP3的供应信息。依据这两条供应信息可以得知其主营产品为MP3和手机,因此,可以将供应商填写的MP3和手机保留,将电脑和电话机删除,使得供应商信息更为准确,减少因为客户更新不及时导致信息遗漏的问题。
综上所述,依据本申请,依据查询关键词搜索供应信息后,在过滤掉与查询关键词相似度较低的搜索结果后,针对过滤后的供应信息,找出供应商的主营产品和主营行业,将主营产品包括查询关键词对应的产品,或主营行业包括查询关键词对应行业的供应信息作为搜索结果,即搜索结果中的供应信息均是以查询关键词中的产品作为主营产品,或是主营行业的相关产品。若某供应商发布所查询产品的虚假交易信息,可以通过找出其主营产品和主营行业并非所需查询的产品,来过滤掉其供应信息,增加了与买家的购买意图的相关性,节约了用户的搜索时间。并且,由于在搜索结果中剔除了与主营产品,或主营行业不相关的供应信息,因此搜索引擎服务器向发起搜索请求的客户端传输搜索结果数据时,就相应的减少了传输的数据量(虚假交易信息被过滤掉,传输的数据量必然减少),导致网络传输速度加快,避免网络堵塞。
此外,本申请还可以对各供应信息的点击概率进行预测,并依据预测点击概率和查询关键词的出价对供应信息排序后进行展示,提高了搜索结果的点击率。同时,依据各供应商的主营产品和主营行业对其供应商信息进行更新,可以减少因为客户更新不及时导致信息遗漏的问题。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参考图3,示出了本申请的一种搜索结果的生成装置实施例1的结构框图,具体可以包括以下模块:
网页信息搜索模块301,用于依据用户输入的查询关键词搜索相应的网页信息;
属性值统计模块302,用于针对各网页信息对应的信息发布者,提取该信息发布者发布的所有网页信息中,比重大于预设阀值的第一指定字段或第二指定字段,将所述第一指定字段的核心产品词,作为该信息发布者的第一属性对应的属性值,第二指定字段作为第二属性对应的属性值;
搜索结果提取模块303,用于提取符合预设条件的网页供应信息作为搜索结果,所述预设条件为,所述网页供应信息对应的第一属性与主营产品包括所述查询关键词相匹配对应的产品,或所述网页供应信息对应的第二属性与主营行业包括所述查询关键词相匹配对应的产品所属的行业。
在本申请的一种优选实施例中,所述第一属性可以为主营产品,所述第二属性可以为主营行业;
所述第一指定字段可以为供应产品词,所述第二指定字段可以为所属行业。
在本申请的一种优选实施例中,所述网页信息为供应信息时,所述网页信息包括供应产品词、所属行业、商品属性、发布者信息,所述发布者信息可以包括供应商地址、公司名称、主营产品和主营行业。
在本申请的一种优选实施例中,所述属性值统计模块可以包括:
网页信息提取子模块,用于针对各网页信息所对应的信息发布者,在数据库中提取该信息发布者发布的所有网页信息;
比重计算子模块,用于提取网页信息中的供应产品词或所属行业,计算各供应产品词和所属行业的比重。
属性值提取子模块,用于针对比重大于预设阀值的供应产品词,提取供应产品词的核心产品词作为该信息发布者的主营产品对应的属性值,比重大于预设阀值的所属行业作为该信息发布者的主营行业对应的属性值。
参考图4,示出了本申请的一种搜索结果的生成装置实施例2的结构框图,具体可以包括以下模块:
网页信息搜索模块401,用于依据用户输入的查询关键词搜索相应的网页信息;
优选的,本申请在属性值统计模块之前,可以先对搜索得到的网页信息进行过滤,如图4所示,所述装置还可以包括:
网页信息过滤模块402,用于过滤与所述查询关键词的相似度小于预设相似度的网页信息。
优选的,所述网页信息与查询关键词的相似度可以通过以下子模块获取:
核心产品词提取子模块,用于分别提取各网页信息和查询关键词中的核心产品词;
相似度计算子模块,用于由各核心产品词在不同点击类目中点击率,计算各网页信息与查询关键词的相似度。
属性值统计模块403,用于针对各网页信息对应的信息发布者,提取该信息发布者发布的所有网页信息中,比重大于预设阀值的第一指定字段或第二指定字段,将所述第一指定字段的核心产品词,作为该信息发布者的第一属性对应的属性值,第二指定字段作为第二属性对应的属性值;
搜索结果提取模块404,用于提取符合预设条件的网页信息作为搜索结果,所述预设条件为,所述网页信息对应的第一属性与所述查询关键词相匹配,或所述网页信息对应的第二属性与所述查询关键词相匹配。
优选的,本申请在得到搜索结果之后,还可以对搜索结果进行排序,如图4所示,所述装置还可以包括:
搜索结果展示模块405,用于将所述搜索结果进行排序后在页面展示。
在本申请的一种优选实施例中,所述信息发布者为广告主,所述搜索结果展示模块可以包括:
特征信息统计子模块,用于分别统计所述查询关键词在各网页信息中的特征信息,所述特征信息包括网页信息中查询关键词的位置信息,以及查询关键词与网页信息的相关度;
点击概率预测子模块,用于由所述特征信息和点击概率预测模型,获取各网页信息的预测点击概率,所述点击概率预测模型包括不同的特征信息对应的预测点击概率的统计值;
供应信息排序子模块,用于按照所述预测点击概率和查询关键词价格的乘积,对各网页信息进行排序。
优选的,本申请还可以依据统计得到的供应商的主营产品和主营行业对其供应商信息进行更新,如图4所示,所述装置还可以包括:
信息更新模块406,用于依据各信息发布者的第一属性和第二属性对其发布者信息进行更新。
由于所述装置实施例基本相应于前述图1和图2所示的方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种搜索结果的生成方法,以及,一种搜索结果的生成装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种搜索结果的生成方法,其特征在于,包括:
依据用户输入的查询关键词搜索相应的网页信息;
针对各网页信息对应的信息发布者,提取该信息发布者发布的所有网页信息中,比重大于预设阀值的第一指定字段或第二指定字段,将所述第一指定字段的核心词,作为该信息发布者的第一属性对应的属性值,第二指定字段作为第二属性对应的属性值;
提取符合预设条件的网页信息作为搜索结果,所述预设条件为,所述网页信息对应的第一属性与所述查询关键词相匹配,或所述网页信息对应的第二属性与所述查询关键词相匹配。
2.如权利要求1所述的方法,其特征在于,所述第一属性为主营产品,所述第二属性为主营行业;
所述第一指定字段为供应产品词,所述第二指定字段为所属行业。
3.如权利要求2所述的方法,其特征在于,所述网页信息为供应信息时,所述网页信息包括供应产品词、所属行业、商品属性、发布者信息,所述发布者信息包括供应商地址、公司名称、主营产品和主营行业。
4.如权利要求1所述的方法,其特征在于,在针对各供应信息,统计其供应商的主营产品或主营行业之前,所述方法还包括:
过滤与所述查询关键词的相似度小于预设相似度的网页信息。
5.如权利要求4所述的方法,其特征在于,所述网页信息与查询关键词的相似度通过以下步骤获取:
分别提取各网页信息和查询关键词中的核心产品词;
由各核心产品词在不同点击类目中点击率,计算各网页信息与查询关键词的相似度。
6.如权利要求1所述的方法,其特征在于,还包括:
将所述搜索结果进行排序后在页面展示。
7.如权利要求3所述的方法,其特征在于,还包括:
依据各信息发布者的第一属性和第二属性对其发布者信息进行更新。
8.如权利要求6所述的方法,其特征在于,所述信息发布者为广告主,所述将提取的网页信息进行排序的步骤包括:
分别统计所述查询关键词在各网页信息中的特征信息,所述特征信息包括网页信息中查询关键词的位置信息,以及查询关键词与网页信息的相关度;
由所述特征信息和点击概率预测模型,获取各网页信息的预测点击概率,所述点击概率预测模型包括不同的特征信息对应的预测点击概率的统计值;
按照所述预测点击概率和查询关键词价格的乘积,对各网页信息进行排序。
9.一种搜索结果的生成装置,其特征在于,包括:
网页信息搜索模块,用于依据用户输入的查询关键词搜索相应的网页信息;
属性值统计模块,用于针对各网页信息对应的信息发布者,提取该信息发布者发布的所有网页信息中,比重大于预设阀值的第一指定字段或第二指定字段,将所述第一指定字段的核心词,作为该信息发布者的第一属性对应的属性值,第二指定字段作为第二属性对应的属性值;
搜索结果提取模块,用于提取符合预设条件的网页供息作为搜索结果,所述预设条件为,所述网页信息对应的第一属性与所述查询关键词相匹配,或所述网页信息对应的第二属性与所述查询关键词相匹配。
10.如权利要求9所述的装置,其特征在于,还包括:
网页信息过滤模块,用于过滤与所述查询关键词的相似度小于预设相似度的网页信息。
CN201210233248.3A 2012-07-05 2012-07-05 一种搜索结果的生成方法及装置 Active CN103530299B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201210233248.3A CN103530299B (zh) 2012-07-05 2012-07-05 一种搜索结果的生成方法及装置
TW101142220A TW201403360A (zh) 2012-07-05 2012-11-13 搜索結果的產生方法及裝置
US13/929,099 US9934293B2 (en) 2012-07-05 2013-06-27 Generating search results
KR1020147035902A KR101644817B1 (ko) 2012-07-05 2013-06-28 탐색 결과들을 생성하는 방법
PCT/US2013/048731 WO2014008139A2 (en) 2012-07-05 2013-06-28 Generating search results
JP2015520600A JP6022056B2 (ja) 2012-07-05 2013-06-28 検索結果の生成

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210233248.3A CN103530299B (zh) 2012-07-05 2012-07-05 一种搜索结果的生成方法及装置

Publications (2)

Publication Number Publication Date
CN103530299A true CN103530299A (zh) 2014-01-22
CN103530299B CN103530299B (zh) 2017-04-12

Family

ID=49879305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210233248.3A Active CN103530299B (zh) 2012-07-05 2012-07-05 一种搜索结果的生成方法及装置

Country Status (6)

Country Link
US (1) US9934293B2 (zh)
JP (1) JP6022056B2 (zh)
KR (1) KR101644817B1 (zh)
CN (1) CN103530299B (zh)
TW (1) TW201403360A (zh)
WO (1) WO2014008139A2 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035955A (zh) * 2014-03-18 2014-09-10 北京百度网讯科技有限公司 搜索方法和装置
CN104933172A (zh) * 2015-06-30 2015-09-23 百度在线网络技术(北京)有限公司 一种基于用户搜索行为的信息推送方法和装置
CN105427490A (zh) * 2015-10-26 2016-03-23 国网天津市电力公司 一种网页信息提取声光告警方法
CN107665229A (zh) * 2017-05-26 2018-02-06 深圳市谷熊网络科技有限公司 信息搜索方法、装置及设备
CN112446214A (zh) * 2020-12-09 2021-03-05 北京有竹居网络技术有限公司 广告关键词的生成方法、装置、设备及存储介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201539291A (zh) * 2014-04-03 2015-10-16 Qware Systems & Services Corp 商品關鍵字排列調整系統及其方法
EP2933734A1 (en) * 2014-04-17 2015-10-21 OnPage.org GmbH Method and system for the structural analysis of websites
US11200130B2 (en) * 2015-09-18 2021-12-14 Splunk Inc. Automatic entity control in a machine data driven service monitoring system
US11755559B1 (en) 2014-10-09 2023-09-12 Splunk Inc. Automatic entity control in a machine data driven service monitoring system
CN105045889B (zh) * 2015-07-29 2018-04-20 百度在线网络技术(北京)有限公司 一种信息推送方法及装置
US11868354B2 (en) * 2015-09-23 2024-01-09 Motorola Solutions, Inc. Apparatus, system, and method for responding to a user-initiated query with a context-based response
US10218728B2 (en) * 2016-06-21 2019-02-26 Ebay Inc. Anomaly detection for web document revision
CN106777282B (zh) * 2016-12-29 2018-07-13 百度在线网络技术(北京)有限公司 相关搜索的排序方法和装置
US11158311B1 (en) * 2017-08-14 2021-10-26 Guangsheng Zhang System and methods for machine understanding of human intentions
TWI762764B (zh) * 2019-02-15 2022-05-01 國風傳媒有限公司 詞彙整合裝置、方法及其電腦程式產品
JP7164015B2 (ja) * 2019-10-01 2022-11-01 Jfeスチール株式会社 情報検索システム
CN115150297B (zh) * 2022-08-15 2023-05-19 雁展科技(深圳)有限公司 一种基于移动互联网的数据过滤及内容评价方法和系统

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630986B1 (en) * 1999-10-27 2009-12-08 Pinpoint, Incorporated Secure data interchange
US7349868B2 (en) 2001-05-15 2008-03-25 I2 Technologies Us, Inc. Pre-qualifying sellers during the matching phase of an electronic commerce transaction
JP2003085395A (ja) 2001-09-07 2003-03-20 Nec Informatec Systems Ltd 電子商取引仲介システム、及びその方法
US7308421B2 (en) 2002-04-12 2007-12-11 Vendavo, Inc. System and method for grouping products in a catalog
US8364670B2 (en) * 2004-12-28 2013-01-29 Dt Labs, Llc System, method and apparatus for electronically searching for an item
US7870031B2 (en) * 2005-12-22 2011-01-11 Ebay Inc. Suggested item category systems and methods
EP2076874A4 (en) * 2006-05-13 2011-03-09 Sap Ag DERIVED CONSISTENT SET OF INTERFACES DERIVED FROM A BUSINESS OBJECT MODEL
US7921106B2 (en) * 2006-08-03 2011-04-05 Microsoft Corporation Group-by attribute value in search results
US8738456B2 (en) 2006-11-14 2014-05-27 Xerox Corporation Electronic shopper catalog
US9317824B2 (en) * 2007-01-17 2016-04-19 Hartford Fire Insurance Company Vendor management system and process
US7925652B2 (en) * 2007-12-31 2011-04-12 Mastercard International Incorporated Methods and systems for implementing approximate string matching within a database
US8285721B2 (en) 2008-09-29 2012-10-09 Ebay Inc. Mapping item records to product records
US9460212B2 (en) * 2008-12-03 2016-10-04 Paypal, Inc. System and method for personalized search
WO2010083454A2 (en) * 2009-01-15 2010-07-22 Visa U.S.A. Inc. Incentives associated with linked financial accounts
US8612472B2 (en) 2009-12-16 2013-12-17 Microsoft Corporation Determining preferences from user queries
US8255268B2 (en) * 2010-01-20 2012-08-28 American Express Travel Related Services Company, Inc. System and method for matching merchants based on consumer spend behavior
WO2011105604A1 (ja) 2010-02-26 2011-09-01 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用のプログラム、および、記録媒体
US9760905B2 (en) * 2010-08-02 2017-09-12 Visa International Service Association Systems and methods to optimize media presentations using a camera
CN102446180B (zh) * 2010-10-09 2016-03-02 北京京东尚科信息技术有限公司 一种商品搜索方法及其装置
CN102542474B (zh) 2010-12-07 2015-10-21 阿里巴巴集团控股有限公司 查询结果排序方法及装置
US9171088B2 (en) * 2011-04-06 2015-10-27 Google Inc. Mining for product classification structures for internet-based product searching
CN102968418A (zh) * 2011-09-01 2013-03-13 阿里巴巴集团控股有限公司 网站信息检索方法和系统
US8527475B1 (en) * 2011-09-21 2013-09-03 Amazon Technologies, Inc. System and method for identifying structured data items lacking requisite information for rule-based duplicate detection
AU2013214801B2 (en) * 2012-02-02 2018-06-21 Visa International Service Association Multi-source, multi-dimensional, cross-entity, multimedia database platform apparatuses, methods and systems
CN103377190B (zh) * 2012-04-11 2017-01-18 阿里巴巴集团控股有限公司 一种基于交易平台的供应商信息搜索方法和装置
WO2014036441A2 (en) * 2012-08-31 2014-03-06 The Dun & Bradstreet Corporation System and process for discovering relationships between entities based on common areas of interest
US9208460B2 (en) * 2012-10-19 2015-12-08 Lexisnexis, A Division Of Reed Elsevier Inc. System and methods to facilitate analytics with a tagged corpus
US9342846B2 (en) * 2013-04-12 2016-05-17 Ebay Inc. Reconciling detailed transaction feedback
US10719562B2 (en) * 2013-12-13 2020-07-21 BloomReach Inc. Distributed and fast data storage layer for large scale web data services
US10275812B2 (en) * 2014-07-15 2019-04-30 Xerox Corporation Method and apparatus for denying a transaction detected to be initiated outside of a required application on an endpoint device
US20170186065A1 (en) * 2015-12-29 2017-06-29 Alibaba Group Holding Limited System and Method of Product Selection for Promotional Display

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035955A (zh) * 2014-03-18 2014-09-10 北京百度网讯科技有限公司 搜索方法和装置
CN104933172A (zh) * 2015-06-30 2015-09-23 百度在线网络技术(北京)有限公司 一种基于用户搜索行为的信息推送方法和装置
CN105427490A (zh) * 2015-10-26 2016-03-23 国网天津市电力公司 一种网页信息提取声光告警方法
CN105427490B (zh) * 2015-10-26 2017-08-25 国网天津市电力公司 一种网页信息提取声光告警方法
CN107665229A (zh) * 2017-05-26 2018-02-06 深圳市谷熊网络科技有限公司 信息搜索方法、装置及设备
CN107665229B (zh) * 2017-05-26 2020-02-21 深圳市谷熊网络科技有限公司 信息搜索方法、装置及设备
CN112446214A (zh) * 2020-12-09 2021-03-05 北京有竹居网络技术有限公司 广告关键词的生成方法、装置、设备及存储介质
CN112446214B (zh) * 2020-12-09 2024-02-02 北京有竹居网络技术有限公司 广告关键词的生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
TW201403360A (zh) 2014-01-16
US9934293B2 (en) 2018-04-03
CN103530299B (zh) 2017-04-12
KR101644817B1 (ko) 2016-08-02
KR20150016973A (ko) 2015-02-13
TWI561999B (zh) 2016-12-11
WO2014008139A2 (en) 2014-01-09
JP6022056B2 (ja) 2016-11-09
JP2015522190A (ja) 2015-08-03
WO2014008139A3 (en) 2014-05-30
US20140012840A1 (en) 2014-01-09

Similar Documents

Publication Publication Date Title
CN103530299A (zh) 一种搜索结果的生成方法及装置
US9767182B1 (en) Classification of search queries
CN103310343A (zh) 商品信息发布方法和装置
CN103309886A (zh) 一种基于交易平台的结构化信息搜索方法和装置
US9798820B1 (en) Classification of keywords
Aggrawal et al. Brand analysis framework for online marketing: ranking web pages and analyzing popularity of brands on social media
US20080109285A1 (en) Techniques for determining relevant advertisements in response to queries
US20100161605A1 (en) Context transfer in search advertising
CN105556512A (zh) 用于分析关注实体特性的设备、系统以及方法
CN101216825A (zh) 标引关键词提取/预测方法、在线广告推荐方法和装置
CN106062743A (zh) 用于关键字建议的系统和方法
CN103885971A (zh) 数据推送的方法及装置
CN102722498A (zh) 搜索引擎及其实现方法
US20180096067A1 (en) Creation and optimization of resource contents
US10997264B2 (en) Delivery of contextual interest from interaction information
CN106156135A (zh) 查询数据的方法及装置
CN103514181A (zh) 一种搜索方法和装置
CN102129431A (zh) 应用于网上交易平台的检索方法和系统
CN102737021A (zh) 搜索引擎及其实现方法
KR100671284B1 (ko) 내용 기반 분류를 이용한 웹사이트 광고 제공 방법 및 그시스템
CN105468790A (zh) 一种评论信息检索方法和装置
JP2015225582A (ja) 情報処理装置、情報処理方法、及びプログラム
KR102238438B1 (ko) 규격화된 광고상품을 이용한 광고상품거래 서비스 제공 시스템
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
CN105512298A (zh) 基于机器学习的感兴趣内容预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1193189

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1193189

Country of ref document: HK