CN103678365A - 数据的动态获取方法、装置及系统 - Google Patents

数据的动态获取方法、装置及系统 Download PDF

Info

Publication number
CN103678365A
CN103678365A CN201210339669.4A CN201210339669A CN103678365A CN 103678365 A CN103678365 A CN 103678365A CN 201210339669 A CN201210339669 A CN 201210339669A CN 103678365 A CN103678365 A CN 103678365A
Authority
CN
China
Prior art keywords
search word
threshold
score
keyword
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210339669.4A
Other languages
English (en)
Other versions
CN103678365B (zh
Inventor
张林锋
黄鹏
王锡普
郑文彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210339669.4A priority Critical patent/CN103678365B/zh
Priority to TW101142221A priority patent/TWI567572B/zh
Priority to US14/022,634 priority patent/US10025807B2/en
Priority to EP13770565.3A priority patent/EP2895969A4/en
Priority to PCT/US2013/059212 priority patent/WO2014043200A2/en
Priority to JP2015532016A priority patent/JP5916959B2/ja
Publication of CN103678365A publication Critical patent/CN103678365A/zh
Application granted granted Critical
Publication of CN103678365B publication Critical patent/CN103678365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据的动态获取方法、装置及系统。其中,该方法包括:接收搜索请求串,并从搜索请求串中读取搜索词;根据搜索词在阈值词典中进行查询,以获取搜索词所对应的动态阈值分数;将搜索词作为查询条件,搜索词所对应的动态阈值分数作为过滤条件在索引数据表中进行过滤,以获取当关键词与搜索词相同且关键词的阈值分数大于等于该搜索词的动态阈值分数时,所对应的一个或多个索引信息,其中,动态阈值分数根据特征因子变化;根据索引信息获取搜索词所对应的数据信息,并返回给网站的前端页面进行显示。通过本申请,能够实现实时的动态化推广产品数据信息。

Description

数据的动态获取方法、装置及系统
技术领域
本申请涉及计算机领域,具体而言,涉及一种数据的动态获取方法、装置及系统。
背景技术
现有技术中用于展现相关产品的推广平台的实施过程中,首先需要用户在竞价管理服务器的系统中对搜索词进行竞价处理,当网站前端搜索某个词的时候,就会展示出该搜索词的产品信息,即为搜索词与其对应的多个产品信息分别设置一个固定的静态阈值,从而使得在网站上对用户在后台完成的竞价词推广的获取和展示是静态的。
具体实施过程中,卖家用户首先在竞价管理服务器的系统上选择关键词和该关键词相应的推广产品,然后调用算法模块计算相关性得到一个关键词与产品信息之间的相关性阈值分数,这个分数会存入数据库。引擎服务器会从数据库中下载这些阈值分数并建立索引库。当用户在网站前端的客户端通过搜索词发生搜索行为后,从索引库中获取与该搜索词相对应的产品信息的所有阈值分数,并将各个阈值分数与预先设定的静态阈值进行比较,将阈值分数大于静态阈值分数的产品信息过滤出来进行显示,这种在搜索引擎上实现的过滤方法虽然实现了一定的过滤方式,但过于简单和静态化,它对所有的查询词都是统一标准对待,显然当关键词与产品信息之间的相关性阈值分数发生动态变化的情况下,不能够满足使搜索结果更加灵活、准确的问题。
由此可知,现有客户端上实现的搜索词下的推广数据信息的方法过于简单和单一化,导致很多搜索词下展现的推广数据信息的质量(和词的相关性)比较差,展现的推广产品和搜索词的相关性有可能会比自然搜索的结果差很多。
目前针对相关技术在搜索引擎上实现的产品数据推广的方法单一,使得搜索结果不灵活、不准确的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术在搜索引擎上实现的产品数据推广的方法单一,使得搜索结果不灵活、不准确的问题,目前尚未提出有效的解决方案,为此,本申请的主要目的在于提供一种数据的动态获取方法、装置及系统,以解决上述问题。
为了实现上述目的,根据本申请的一个方面,提供了一种数据的动态获取方法,该方法包括:接收搜索请求串,并从搜索请求串中读取搜索词;根据搜索词在阈值词典中进行查询,以获取搜索词所对应的动态阈值分数;将搜索词作为查询条件,搜索词所对应的动态阈值分数作为过滤条件在索引数据表中进行过滤,以获取当关键词与搜索词相同且关键词的阈值分数大于等于该搜索词的动态阈值分数时,所对应的一个或多个索引信息,其中,动态阈值分数根据特征因子变化;根据索引信息获取搜索词所对应的数据信息,并返回给网站的前端页面进行显示;其中,阈值词典包括:搜索词及每个搜索词所对应的动态阈值分数,索引数据表包括:关键词以及关键词与每个数据信息之间的阈值分数,特征因子包括:文本特征因子和数据分析特征因子。
进一步地,在根据搜索词在阈值词典中进行查询,以获取搜索词所对应的动态阈值分数之前,方法还包括:从日志词典中获取各个搜索词的文本特征因子和数据分析特征因子;根据文本特征因子和数据分析特征因子进行阈值计算,以获取每个搜索词的动态阈值分数;将各个搜索词及每个搜索词的动态阈值分数以数据字典的格式保存至阈值词典;其中,文本特征因子是搜索词与数据信息所匹配的特征权重值,数据分析特征因子是搜索词所对应的分析参数特征权重值。
进一步地,根据文本特征因子和数据分析特征因子进行阈值计算,以获取每个搜索词的动态阈值分数的步骤包括:采用线性回归模型Score0=F0(f1,f2,...,fi)进行拟合计算,以获取搜索词的第一阈值分数Score0,其中,fi是搜索词所对应的文本特征因子,i是小于等于N的整数,N为自然数;采用线性回归模型Score1=F1(f′1,...,f'k)进行拟合计算,以获取搜索词的第二阈值分数Score1,其中,f'k是搜索词所对应的数据分析特征因子,k是小于等M的整数,M为自然数;根据线性回归模型Score=F(score0,score1)×p1×p2进行拟合计算,以获取搜索词的动态阈值分数,其中,p1是第一阈值分数的占空比,p2是第二阈值分数的占空比。
进一步地,在将搜索词作为查询条件,搜索词所对应的动态阈值分数作为过滤条件在索引数据表中进行查询之前,方法还包括:从竞价管理服务器或日志词典中获取关键词及与关键词绑定的每个数据信息的文本特征因子;根据文本特征因子进行阈值计算,以获取每个关键词所对应的一个或多个阈值分数;将各个关键词及每个关键词所对应的阈值分数保存至阈值数据库;根据阈值数据库中每个关键词及其对应的所有阈值分数创建索引表;其中,根据文本特征因子进行阈值计算,以获取每个关键词所对应的一个或多个阈值分数的步骤包括:采用线性回归模型Score'=F'(f1,f2,...,fj)进行拟合计算,以获取关键词的阈值分数,其中,fj是关键词所对应的文本特征因子,j是小于等于J的整数,J为自然数。
进一步地,在接收搜索请求串,并从搜索请求串中读取搜索词之前,方法还包括:接收实时消息以监测日志词典的一致性,在监测到特征因子发生变化的情况下,更新日志词典。
为了实现上述目的,根据本申请的另一方面,提供了一种数据的动态获取装置,该装置包括:接收模块,用于接收搜索请求串,并从搜索请求串中读取搜索词;查询模块,与接收模块连接,用于根据搜索词在阈值词典中进行查询,以获取搜索词所对应的动态阈值分数;过滤模块,与查询模块连接,用于将搜索词作为查询条件,搜索词所对应的动态阈值分数作为过滤条件在索引数据表中进行过滤,以获取当关键词与搜索词相同且关键词的阈值分数大于等于该搜索词的动态阈值分数时,所对应的一个或多个索引信息,其中,动态阈值分数根据特征因子变化;处理模块,与过滤模块连接,用于根据索引信息获取搜索词所对应的数据信息,并返回给网站的前端页面进行显示;其中,阈值词典包括:搜索词及每个搜索词所对应的动态阈值分数,索引数据表包括:关键词以及关键词与每个数据信息之间的阈值分数,特征因子包括:文本特征因子和数据分析特征因子。
为了实现上述目的,根据本申请的另一方面,提供了一种数据的动态获取系统,该系统包括:客户端,用于发送搜索请求串;搜索引擎服务器,与客户端建立通信,用于接收搜索请求串,并从搜索请求串中读取搜索词,在根据搜索词在阈值词典中进行查询,以获取搜索词所对应的动态阈值分数之后,将搜索词作为查询条件,搜索词所对应的动态阈值分数作为过滤条件在索引数据表中进行过滤,以获取当关键词与搜索词相同且关键词的阈值分数大于等于该搜索词的动态阈值分数时,所对应的一个或多个索引信息,其中,动态阈值分数根据特征因子变化,并根据索引信息获取搜索词所对应的数据信息,并返回给网站的前端页面进行显示;其中,阈值词典包括:搜索词及每个搜索词所对应的动态阈值分数,索引数据表包括:关键词以及关键词与每个数据信息之间的阈值分数,特征因子包括:文本特征因子和数据分析特征因子。
进一步地,系统还包括:竞价管理服务器,用于提供文本特征因子;日志服务器,用于保存日志词典,以提供数据分析特征因子和/或文本特征因子;第一阈值计算服务器,用于从日志词典中获取各个搜索词的文本特征因子和数据分析特征因子,在根据文本特征因子和数据分析特征因子进行阈值计算,以获取每个搜索词的动态阈值分数之后,将各个搜索词及每个搜索词的动态阈值分数以数据字典的格式保存至阈值搜索数据表,以返回给网站的前端页面进行动态显示;其中,文本特征因子是搜索词与数据信息所匹配的特征权重值,数据分析特征因子是搜索词所对应的分析参数特征权重值。
进一步地,第二阈值计算服务器包括:第一计算装置,用于采用线性回归模型Score0=F0(f1,f2,...,fi)进行拟合计算,以获取搜索词的第一阈值分数Score0,其中,fi是搜索词所对应的文本特征因子,i是小于等于N的整数,N为自然数;第二计算装置,用于采用线性回归模型Score1=F1(f′1,...,f'k)进行拟合计算,以获取搜索词的第二阈值分数Score1,其中,f'k是搜索词所对应的数据分析特征因子,k是小于等M的整数,M为自然数;处理装置,用于根据线性回归模型Score=F(score0,score1)×p1×p2进行拟合计算,以获取搜索词的动态阈值分数,其中,p1是第一阈值分数的占空比,p2是第二阈值分数的占空比。
进一步地,系统还包括:第二阈值计算服务器,用于从竞价管理服务器或日志词典中获取关键词及与关键词绑定的每个产品的数据信息的文本特征因子,在根据文本特征因子进行阈值计算,以获取每个关键词所对应的一个或多个阈值分数之后,将各个关键词及每个关键词所对应的阈值分数保存至阈值数据库。
进一步地,第二阈值计算服务器包括:第三计算装置,用于采用线性回归模型Score'=F'(f1,f2,...,fj)进行拟合计算,以获取关键词的阈值分数,其中,fj是关键词所对应的文本特征因子,j是小于等于J的整数,J为自然数。
进一步地,系统还包括:监测装置,用于接收实时消息以监测日志词典的一致性,在监测到特征因子发生变化的情况下,更新日志词典。
通过本申请,采用接收搜索请求串,并从搜索请求串中读取搜索词;根据搜索词在阈值词典中进行查询,以获取搜索词所对应的动态阈值分数;将搜索词作为查询条件,搜索词所对应的动态阈值分数作为过滤条件在索引数据表中进行过滤,以获取当关键词与搜索词相同且关键词的阈值分数大于等于该搜索词的动态阈值分数时,所对应的一个或多个索引信息,其中,动态阈值分数根据特征因子变化;根据索引信息获取搜索词所对应的数据信息,并返回给网站的前端页面进行显示;其中,阈值词典包括:搜索词及每个搜索词所对应的动态阈值分数,索引数据表包括:关键词以及关键词与每个数据信息之间的阈值分数,特征因子包括:文本特征因子和数据分析特征因子,上述方案将搜索词在阈值词典中得到的动态阈值分数作为过滤条件在索引数据表中进行过滤,由于阈值词典中存储的动态阈值分数会根据特征因子的实时更新而动态变化,因此获取到的当前搜索词所对应的数据信息的数据,会由于比对的动态阈值分数的变化而动态更新,因此最后显示在网站前端页面上的结果也是会更新的,从而解决了相关现有技术在搜索引擎上实现的产品数据推广的方法单一,使得搜索结果不灵活的问题,进而实现了实时的动态化推广产品数据信息的效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的数据的动态获取系统的结构示意图;
图2是根据图1所示的数据的动态获取系统的详细结构示意图;
图3是根据本申请实施例的数据的动态获取方法的流程图;
图4是根据图3所示实施例中的搜索引擎服务器的业务流程图;
图5是根据图3所示实施例中的竞价管理服务器获取竞价阈值的业务流程图;
图6是根据本申请实施例的数据的动态获取装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1是根据本申请实施例的数据的动态获取系统的结构示意图;图2是根据图1所示的数据的动态获取系统的详细结构示意图。
如图1所示,该数据的动态获取系统可以包括:客户端10和搜索引擎服务器30。
其中,客户端10,用于发送搜索请求串;搜索引擎服务器30,与客户端10建立通信,用于接收搜索请求串,并从搜索请求串中读取搜索词,在根据搜索词在阈值词典中进行查询,以获取搜索词所对应的动态阈值分数之后,将搜索词作为查询条件,搜索词所对应的动态阈值分数作为过滤条件在索引数据表中进行过滤,以获取当索引数据表中的关键词与搜索词相同且关键词的阈值分数大于等于该搜索词的动态阈值分数时,所对应的一个或多个索引信息,其中,动态阈值分数根据特征因子变化,并根据索引信息获取搜索词所对应的数据信息,并返回给网站的前端页面进行显示;其中,阈值词典包括:搜索词及每个搜索词所对应的动态阈值分数,索引数据表包括:关键词以及关键词与每个数据信息之间的阈值分数,特征因子包括:文本特征因子和数据分析特征因子。由于上述实施例中的文本特征因子和数据分析特征因子会实时变更,因此,根据特征因子变化的动态阈值分数也是实时变化的。上述实施例中的关键词为索引数据表中的索引词,关键词与索引信息对应。
上述方案将搜索词在阈值词典中得到的动态阈值分数作为过滤条件在索引数据表中进行过滤,由于阈值词典中存储的动态阈值分数会根据特征因子的实时更新而动态变化,因此获取到的当前搜索词所对应的数据信息的数据,会由于比对的动态阈值分数的变化而动态更新,因此最后显示在网站前端页面上的结果也是会更新的,从而解决了相关现有技术在搜索引擎上实现的产品数据推广的方法单一,使得搜索结果不灵活的问题,进而本申请可以实现实时的动态化推广产品数据信息的效果。
具体的,本申请上述实施例中的索引数据表中的数据是数据信息的结构化数据,该索引数据表中的数据信息可以包括如下一个或多个参数:产品标题、产品属性、产品公司信息、产品对应竞价词、产品对应价格、产品和竞价词的相关系分值等信息,具体格式与搜索引擎的结构相似的,具体结构可以采用倒排、正排索引的结构形式。
优选地,本申请上述实施例中的特征因子中包括的文本特征因子和数据分析特征因子,其中,文本特征因子可以包括搜索词与产品本身的文本信息的匹配参数,数据分析特征因子可以包括搜索词的点击率、所对应的各个产品的击率、搜索词本身热度、用户推广产品地域信息以及搜索词绑定的产品数(用户数)等因素(比如买家和网站推广数据的信息挖掘、网站产品的历史CTR信息、卖家的竞争程度状况、推广产品和词的相关性和自然搜索结果的对比情况等)。例如搜索词的点击率和地域信息等是会根据实际情况动态变化,由此可以看出数据分析特征因子是动态变化的,从而动态阈值分数是根据动态变化的数据分析特征因子实时变更。
具体的,上述方案中动态阈值分数可以从后台提供的处理服务器中的阈值服务来计算得到,即后台的阈值服务通过调用搜索词在日志词典中已经记录的特征因子来进行阈值计算得到动态阈值分数,并将所有搜索词及其对应的动态阈值分数保存到阈值词典中,作为搜索引擎在接收到客户端发出的搜索请求之后,进行过滤处理的过滤条件,从而进一步获取当前搜索词所对应的产品数据信息,由于日志词典中记录的特征因子包括了会根据历史情况实时发生变化的数据分析特征因子,因此,计算得到的动态阈值分数也会实时变更,从而使得过滤条件会根据特征因子的变化而发生调整,解决了相关现有技术在搜索引擎上实现的产品数据推广的方法单一,使得搜索结果不灵活的问题,进而实现了动态化推广产品数据信息,提高了推广数据信息结果的效果。而且由于数据分析特征因子中包括点击率等体现搜索词质量的因子,因此,本申请也进一步提高了搜索结果的准确性。
优选地,本申请上述实施例中的客户端10可以实现把搜索请求串发送给搜索引擎服务器30,该搜索请求串由多个条件组装,搜索引擎服务器30的系统能够解析该请求串,并调用后台阈值词典中已经计算好的动态阈值分数,将得到的动态阈值分数作为过滤条件对索引表中的关键词进行过滤,从而返回搜索结果的数据,最后搜索结果会在客户端10上的SearchWeb进行展示。
本申请上述实施例中的系统还可以包括:竞价管理服务器50,用于提供文本特征因子;日志服务器70,用于保存日志词典,以提供数据分析特征因子和/或文本特征因子;第一阈值计算服务器90,用于从日志词典中获取各个搜索词的文本特征因子和数据分析特征因子,在根据文本特征因子和数据分析特征因子进行阈值计算,以获取每个搜索词的动态阈值分数之后,将各个搜索词及每个搜索词的动态阈值分数以数据字典的格式保存至阈值搜索数据表;其中,文本特征因子是搜索词与数据信息所匹配的特征权重值,数据分析特征因子是搜索词所对应的分析参数特征权重值。
具体的,如图2所示,上述实施例中的第一阈值计算服务器90可以从竞价管理服务器50拉取搜索词及搜索词所对应的数据信息(包括文本特征因子),并从日志服务器70的日志词典中获取网站完成搜索请求后的日志信息,该日志信息可以由数据分析数据库DW得到的数据分析特征因子和/或文本特征因子构成。第一阈值计算服务器90在获取到搜索词以及所有的文本特征因子和数据分析特征因子之后,可以计算得到每个搜索词的动态阈值分数,例如,可以计算每个搜索词query和用户推广产品的相关性阈值,同时会计算该搜索词和网站自然搜索结果前20名产品的相关性阈值,计算过程中除了考虑上述搜索词和产品的文本相关性阈值,计算得到动态阈值分数,还会考虑通过对历史产品的点击率ctr、词本身热度、推广产品区域信息以及词绑定的产品数(用户数)等商业因素计算得到第二阈值分数,并基于第一阈值分数和第二阈值分数得到该搜索词最终所对应的动态阈值分数,并将所有搜索词及其阈值分数保存至阈值词典中。上述实施例中,卖家用户通过竞价管理服务器50为阈值处理系统提供用于计算搜索词和数据信息的相关性阈值分数的文本特征因子。
具体的实施过程可以如下描述:当前端客户端网站上买家通过输入一个搜索词来在线请求卖家数据信息,例如此时用户搜索了MP3这个词,网站的搜索网址searchweb就会产生一个携带了该搜索词MP3的请求串来访问搜索引擎服务器30的搜索引擎系统,引擎拿到这个请求串后会调用算法的接口函数,得到一个动态阈值分数和动态的广告位置数n,然后用该分数重写出过滤条件,比如:
product?q=MP3&filter=bidword.mlrScore:9399999~2147483647&n=4,其中,product?q表征数据信息(例如产品信息),MP3表征搜索词,filter表征过滤条件,bidword.mlrScore表征动态阈值分数,n表征广告位置数;其中,引擎内部可以从数据库DB中读取网站所有的产品和关键词之间绑定之后的相关性分数mlrScore,并且对mlrScore建立了特定的索引,搜索引擎可以解析这样的请求串而返回相应的满足过滤条件的数据信息。
优选地,上述实施例中的第一阈值计算服务器90可以包括:第一计算装置,用于采用线性回归模型Score0=F0(f1,f2,...,fi)进行拟合计算,以获取搜索词的第一阈值分数Score0,其中,fi是搜索词所对应的文本特征因子,i是小于等于N的整数,N为自然数;第二计算装置,用于采用线性回归模型Score1=F1(f′1,...,f'k)进行拟合计算,以获取搜索词的第二阈值分数Score1,其中,f'k是搜索词所对应的数据分析特征因子,k是小于等M的整数,M为自然数;处理装置,用于根据线性回归模型Score=F(score0,score1)×p1×p2进行拟合计算,以获取搜索词的动态阈值分数,其中,p1是第一阈值分数的占空比,p2是第二阈值分数的占空比。
具体的,搜索词和产品对应的文本相关性计算考虑因子可以包括:f1是搜索词与产品描述中相同单词的主题title长度的比率;f2是搜索词占包含搜索词的主题title的比率;f3是搜索词占包含搜索词的关键字keywords的比率;f4用于搜索词与产品描述中主题title的序列匹配比率;f5是搜索词与产品描述中关键字keywords序列的匹配比率;其中,f4和f5不仅考虑搜索词query和数据信息的字符匹配,还考虑字符序列的匹配,若字符串完全匹配并且字符序列完全一致得满分,否则得0分。对于这些特征的拟合即特征值权重的确定,采用线性回归模型。相关性得分Score0=F0(f1,..,f5),f1,f2,…,f5表示这五个特征,F0表示线性回归模型训练的模型函数,上面特征进行拟合后得出的分值score0即为相关性得分。
而考虑搜索词的历史状态所对应的阈值得分:Score1=F1(f′1,...,f'k),关键词的历史状态类似于相关性得分的训练及预测。该函数Score=F(score0,score1)×p1×p2是将文本特征因子所对应的文本相关性得分,以及数据分析特征因子所对应的虑关键词的历史状态阈值得分拟合在一起,该分值为最终词和产品的得分阈值,它反映了产品的文本匹配得分和商业规则的得分,F同样是指线性回归模型。
本申请上述实施例中的系统还可以包括:第二阈值计算服务器,用于从竞价管理服务器或日志词典中获取关键词及与关键词绑定的每个数据信息的文本特征因子,在根据文本特征因子进行阈值计算,以获取每个关键词所对应的一个或多个阈值分数之后,将各个关键词及每个关键词所对应的阈值分数保存至所述阈值数据库。该实施例中的第二阈值计算服务器所实现的功能可以合并入竞价管理服务器中完成,即在竞价管理服务器中执行根据文本特征因子进行阈值计算而获取每个关键词的阈值。
在上述实施例中,后台会预先设置关键词和数据信息之间的绑定关系(例如可以为同一个关键词建立针对不同产品的绑定关系),并将每个绑定关系中关键词与数据信息的所有文本特征因子发送给竞价管理服务器进行阈值计算,获取关键词与其相关联的每个产品之间的阈值分数,并将获取到的所有阈值分数保存到阈值数据库。在搜索引擎服务器30发生搜索动作之前,会基于阈值数据库中的阈值分数创建索引表,当搜索前段的客户端10向搜索引擎服务器30发送搜索词时,可以调用阈值词典中的已经计算得到的搜索词所对应的动态阈值分数作为过滤条件,来过滤索引表中阈值分数大于等于动态阈值分数的搜索词对应所有索引信息,即只有超过动态阈值分数的阈值分数所对应的数据信息就是符合该搜索词过滤规则的数据。
本申请上述实施例中,如图2中的第二阈值计算服务器还可以包括:第三计算装置,采用线性回归模型Score'=F'(f1,f2,...,fj)进行拟合计算,以获取关键词的阈值分数,其中,fj是关键词所对应的文本特征因子,j是小于等于J的整数,J为自然数。
由上述分析可知,本申请中的搜索引擎服务器30在接收到搜索词之后会调用用于计算阈值的动态库接口程序,而且从阈值词典中获取该搜索词对应的所有动态阈值分数,从而返回一个对应该搜索词query的动态阈值分数,该动态阈值分数目前支持不同pid(用于标识网站页面的不同区域)的自适应。搜索引擎服务器30在调取通过计算得到搜索词query的动态阈值分数之后,在请求串拼接该过滤条件,然后再用该拼接后的请求串与已经创建好的索引表中的阈值分数进行比对,从而得到小于该动态阈值分数的阈值分数所对应的推广数据信息就没有机会被展示,而满足阈值过滤的产品最多可以展示的位置数不能大于算法模块动态计算出来的位置数上限,保证对网站自然搜索的影响风险。
下面可以以卖电子产品的用户为例说明获取动态阈值分数的业务流程。首先,卖家用户在竞价管理服务器50上选中关键词MP3进行竞价,然后给该关键词MP3设置了500个产品作为卖家需要进行推广的数据信息,从而针对同一个关键词MP3绑定500条不同的数据信息,显然这500个数据信息和MP3这个关键词的相关性情况各有差异,竞价管理服务器50会将该关键词MP3及其500个绑定关系(关键词和数据信息)以请求(例如http server中的url请求串)的方式发送给阈值计算服务器90来访问阈值服务,计算得到每个绑定关系的阈值分数,该阈值分数可以用于确定关键词MP3和每个数据信息之间的相关性的大小,同时阈值处理服务器也可以通过读取日志服务器70中的日志信息进行阈值计算,从而得到关键词MP3的所有文本相关性的阈值分数,最后可以将所有的阈值分数返回给竞价管理服务器50,并由竞价管理服务器50发送至阈值数据库DB进行保存,这些阈值的分数可以供搜索引擎服务下载使用,从而减少在线系统中很多无用数据带来的压力。
上述实施例中的系统还可以包括:监测装置,用于接收实时消息以监测日志词典的一致性,在监测到特征因子发生变化的情况下。更新日志词典。
具体的,本申请上述实施例中的监测装置主要通过实时发送notify消息(例如,在竞价管理服务器50中,卖家用户对数据信息进行了修改或者新增了产品,系统都会捕获到相应行为转化生成一条消息,然后该消息会把相应的变更字段信息或者新增的整条数据信息发给搜索引擎服务器30进行索引的更新),从而实时根据网站推广活动信息、用户的实时浏览行为和点击信息、推广产品的点击率ctr等信息,对阈值索引数据表进行更新,从而使得每个搜索词query的展现阈值实时调整,不需要人工干预和做全量计算。而对于新出现的关键词query(流量日志中没有的),系统会给一个默认值。
由上可知,系统提供给搜索引擎服务器30和竞价管理服务器50的日志词典中的词典索引数据需要保持一致,具体的,本申请上述实施例可以采用在数据发送成功之后,对文件大小、文件md5值、磁盘容量等数据进行的验证,若发现有不一致和异常情况(磁盘容量不够了,只传输了一部分数据过去)进行报警,人工进行处理。例如有一个统一管理的任务用于同步词典数据,该任务每天会定时对词典数据进行多方的分发,并且对分发的词典进行md5值的验证,确认传输过去的词典已经是新的并且是一致的情况下才进行后续的处理,发现不一致就进行报警,进行人工干预和修复问题。而且要随着网站数据的变化做到同步的增量更新,不然会导致用户在后台系统得到的词绑定情况和引擎展示返回不一致问题,比如在推广平台得到的用户在该词下的产品是优质的,认为可以曝光的,可是在引擎误被过滤了,永远都没有曝光机会,出现类似的不一致。由此可知,实现日志字典中的数据一致性其实就是做好一些验证工作,也就是让流程停下来,否则会导致日志字典中的数据不一致而导致用户的投诉。
具体的,本申请上述实施例中的用户在竞价管理服务器50上设置需要推广的广告产品与关键词之间的文本特征因子之后,可以根据关键词query请求阈值服务,得到相应的相关性阈值信息,从而可以根据这个阈值分析进行判断该关键词和数据信息的绑定关系和优良状况。在卖家用户发现其绑定的产品没有高效的曝光机会时会主动从竞价管理服务器50上来优化其产品信息和推广方案,卖家用户也可以根据不同关键词的推广竞争激烈情况来决定推广策略,从而提高整个网站推广产品的质量,利于P4P业务的长期良性竞争发展。
图3是根据本申请实施例的数据的动态获取方法的流程图,如图3所示该方法包括如下步骤:
步骤S102,图1中的搜索引擎服务器30可以接收搜索请求串,并从搜索请求串中读取搜索词。
步骤S104,该搜索引擎服务器30根据搜索词在阈值词典中进行查询,以获取搜索词所对应的动态阈值分数。该步骤中可以通过调用动态阈值接口函数来完成。
步骤S106,搜索引擎服务器30会将搜索词作为查询条件,搜索词所对应的动态阈值分数作为过滤条件在索引数据表中进行过滤,以获取当关键词与搜索词相同且关键词的阈值分数大于等于该搜索词的动态阈值分数时,所对应的一个或多个索引信息,其中,动态阈值分数根据特征因子实时变化。上述实施例中的关键词为索引数据表中的索引词,关键词与索引信息对应。
步骤S108,图1所示的搜索引擎服务器30根据索引信息获取搜索词所对应的数据信息,并返回给网站的前端页面进行动态显示。其中,阈值词典包括:搜索词及每个搜索词所对应的动态阈值分数,索引数据表包括:关键词以及关键词与每个数据信息之间的阈值分数,特征因子包括:实时变更的文本特征因子和数据分析特征因子。
上述方案将搜索词在阈值词典中的得到动态阈值分数作为过滤条件在索引数据表中进行过滤,由于阈值词典中存储的动态阈值分数会根据特征因子的实时更新而动态变化,因此获取到的当前搜索词所对应的数据信息的数据,会由于比对的动态阈值分数的变化而动态更新,因此最后显示在网站前端页面上的结果也是会更新的,从而解决了相关现有技术在搜索引擎上实现的产品数据推广的方法单一,使得搜索结果不灵活的问题,进而实现了实时的动态化推广产品数据信息的效果。
本申请上述实施例中的特征因子中包括的文本特征因子和数据分析特征因子,其中,文本特征因子可以包括搜索词与产品本身的文本信息的匹配参数,数据分析特征因子可以包括搜索词的点击率、所对应的各个产品的击率、搜索词本身热度、用户推广产品地域信息以及搜索词绑定的产品数(用户数)等因素(比如买家和网站推广数据的信息挖掘、网站产品的历史CTR信息、卖家的竞争程度状况、推广产品和词的相关性和自然搜索结果的对比情况等)。例如搜索词的点击率和地域信息等是会根据实际情况动态变化,由此可以看出数据分析特征因子是动态变化的,从而动态阈值分数是根据动态变化的数据分析特征因子实时变更。
优选地,本申请上述实施例中的客户端10可以实现把搜索请求串发送给搜索引擎服务器30,该搜索请求串由多个条件组装,搜索引擎服务器30的系统能够解析该请求串,并调用后台阈值词典中已经计算好的动态阈值分数,将得到的动态阈值分数作为过滤条件对索引表中的关键词进行过滤,从而返回搜索结果的数据,最后搜索结果会在客户端10上的搜索页面SearchWeb进行展示。
具体的,如图4所示,上述过程中,搜索引擎服务器30接收受到客户端10的搜索页面SearchWeb的请求串后以及日志信息,会对请求串进行重写,然后可以调用动态阈值接口的处理类::init,会在后台的算法模块中实现通过阈值计算服务器对每个请求串的搜索词以及日志词典中该搜索词所对应的特征因子进行阈值计算而得到该搜索词的一个动态阈值分数,其中动态阈值分数表征关键词和数据信息之间的动态综合相关性情况,然后把该动态阈值分数加入到一个过滤条件中,并且对返回的结果个数进行重写,最后用重写后的请求串请求搜索引擎服务器30内核的查询模块完成查询工作,并返回相应的搜索结果给客户端10的搜索页面SearchWeb用于展示。
本申请上述实施例中,在根据搜索词在阈值词典中进行查询,以获取搜索词所对应的动态阈值分数之前,方法还可以包括如下步骤:从日志词典中获取各个搜索词的文本特征因子和数据分析特征因子;根据文本特征因子和数据分析特征因子进行阈值计算,以获取每个搜索词的动态阈值分数;将各个搜索词及每个搜索词的动态阈值分数以数据字典的格式保存至阈值词典;其中,文本特征因子是搜索词与数据信息所匹配的特征权重值,数据分析特征因子是搜索词所对应的分析参数特征权重值。
具体的,第一阈值计算服务器90可以从竞价管理服务器50拉取搜索词及搜索词所对应的数据信息,并从日志服务器70的日志词典中获取网站完成搜索请求后的日志信息,该日志信息由数据分析数据库DW得到的数据分析特征因子和文本特征因子构成,阈值计算服务器90在获取到搜索词以及所有的文本特征因子和数据分析特征因子之后,可以计算得到每个搜索词的动态阈值分数,例如,可以计算每个搜索词query和用户推广产品的相关性阈值,同时会计算该搜索词和网站自然搜索结果前20名产品的相关性阈值,计算过程中除了考虑上述搜索词和产品的文本相关性阈值,计算得到动态阈值分数,还会考虑通过对历史产品的ctr、点击率、词本身热度、推广产品区域信息以及词绑定的产品数(用户数)等商业因素计算得到第二阈值分数,并基于第一阈值分数和第二阈值分数得到该搜索词最终所对应的动态阈值分数,并将所有搜索词及其动态阈值分数保存至阈值词典中。上述实施例中,卖家用户通过竞价管理服务器50为阈值处理系统提供用于计算搜索词和数据信息的相关性阈值分数的文本特征因子。
本申请上述实施例中,根据文本特征因子和数据分析特征因子进行阈值计算,以获取每个搜索词的动态阈值分数的步骤包括:采用线性回归模型Score0=F0(f1,f2,...,fi)进行拟合计算,以获取搜索词的第一阈值分数Score0,其中,fi是搜索词所对应的文本特征因子,i是小于等于N的整数,N为自然数;采用线性回归模型Score1=F1(f′1,...,f'k)进行拟合计算,以获取搜索词的第二阈值分数Score1,其中,f'k是搜索词所对应的数据分析特征因子,k是小于等M的整数,M为自然数;根据线性回归模型Score=F(score0,score1)×p1×p2进行拟合计算,以获取搜索词的动态阈值分数,其中,p1是第一阈值分数的占空比,p2是第二阈值分数的占空比。
具体的,当搜索词和产品对应的的文本相关性计算考虑因素可以包括:f1是搜索词与产品描述中相同单词的主题title长度的比率;f2是搜索词占包含搜索词的主题title的比率;f3是搜索词占包含搜索词的关键字keywords的比率;f4用于搜索词与产品描述中主题title的序列匹配比率;f5是搜索词与产品描述中关键字keywords序列的匹配比率;其中,f4和f5不仅考虑搜索词query和数据信息的字符匹配,还考虑字符序列的匹配,若字符串完全匹配并且字符序列完全一致得满分,否则的0分。对于这些特征的拟合即特征值权重的确定,采用线性回归模型。相关性得分Score0=F0(f1,..,f5),f1,f2,…,f5表示这五个特征,F0表示线性回归模型训练的模型函数,上面特征进行拟合后得出的分值score0即为相关性得分。
而考虑搜索词的历史状态所对应的阈值得分:Score1=F1(f′1,...,f'k),搜索词的历史状态所对应的阈值类似于相关性得分的训练及预测。
该函数Score=F(score0,score1)×p1×p2是将文本特征因子所对应的文本相关性得分,以及数据分析特征因子所对应的虑关键词的历史状态阈值得分拟合在一起,该分值为最终词和产品的得分阈值,它反映了产品的文本匹配得分和商业规则的得分,F同样是指线性回归模型。
由上分析可知,如图5所示的详细业务流程图。卖家用户设置推广信息,该推广信息包括需要推广的关键词和数据信息之间的关系列表,即设置关键词与产品本身的文本信息的匹配参数,在竞价管理服务器50获取到上述推广信息之后,将会将它们发送给第一阈值计算服务器90,第一阈值计算服务器90在从日志词典中获取各个搜索词的文本特征因子和数据分析特征因子之后,会根据文本特征因子和数据分析特征因子进行阈值计算,从而获取到每个搜索词的动态阈值分数,然后,将各个搜索词及每个搜索词的动态阈值分数以数据字典的格式保存至阈值词典中;其中,文本特征因子是搜索词与数据信息所匹配的特征权重值,数据分析特征因子是搜索词所对应的分析参数特征权重值。接着根据阈值分数在竞价管理服务器中查询获取到预先设置的绑定结果,该绑定结果为每个搜索词与产品信息之间的相关性分数,最后竞价管理服务器会拼装索引词对应的产品信息。
本申请上述实施例中,在将搜索词作为查询条件,搜索词所对应的动态阈值分数作为过滤条件在索引数据表中进行查询之前,方法还可以包括:从后台客户端的竞价管理服务器或日志词典中获取关键词及与关键词绑定的每个产品的数据信息的文本特征因子;根据文本特征因子进行阈值计算,以获取每个关键词所对应的一个或多个阈值分数;将各个关键词及每个关键词所对应的阈值分数保存至阈值数据库;根据阈值数据库中每个关键词及其对应的所有阈值分数创建索引表;其中,根据文本特征因子进行阈值计算,以获取每个关键词所对应的一个或多个阈值分数的步骤包括:采用线性回归模型Score'=F'(f1,f2,...,fj)进行拟合计算,以获取关键词的阈值分数,其中,fj是关键词所对应的文本特征因子,j是小于等于J的整数,J为自然数。
本申请上述实施例中,在接收搜索请求串,并从搜索请求串中读取搜索词之前,方法还可以包括:接收实时消息以监测日志词典的一致性,在监测到特征因子发生变化的情况下。更新日志词典。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图6是根据本申请实施例的数据的动态获取装置的结构示意图。如图6所示,该装置可以包括:接收模块101,用于接收搜索请求串,并从搜索请求串中读取搜索词;查询模块103。与接收模块连接,用于根据搜索词在阈值词典中进行查询,以获取搜索词所对应的动态阈值分数;过滤模块105,与查询模块连接,用于将搜索词作为查询条件,搜索词所对应的动态阈值分数作为过滤条件在索引数据表中进行过滤,以获取当关键词与搜索词相同且关键词的阈值分数大于等于该搜索词的动态阈值分数时,所对应的一个或多个索引信息,其中,动态阈值分数根据特征因子变化;处理模块107,与过滤模块连接,用于根据索引信息获取搜索词所对应的数据信息,并返回给网站的前端页面进行显示;其中,阈值词典包括:搜索词及每个搜索词所对应的动态阈值分数,索引数据表包括:关键词以及关键词与每个数据信息之间的阈值分数,特征因子包括:文本特征因子和数据分析特征因子。
上述方案将搜索词在阈值词典中的得到动态阈值分数作为过滤条件在索引数据表中进行过滤,由于阈值词典中存储的动态阈值分数会根据特征因子的实时更新而动态变化,因此获取到的当前搜索词所对应的产品信息的数据,会由于比对的动态阈值分数的变化而动态更新,因此最后显示在网站前端页面上的结果也是会更新的,从而解决了相关现有技术在搜索引擎上实现的产品数据推广的方法单一,使得搜索结果不灵活的问题,进而实现了实时的动态化推广产品数据信息的效果。
从以上的描述中,可以看出,本申请实现了如下技术效果:本申请实施例提供的动态化推广产品将会降低用户竞价管理服务器50的平台和搜索引擎服务器30间的耦合,用户通过用户竞价管理服务器50的平台进行竞价推广行为的时候就可以知道推广产品的质量和展现情况,可以针对不同的搜索词给出动态和多样化的推广产品信息,并且可以根据网站流量、推广信息的实时变化而动态变化,这种方案有利于用户主动去优化和竞价,从而促进业务竞价的良性发展。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种数据的动态获取方法,其特征在于,包括:
接收搜索请求串,并从所述搜索请求串中读取搜索词;
根据所述搜索词在阈值词典中进行查询,以获取所述搜索词所对应的动态阈值分数;
将所述搜索词作为查询条件,所述搜索词所对应的动态阈值分数作为过滤条件在索引数据表中进行过滤,以获取当关键词与所述搜索词相同且所述关键词的阈值分数大于等于该搜索词的动态阈值分数时,所对应的一个或多个索引信息,其中,所述动态阈值分数根据特征因子变化;
根据所述索引信息获取所述搜索词所对应的数据信息,并返回给网站的前端页面进行显示;
其中,所述阈值词典包括:搜索词及每个搜索词所对应的动态阈值分数,所述索引数据表包括:关键词以及关键词与每个数据信息之间的阈值分数,所述特征因子包括:文本特征因子和数据分析特征因子。
2.根据权利要求1所述的方法,其特征在于,在根据所述搜索词在阈值词典中进行查询,以获取所述搜索词所对应的动态阈值分数之前,所述方法还包括:
从日志词典中获取各个搜索词的文本特征因子和数据分析特征因子;
根据所述文本特征因子和数据分析特征因子进行阈值计算,以获取每个搜索词的动态阈值分数;
将所述各个搜索词及每个搜索词的动态阈值分数以数据字典的格式保存至所述阈值词典;
其中,所述文本特征因子是所述搜索词与数据信息所匹配的特征权重值,所述数据分析特征因子是所述搜索词所对应的分析参数特征权重值。
3.根据权利要求2所述的方法,其特征在于,根据所述文本特征因子和数据分析特征因子进行阈值计算,以获取每个搜索词的动态阈值分数的步骤包括:
采用线性回归模型Score0=F0(f1,f2,...,fi)进行拟合计算,以获取所述搜索词的第一阈值分数Score0,其中,fi是所述搜索词所对应的文本特征因子,i是小于等于N的整数,N为自然数;
采用线性回归模型Score1=F1(f′1,...,f'k)进行拟合计算,以获取所述搜索词的第二阈值分数Score1,其中,f′k是所述搜索词所对应的数据分析特征因子,k是小于等M的整数,M为自然数;
根据线性回归模型Score=F(score0,score1)×p1×p2进行拟合计算,以获取所述搜索词的动态阈值分数,其中,p1是所述第一阈值分数的占空比,p2是所述第二阈值分数的占空比。
4.根据权利要求1所述的方法,其特征在于,在将所述搜索词作为查询条件,所述搜索词所对应的动态阈值分数作为过滤条件在索引数据表中进行查询之前,所述方法还包括:
从竞价管理服务器或日志词典中获取关键词及与所述关键词绑定的每个数据信息的文本特征因子;
根据所述文本特征因子进行阈值计算,以获取每个关键词所对应的一个或多个阈值分数;
将所述各个关键词及每个关键词所对应的阈值分数保存至所述阈值数据库;
根据所述阈值数据库中每个关键词及其对应的所有阈值分数创建所述索引表;
其中,根据所述文本特征因子进行阈值计算,以获取每个关键词所对应的一个或多个阈值分数的步骤包括:采用线性回归模型Score'=F'(f1,f2,...,fj)进行拟合计算,以获取所述关键词的阈值分数,其中,fj是所述关键词所对应的文本特征因子,j是小于等于J的整数,J为自然数。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,在接收搜索请求串,并从所述搜索请求串中读取搜索词之前,所述方法还包括:
接收实时消息以监测所述日志词典的一致性,在监测到所述特征因子发生变化的情况下,更新所述日志词典。
6.一种数据的动态获取系统,其特征在于,包括:
客户端,用于发送搜索请求串;
搜索引擎服务器,与所述客户端建立通信,用于接收搜索请求串,并从所述搜索请求串中读取搜索词,在根据所述搜索词在阈值词典中进行查询,以获取所述搜索词所对应的动态阈值分数之后,将所述搜索词作为查询条件,所述搜索词所对应的动态阈值分数作为过滤条件在索引数据表中进行过滤,以获取当关键词与所述搜索词相同且所述关键词的阈值分数大于等于该搜索词的动态阈值分数时,所对应的一个或多个索引信息,其中,所述动态阈值分数根据特征因子变化,并根据所述索引信息获取所述搜索词所对应的数据信息,并返回给网站的前端页面进行显示;
其中,所述阈值词典包括:搜索词及每个搜索词所对应的动态阈值分数,所述索引数据表包括:关键词以及关键词与每个数据信息之间的阈值分数,所述特征因子包括:文本特征因子和数据分析特征因子。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
竞价管理服务器,用于提供文本特征因子;
日志服务器,用于保存日志词典,以提供数据分析特征因子和/或所述文本特征因子;
第一阈值计算服务器,用于从所述日志词典中获取各个搜索词的文本特征因子和数据分析特征因子,在根据所述文本特征因子和数据分析特征因子进行阈值计算,以获取每个搜索词的动态阈值分数之后,将所述各个搜索词及每个搜索词的动态阈值分数以数据字典的格式保存至所述阈值搜索数据表,以返回给网站的前端页面进行动态显示;
其中,所述文本特征因子是所述搜索词与数据信息所匹配的特征权重值,所述数据分析特征因子是所述搜索词所对应的分析参数特征权重值。
8.根据权利要求7所述的系统,其特征在于,所述第二阈值计算服务器包括:
第一计算装置,用于采用线性回归模型Score0=F0(f1,f2,...,fi)进行拟合计算,以获取所述搜索词的第一阈值分数Score0,其中,fi是所述搜索词所对应的文本特征因子,i是小于等于N的整数,N为自然数;
第二计算装置,用于采用线性回归模型Score1=F1(f′1,...,f'k)进行拟合计算,以获取所述搜索词的第二阈值分数Score1,其中,f′k是所述搜索词所对应的数据分析特征因子,k是小于等M的整数,M为自然数;
处理装置,用于根据线性回归模型Score=F(score0,score1)×p1×p2进行拟合计算,以获取所述搜索词的动态阈值分数,其中,p1是所述第一阈值分数的占空比,p2是所述第二阈值分数的占空比。
9.根据权利要求6所述的系统,其特征在于,所述系统还包括:
第二阈值计算服务器,用于从竞价管理服务器或日志词典中获取关键词及与所述关键词绑定的每个产品的数据信息的文本特征因子,在根据所述文本特征因子进行阈值计算,以获取每个关键词所对应的一个或多个阈值分数之后,将所述各个关键词及每个关键词所对应的阈值分数保存至所述阈值数据库。
10.根据权利要求9所述的系统,其特征在于,所述第二阈值计算服务器包括:
第三计算装置,用于采用线性回归模型Score'=F'(f1,f2,...,fj)进行拟合计算,以获取所述关键词的阈值分数,其中,fj是所述关键词所对应的文本特征因子,j是小于等于J的整数,J为自然数。
11.根据权利要求6至10中任意一项所述的系统,其特征在于,所述系统还包括:
监测装置,用于接收实时消息以监测所述日志词典的一致性,在监测到所述特征因子发生变化的情况下,更新所述日志词典。
12.一种数据的动态获取装置,其特征在于,包括:
接收模块,用于接收搜索请求串,并从所述搜索请求串中读取搜索词;
查询模块,与所述接收模块连接,用于根据所述搜索词在阈值词典中进行查询,以获取所述搜索词所对应的动态阈值分数;
过滤模块,与所述查询模块连接,用于将所述搜索词作为查询条件,所述搜索词所对应的动态阈值分数作为过滤条件在索引数据表中进行过滤,以获取当关键词与所述搜索词相同且所述关键词的阈值分数大于等于该搜索词的动态阈值分数时,所对应的一个或多个索引信息,其中,所述动态阈值分数根据特征因子变化;
处理模块,与所述过滤模块连接,用于根据所述索引信息获取所述搜索词所对应的数据信息,并返回给网站的前端页面进行显示;
其中,所述阈值词典包括:搜索词及每个搜索词所对应的动态阈值分数,所述索引数据表包括:关键词以及关键词与每个数据信息之间的阈值分数,所述特征因子包括:文本特征因子和数据分析特征因子。
CN201210339669.4A 2012-09-13 2012-09-13 数据的动态获取方法、装置及系统 Active CN103678365B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201210339669.4A CN103678365B (zh) 2012-09-13 2012-09-13 数据的动态获取方法、装置及系统
TW101142221A TWI567572B (zh) 2012-09-13 2012-11-13 Data acquisition method, device and system
US14/022,634 US10025807B2 (en) 2012-09-13 2013-09-10 Dynamic data acquisition method and system
EP13770565.3A EP2895969A4 (en) 2012-09-13 2013-09-11 METHOD AND SYSTEM FOR ACQUIRING DYNAMIC DATA
PCT/US2013/059212 WO2014043200A2 (en) 2012-09-13 2013-09-11 Dynamic data acquisition method and system
JP2015532016A JP5916959B2 (ja) 2012-09-13 2013-09-11 動的データ取得方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210339669.4A CN103678365B (zh) 2012-09-13 2012-09-13 数据的动态获取方法、装置及系统

Publications (2)

Publication Number Publication Date
CN103678365A true CN103678365A (zh) 2014-03-26
CN103678365B CN103678365B (zh) 2017-07-18

Family

ID=50234435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210339669.4A Active CN103678365B (zh) 2012-09-13 2012-09-13 数据的动态获取方法、装置及系统

Country Status (6)

Country Link
US (1) US10025807B2 (zh)
EP (1) EP2895969A4 (zh)
JP (1) JP5916959B2 (zh)
CN (1) CN103678365B (zh)
TW (1) TWI567572B (zh)
WO (1) WO2014043200A2 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512230A (zh) * 2015-11-30 2016-04-20 北京金山安全软件有限公司 数据存储方法及装置
CN105512232A (zh) * 2015-11-30 2016-04-20 北京金山安全软件有限公司 数据存储方法及装置
CN106022163A (zh) * 2016-05-17 2016-10-12 上海凭安网络科技有限公司 一种基于第三方自动混淆的查询方法及系统
CN106021562A (zh) * 2016-05-31 2016-10-12 北京京拍档科技有限公司 用于电商平台的基于主题相关的推荐方法
CN111897840A (zh) * 2020-08-14 2020-11-06 北京字节跳动网络技术有限公司 一种数据搜索方法、装置、电子设备及存储介质
CN112000479A (zh) * 2020-08-24 2020-11-27 龚小云 一种基于大数据的处理方法、系统及服务器平台
CN112883225A (zh) * 2021-02-02 2021-06-01 聚好看科技股份有限公司 一种媒体资源搜索、显示方法及设备

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10346769B1 (en) * 2014-03-14 2019-07-09 Walmart Apollo, Llc System and method for dynamic attribute table
US10565538B1 (en) 2014-03-14 2020-02-18 Walmart Apollo, Llc Customer attribute exemption
US10733555B1 (en) 2014-03-14 2020-08-04 Walmart Apollo, Llc Workflow coordinator
US9785712B1 (en) * 2014-06-20 2017-10-10 Amazon Technologies, Inc. Multi-index search engines
CN104504134B (zh) * 2014-12-31 2017-10-27 北京国双科技有限公司 推广信息属性数据的获取方法和装置
US11200217B2 (en) * 2016-05-26 2021-12-14 Perfect Search Corporation Structured document indexing and searching
CN109934631B (zh) * 2019-03-13 2022-03-25 联想(北京)有限公司 问答信息处理方法、装置及计算机设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050080772A1 (en) * 2003-10-09 2005-04-14 Jeremy Bem Using match confidence to adjust a performance threshold
US20070174260A1 (en) * 2002-12-31 2007-07-26 Bachman Robert E Search engine facility with automated knowledge retrieval, generation and maintenance
US7398461B1 (en) * 2002-01-24 2008-07-08 Overture Services, Inc. Method for ranking web page search results
CN102054008A (zh) * 2009-11-05 2011-05-11 北京四维图新科技股份有限公司 网络信息获取方法和装置
CN102053983A (zh) * 2009-11-02 2011-05-11 阿里巴巴集团控股有限公司 一种垂直搜索的查询方法、系统和装置
CN102289436A (zh) * 2010-06-18 2011-12-21 阿里巴巴集团控股有限公司 确定搜索词权重值方法及装置、搜索结果生成方法及装置
CN102385585A (zh) * 2010-08-27 2012-03-21 阿里巴巴集团控股有限公司 网页数据库的建立方法、网页搜索方法以及相关装置
US20120166277A1 (en) * 2010-12-28 2012-06-28 Yahoo! Inc. Variation of minimum advertisement relevance quality threshold based on search query attributes
CN102612691A (zh) * 2009-09-18 2012-07-25 莱克西私人有限公司 给文本评分的方法和系统

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04262460A (ja) 1991-02-15 1992-09-17 Ricoh Co Ltd 情報検索装置
US7082426B2 (en) 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
US6714933B2 (en) 2000-05-09 2004-03-30 Cnet Networks, Inc. Content aggregation method and apparatus for on-line purchasing system
US5946678A (en) 1995-01-11 1999-08-31 Philips Electronics North America Corporation User interface for document retrieval
JPH09101991A (ja) 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置
US6012053A (en) 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
JP3607462B2 (ja) 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
US6675159B1 (en) 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US20020078045A1 (en) 2000-12-14 2002-06-20 Rabindranath Dutta System, method, and program for ranking search results using user category weighting
JP2005018530A (ja) 2003-06-27 2005-01-20 Toshiba Corp 情報処理装置、情報処理プログラム及び情報処理方法
US7836010B2 (en) 2003-07-30 2010-11-16 Northwestern University Method and system for assessing relevant properties of work contexts for use by information services
EP1661008A4 (en) 2003-08-05 2007-01-24 Cnet Networks Inc METHOD AND ENGINE FOR PLACING PRODUCTS
US20050131872A1 (en) 2003-12-16 2005-06-16 Microsoft Corporation Query recognizer
US7562068B2 (en) 2004-06-30 2009-07-14 Microsoft Corporation System and method for ranking search results based on tracked user preferences
US7603349B1 (en) 2004-07-29 2009-10-13 Yahoo! Inc. User interfaces for search systems using in-line contextual queries
US7580926B2 (en) 2005-12-01 2009-08-25 Adchemy, Inc. Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy
US7657506B2 (en) 2006-01-03 2010-02-02 Microsoft International Holdings B.V. Methods and apparatus for automated matching and classification of data
US7814112B2 (en) 2006-06-09 2010-10-12 Ebay Inc. Determining relevancy and desirability of terms
US20080059458A1 (en) 2006-09-06 2008-03-06 Byron Robert V Folksonomy weighted search and advertisement placement system and method
US20080097982A1 (en) 2006-10-18 2008-04-24 Yahoo! Inc. System and method for classifying search queries
US20080104101A1 (en) * 2006-10-27 2008-05-01 Kirshenbaum Evan R Producing a feature in response to a received expression
US7966309B2 (en) 2007-01-17 2011-06-21 Google Inc. Providing relevance-ordered categories of information
US20080263009A1 (en) 2007-04-19 2008-10-23 Buettner Raymond R System and method for sharing of search query information across organizational boundaries
US20080313142A1 (en) 2007-06-14 2008-12-18 Microsoft Corporation Categorization of queries
CN101378187B (zh) 2007-08-29 2012-07-18 鸿富锦精密工业(深圳)有限公司 电源保护电路
CN100557612C (zh) 2007-11-15 2009-11-04 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
US7895206B2 (en) 2008-03-05 2011-02-22 Yahoo! Inc. Search query categrization into verticals
US7877404B2 (en) 2008-03-05 2011-01-25 Microsoft Corporation Query classification based on query click logs
US20100138402A1 (en) 2008-12-02 2010-06-03 Chacha Search, Inc. Method and system for improving utilization of human searchers
US8396742B1 (en) * 2008-12-05 2013-03-12 Covario, Inc. System and method for optimizing paid search advertising campaigns based on natural search traffic
US20100153366A1 (en) 2008-12-15 2010-06-17 Motorola, Inc. Assigning an indexing weight to a search term
WO2010144671A2 (en) * 2009-06-11 2010-12-16 Dolby Laboratories Licensing Corporation Trend analysis in content identification based on fingerprinting
CN102339296A (zh) 2010-07-26 2012-02-01 阿里巴巴集团控股有限公司 一种查询结果的排序方法和装置
CN102411583B (zh) * 2010-09-20 2013-09-18 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
US8977640B2 (en) * 2011-02-28 2015-03-10 Yahoo! Inc. System for processing complex queries

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398461B1 (en) * 2002-01-24 2008-07-08 Overture Services, Inc. Method for ranking web page search results
US20070174260A1 (en) * 2002-12-31 2007-07-26 Bachman Robert E Search engine facility with automated knowledge retrieval, generation and maintenance
US20050080772A1 (en) * 2003-10-09 2005-04-14 Jeremy Bem Using match confidence to adjust a performance threshold
CN102612691A (zh) * 2009-09-18 2012-07-25 莱克西私人有限公司 给文本评分的方法和系统
CN102053983A (zh) * 2009-11-02 2011-05-11 阿里巴巴集团控股有限公司 一种垂直搜索的查询方法、系统和装置
CN102054008A (zh) * 2009-11-05 2011-05-11 北京四维图新科技股份有限公司 网络信息获取方法和装置
CN102289436A (zh) * 2010-06-18 2011-12-21 阿里巴巴集团控股有限公司 确定搜索词权重值方法及装置、搜索结果生成方法及装置
US20110314005A1 (en) * 2010-06-18 2011-12-22 Alibaba Group Holding Limited Determining and using search term weightings
CN102385585A (zh) * 2010-08-27 2012-03-21 阿里巴巴集团控股有限公司 网页数据库的建立方法、网页搜索方法以及相关装置
US20120166277A1 (en) * 2010-12-28 2012-06-28 Yahoo! Inc. Variation of minimum advertisement relevance quality threshold based on search query attributes

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张慧: "旅游信息垂直搜索系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512230A (zh) * 2015-11-30 2016-04-20 北京金山安全软件有限公司 数据存储方法及装置
CN105512232A (zh) * 2015-11-30 2016-04-20 北京金山安全软件有限公司 数据存储方法及装置
CN105512232B (zh) * 2015-11-30 2020-02-28 北京金山安全软件有限公司 数据存储方法及装置
CN105512230B (zh) * 2015-11-30 2020-05-22 北京金山安全软件有限公司 数据存储方法及装置
CN106022163A (zh) * 2016-05-17 2016-10-12 上海凭安网络科技有限公司 一种基于第三方自动混淆的查询方法及系统
CN106021562A (zh) * 2016-05-31 2016-10-12 北京京拍档科技有限公司 用于电商平台的基于主题相关的推荐方法
CN106021562B (zh) * 2016-05-31 2019-05-24 北京京拍档科技有限公司 用于电商平台的基于主题相关的推荐方法
CN111897840A (zh) * 2020-08-14 2020-11-06 北京字节跳动网络技术有限公司 一种数据搜索方法、装置、电子设备及存储介质
CN112000479A (zh) * 2020-08-24 2020-11-27 龚小云 一种基于大数据的处理方法、系统及服务器平台
CN112883225A (zh) * 2021-02-02 2021-06-01 聚好看科技股份有限公司 一种媒体资源搜索、显示方法及设备

Also Published As

Publication number Publication date
EP2895969A4 (en) 2016-06-08
WO2014043200A3 (en) 2014-07-31
US20140074851A1 (en) 2014-03-13
CN103678365B (zh) 2017-07-18
WO2014043200A2 (en) 2014-03-20
EP2895969A2 (en) 2015-07-22
TW201411380A (zh) 2014-03-16
TWI567572B (zh) 2017-01-21
JP2015528611A (ja) 2015-09-28
JP5916959B2 (ja) 2016-05-11
US10025807B2 (en) 2018-07-17

Similar Documents

Publication Publication Date Title
CN103678365A (zh) 数据的动态获取方法、装置及系统
US8635227B2 (en) Discerning human intent based on user-generated metadata
CN108363602B (zh) 智能ui界面布局方法、装置、终端设备及存储介质
US9978093B2 (en) Method and system for pushing mobile application
US8244701B2 (en) Using behavior data to quickly improve search ranking
CN109597974B (zh) 报表生成方法及装置
CN104850546B (zh) 移动媒介信息的展示方法和系统
US20140101201A1 (en) Distributed data warehouse
CN107330718B (zh) 一种媒体反作弊方法及装置、存储介质、终端
CN109492152B (zh) 推送定制内容的方法、装置、计算机设备及存储介质
US20200074509A1 (en) Business data promotion method, device, terminal and computer-readable storage medium
US20130254014A1 (en) Automatic Information Placement
CN111882399B (zh) 服务信息推荐方法、装置、计算机系统及可读存储介质
CN112749863A (zh) 关键词的调价方法及装置、电子设备
CN104657437B (zh) 推广情况数据的监测方法及装置
US10331713B1 (en) User activity analysis using word clouds
CN104537080A (zh) 资讯推荐方法和系统
CN104598442A (zh) 一种微信关键词人机交互方法
CN110737432A (zh) 一种基于词根表的脚本辅助设计方法及装置
CN110222257B (zh) 一种推荐业务信息的方法、装置及数据链节点
CN114285896B (zh) 信息推送方法、装置、设备、存储介质及程序产品
CN108959324B (zh) 多媒体展示资源库存量的预估方法、装置及存储介质
CN103870517A (zh) 一种获取用户个性化特征的方法和系统
CN107169845B (zh) 一种商户属性查询方法、装置及服务器
KR101597718B1 (ko) 앱 검색 결과 노출 랭킹 관리를 이용한 앱 광고 장치 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant