CN104991907B - 网络信息资源的搜索方法、装置和系统 - Google Patents

网络信息资源的搜索方法、装置和系统 Download PDF

Info

Publication number
CN104991907B
CN104991907B CN201510336480.3A CN201510336480A CN104991907B CN 104991907 B CN104991907 B CN 104991907B CN 201510336480 A CN201510336480 A CN 201510336480A CN 104991907 B CN104991907 B CN 104991907B
Authority
CN
China
Prior art keywords
information
stereotactic conditions
conditions information
resource
character type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510336480.3A
Other languages
English (en)
Other versions
CN104991907A (zh
Inventor
蒲俊峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201510336480.3A priority Critical patent/CN104991907B/zh
Publication of CN104991907A publication Critical patent/CN104991907A/zh
Application granted granted Critical
Publication of CN104991907B publication Critical patent/CN104991907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种网络信息资源的搜索方法、装置和系统。所述方法包括以下步骤:接收包含字符型定向条件信息的定向信息资源请求;根据所述定向信息资源请求将字符型定向条件信息转换为数值型定向条件信息;将包含数值型定向条件信息的定向信息资源请求发送给索引服务器,以使所述索引服务器将所述数值型定向条件信息拆分,获取每类定向条件信息的目标标识,根据所述目标标识搜索对应的资源位标识。上述网络信息资源的搜索方法、装置和系统,通过将定向信息资源请求中的字符型定向条件信息转换为数值型定向条件信息,定向内容大大减少,网络传输消耗带宽也减少,可快速处理,数值型信息处理速度高于字符型信息处理速度,从而大大提升了系统的吞吐量。

Description

网络信息资源的搜索方法、装置和系统
技术领域
本发明涉及计算机应用领域,特别是涉及一种网络信息资源的搜索方法、装置和系统。
背景技术
随着互联网技术的发展,越来越多的用户使用网络搜索所需的信息资源。为了满足用户的搜索需求,在精准的信息资源推荐系统中,使用精准信息描绘用户信息,用户信息的精细度直接影响了信息资源的点击率。因为精准的用户信息需要大量的、精细的用户定向属性,从而导致用户信息定向内容复杂,进而增加了信息资源推荐系统传递用户信息的耗时,同时也加深了用户信息到定向信息资源的转换复杂度。因此,简便、快速的索引用户定向条件是精准信息资源推荐系统设计的关键点之一。
传统的信息资源推荐系统中采用的是用户定向条件保持字符型参数在信息资源推荐系统内部各子服务直接传递,在定向条件与资源位标识转换中,通过遍历索引定向条件,依次取出匹配的资源位标识,再通过用户定向条件的逻辑操作生成最终的用户身份列表。然而,传统的信息资源推荐系统中,存在如下缺陷:
(1)网络带宽消耗大:用户定向条件是字符型信息,其内容长度较大,网络传输占用较大的带宽,导致网络带宽消耗大;
(2)报文处理延迟大:定向条件在推荐系统各子服务器之间传递时,发送端封装报文,接收端解析报文均消耗较大的系统处理时间,导致报文处理延迟大;
(3)可扩展性差:当需要增加、删除定向信息时,不仅需要重新定义各子服务器的定向信息格式,同时还需要更新定向条件与信息资源位标识的映射信息,增加了工作量;
(4)容错性差:当客户端接收的定向条件未定义时,可能导致匹配不到合适的资源位标识或根本无法匹配资源位标识;
(5)系统吞吐量低:由于定向条件匹配资源位标识时需要遍历全部定向条件空间,导致匹配性能低。
发明内容
基于此,有必要针对传统的信息资源推荐系统网络带宽消耗大、报文处理延迟大、系统吞吐量低的问题,提供一种网络信息资源的搜索方法,能降低网络带宽消耗,提高报文处理速度和系统吞吐量高。
此外,还有必要提供一种网络信息资源的搜索装置和系统,能降低网络带宽消耗,提高报文处理速度和系统吞吐量高。
一种网络信息资源的搜索方法,包括以下步骤:
接收包含字符型定向条件信息的定向信息资源请求;
根据所述定向信息资源请求将字符型定向条件信息转换为数值型定向条件信息;
将包含数值型定向条件信息的定向信息资源请求发送给索引服务器,以使所述索引服务器将所述数值型定向条件信息拆分,获取每类定向条件信息的目标标识,根据所述目标标识搜索对应的资源位标识。
一种网络信息资源的搜索装置,包括:
接收模块,用于接收包含字符型定向条件信息的定向信息资源请求;
转换模块,用于根据所述定向信息资源请求将字符型定向条件信息转换为数值型定向条件信息;
发送模块,用于将包含数值型定向条件信息的定向信息资源请求发送给索引服务器,以使所述索引服务器将所述数值型定向条件信息拆分,获取每类定向条件信息的目标标识,根据所述目标标识搜索对应的资源位标识。
一种网络信息资源的搜索系统,其特征在于,包括定向资源搜索服务器、信息资源服务器和索引服务器;
所述信息资源服务器用于实时发送信息资源给所述索引服务器;
所述定向资源搜索服务器用于接收包含字符型定向条件信息的定向信息资源请求,并根据所述定向信息资源请求将字符型定向条件信息转换为数值型定向条件信息,以及将包含数值型定向条件信息的定向信息资源请求发送给所述索引服务器;
所述索引服务器用于接收所述信息资源服务器实时发送的信息资源,并记载所述信息资源,以及接收定向资源搜索服务器发送的包含数值型定向条件信息的定向资源请求,并将所述数值型定向条件信息拆分,获取每类定向条件信息的目标标识,根据所述目标标识搜索对应的资源位标识,将所述资源位标识返回给所述定向资源搜索服务器。
上述网络信息资源的搜索方法、装置和系统,通过将定向信息资源请求中的字符型定向条件信息转换为数值型定向条件信息,在搜索过程中均采用数值型定向条件信息,定向内容大大减少,网络传输消耗带宽也减少,对数值型定向条件信息进行处理,无论是封装还是解析,均可快速处理,数值型信息处理速度高于字符型信息处理速度,从而大大提升了系统的吞吐量。
附图说明
图1为一个实施例中网络信息资源的搜索系统的架构示意图;
图2为图1中网络信息资源的搜索系统的工作时序图;
图3为一个实施例中网络信息资源的搜索方法的流程图;
图4为一个实施例中预先采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系的步骤的具体流程图;
图5为一个实施例中网络信息资源的搜索装置的结构框图;
图6为另一个实施例中网络信息资源的搜索装置的结构框图;
图7为一个实施例中图6中映射关系建立模块的内部结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中网络信息资源的搜索系统的架构示意图。如图1所示,一种网络信息资源的搜索系统包括终端110、定向资源搜索服务器120、信息资源服务器130和索引服务器140。
终端110上安装有客户端,例如浏览器客户端或其他应用程序客户端。终端110上的客户端可以获取用户通过键盘或鼠标或触摸屏等输入设备输入的字符型定向条件信息的定向信息资源请求。终端110可为智能手机、台式计算机、笔记本电脑、平板电脑、个人数字助理等。
字符型定向条件信息可包括信息资源人群、年龄、性别、地域、操作系统、流量标签、时间范围、资源位约束条件、网络模式中一种或多种。
信息资源人群可为小孩、青年人、中年人、老年人等不同群体。
年龄可为1至127岁。性别可为未知、男、女。
地域可包括中国国内地域及国外地域。操作系统可分为未知、IOS系统、Android、WindowsPhone、Symbian、Java、S40asha、Webwx、Blackberry和Widows等类型。
流量标签类型可包括教育、旅游、金融、汽车、房产、家具、服饰鞋包、奢侈品、餐饮美食、生活服务、商务服务、美容、电子数码/软件/互联网、体育运动、医疗健康、母婴、游戏、文学、漫画动漫、音乐、科学、军事、新闻资讯、影视、娱乐、政法及其它等。
时间范围是指信息资源上线的时间范围。例如,可将时间区域分两层类型:第一层类型按星期制分七天,第二层将每一天以30分钟粒度分为48个区间范围。
网络模式可包括未知模式、WiFi无线、2G、3G、4G等。
资源位约束条件是指设定的限制搜索条件。可将年龄、性别、地域、操作系统、流量标签、网络模式和时间范围等组合在一起采用与、或、非等逻辑运算形成搜索条件。例如可设定年龄为1至3岁且时间范围在星期二。
定向资源搜索服务器120用于预先采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系。
进一步的,定向资源搜索服务器120预先采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系包括:预先将字符型定向条件信息分类,采用统一的编码为每类字符型定向条件信息分配对应的数值型标识范围,为每类字符型定向条件信息中每条字符型定向条件信息在对应的数值型标识范围内分配对应的一个数值型标识。每类字符型定向条件信息分配的数值型标识范围中数值型标识数量大于对应类字符型定向条件信息已分配的数值型标识数量。
具体地,统一的编码可为64bit(比特位)编码规则或128bit等。本实施例中,采用64bit编码建立字符型定向条件信息和数值型定向条件信息建立映射关系。该映射关系包括以下映射规则:
(1)<!--区间64bit中采用Higher 20bit用于扩展特性,可以作为私有编码使用-->;
(2)<!--Medium 12bit用于区分低32位的id(identity)类型-->;
(3)<!--lower 32bit标识类型指定后整个42亿空间可以用于该类型编码-->;
(4)<!lowerbound:区间下限,upperbound:区间上限,所有区间为左闭右开即[lowerbound,upperbound]-->;
(5)<!allocate表示已分配-->;
(6)<!reserves预留给将来使用-->;
(7)<!forbidden禁止在统一标识里面使用,可以在内部使用对外不可见-->。
为字符型定向条件信息资源分配对应的数值型标识,建立索引空间,以便于索引。首先,每类定向条件信息资源分配对应的数值型标识范围。
例如,首先采用如下索引空间(即范围)代码将字符型定向条件信息资源分成三类大的数值型标识范围,具体如下:
上述索引空间代码中,将定向条件信息中年龄、性别、地域、操作系统、时间范围、广告位约束条件、网络模式映射在system_targeting范围内,作为一大类,可扩容999999990个定向条件,且为system_targeting规定了lowerbound下限10和upperbound上限1000000000。资源位映射为wechat_ad_position范围,共1000W(万)数量,且为wechat_ad_position规定了lowerbound下限0x100000000和upperbound上限0x200000000,当前系统支撑不到100W,预留空间足够。流量标签映射为wechat_flow_class范围,且为wechat_flow_class规定了lowerbound下限0x200000000和upperbound上限0x300000000,共1000W数量。禁止编码段:0x100000000000~0xffffffffffffffff,可做预留段。
再对每类定向条件信息资源中每类分配对应的数值型标识。信息资源此处以广告资源为例,例如定向条件段标识范围代码:
各类定向条件信息资源所分配的对应数值型标识范围如表1所示。
表1
其中,性别的数值型标识分配:性别领域分配8个target id(目标标识,即数值型标识),范围涵盖:[12,20)。将未知性别、男和女分别映射到target id12、13和14,当前预留5个。性别分配的代码如下:
由上述性别分配代码可知,采用11表示性别这一类,12表示性别未知,13表示男,14表示女。
年龄的数值型标识分配:年龄区域分配200数量target id,范围涵盖:[101~300)。分别将未知年龄、1~127岁分别映射target 101~228,当前预留73个。年龄分配的代码如下:
由上述年龄分配代码可知,采用100表示年龄这一类,101至228分别对应1岁至127岁。
网络模式的数值型标识分配:网络模式区域分配100数量target,范围涵盖:[301~400)。分别将未知模式、无线、2G、3G、4G映射target 301~305,当前预留95个。网络模式分配代码如下:
由上述网络模式分配代码可知,采用300表示网络模式这一类。301表示未知的联网方式,302表示无线,303表示2G网络,304表示3G网络,305表示4G网络。
操作系统的数值型标识分配:操作系统区域分配100数量target,范围涵盖:[501~600)。分别将未知、IOS、Android、WindowsPhone、Symbian、Java、S40asha、Webwx、Blackberry和Windows类型映射target id 501~510,当前预留90个。
由上述操作系统分配的代码可知,采用500表示操作系统这一类,采用501~510分别表示未知、IOS、Android、WindowsPhone、Symbian、Java、S40asha、Webwx、Blackberry和Windows操作系统。
时间范围的数值型标识分配:时间映射共计分配1000数量target,范围涵盖:[100001~101000)。时间区域分两层类型:第一层按星期制分七天,第二层将每一天以30分钟粒度分为48个target id。在第一层,将日期分为星期日至星期六共七中,每天分配100数量target id。在第二层,每一天24小时时间按30分钟粒度划分为48个节点,节点id从0~47,当前预留52个。时间范围分配的标识包括日期范围标识和一天时间内时间范围标识。
日期范围标识分配代码如下:
由上述日期分配代码可知,采用100000表示时间范围这一类,100001、100002、100003、100004、100005、100006和100007表示星期天、星期一、星期二、星期三、星期四、星期五和星期六。
一天时间内时间范围标识分配如下代码,以星期天内标识分配为例:
由上述星期天内的时间范围标识分配可知,采用100100至100147分别表示星期天内的48个时间节点,同样对于星期一采用100200至100247分别表示星期一内的48个时间节点,星期二采用100300至100347分别表示星期一内的48个时间节点,星期三采用100400至100447分别表示星期一内的48个时间节点,星期四采用100500至100547分别表示星期一内的48个时间节点;星期五采用100600至100647分别表示星期一内的48个时间节点;星期六采用100700至100747分别表示星期一内的48个时间节点。
地域的数值型标识分配:地域划分分为两层:中国国内地域划分及国外地域划分当前分配200万数量target,涵盖范围:[2000001~4000000)。国内分配100万,范围:2000000~3000000;国外分配100万,范围:3000000~4000000。
国内地域:将34个直辖市、省级及自治区及未知映射如35个一级区域内,当前仍预留15个一级区域target;每个区域内按市级行政级别划分target,对应target id分配规则:
[2000050+(省id-2000001)*50,2000050+(省id-2000001)*50+50)]
国外地域:列出一级类目-“洲”,可下拉二级类目-“国家”。洲级预留100个节点,国家级别预留1000个节点。中国地域部分分配代码如下:
由上述地域分配标识可知,2000000表示地域这一类,20000001表示中国地区,3000000表示国外这一类。
流量标签的数值型标识分配:流量标签类型众多,当前共有以下类型:教育、旅游、金融、汽车、房产、家具、服饰鞋包、奢侈品、餐饮美食、生活服务、商务服务、美容、电子数码/软件/互联网、体育运动、医疗健康、母婴、游戏、文学、漫画动漫、音乐、科学、军事、新闻资讯、影视、娱乐、政法及其它,共计27项。流量标签类型分配0x1 0000 0000数量target id,涵盖范围:[0x1 0000 0001 ~ 0x2 0000 0000)。在27个子项目中,每个项目X空间为:0x10000 0X01~ 0x10000 0XFF,每个子项均有256个target id。部分流量标签分配代码如下:
由上述流量标签分配标识可知,0x100000000表示流量标签这一类。
资源位的数值型标识分配:资源位置分配0x100000000数量target id,涵盖范围:[0x2 0000 0001 ~ 0x300000000)。系统当前支持四个资源位,扩展位置预留target id非常巨大。资源位的数值型标识分配以广告位的数值型标识分配为例,代码如下:
由上述资源位分配代码可知,0x200000000表示资源位这一类。资源位是指资源位置。
需要说明的是,上述对索引空间的划分、性别、年龄、、地域、操作系统、流量标签、时间范围、网络模式的数值型标识的分配只是为了说明所列举的例子并不局限于此分配,只需采用统一编码方式对字符型定向条件信息进行编码,均使用于本发明。
定向资源搜索服务器120还用于接收终端110发送的包含字符型定向条件信息的定向信息资源请求,并根据该定向信息资源请求将字符型定向条件信息转换为数值型定向条件信息,以及将包含数值型定向条件信息的定向信息资源请求发送给索引服务器140。
此外,定向资源搜索服务器120还用于根据该定向信息资源请求从预先建立的字符型定向条件信息与数值型定向条件信息的映射关系,将字符型定向条件信息转换为数值型定向条件信息。
具体地,接收的字符型定向条件信息可包括资源人群、年龄、性别、地域、操作系统、流量标签、时间范围、资源位约束条件、网络环境中一种或多种。将字符型定向条件信息转换为对应的数值型定向条件信息。
例如,如下代码:
信息资源服务器130用于实时发送信息资源给索引服务器140。
具体地,信息资源可为广告资源、物品资源或新闻资源等。信息资源可实时更新,一些新的信息资源上线,一些旧的信息资源下线。上线是指信息资源展示在网络上,供查看。下线是指信息资源不在网络上展示,无法查看。
索引服务器140用于接收实时发送的信息资源,并更新第一名单和第二名单,第一名单用于记录上线的信息资源,第二名单用于记录下线的信息资源。
索引服务器140还用于记载该信息资源,以及接收定向资源搜索服务器120发送的包含数值型定向条件信息的定向资源请求,并将该数值型定向条件信息拆分,获取每类定向条件信息的目标标识,根据该目标标识搜索对应的资源位标识,将该资源位标识返回给定向资源搜索服务器120。此外,还可根据资源位标识从信息资源中查找对应的信息资源,并将该对应的信息资源返回给定向资源搜索服务器120。索引服务器140还用于存储采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系。
具体地,目标标识是根据每类定向条件信息所确定的数值型标识。例如年龄定向条件的目标标识为20至25岁对应的数值型标识,性别定向条件的目标标识女性对应的数值型标识,根据20至25岁对应的数值型标识及女性对应的数值型标识查找对应的资源位标识。
此外,还需要预先建立目标标识与资源位标识之间的映射关系,根据目标标识查找到对应的资源位标识。资源位标识对应相应的信息资源。
此外,索引服务器140可包括主索引服务器142和从索引服务器144。
主索引服务器142用于接收信息资源服务器130发送的实时发送的信息资源,并更新第一名单和第二名单,第一名单用于记录上线的信息资源,第二名单用于记录下线的信息资源,以及将信息资源发送给从索引服务器144。
从索引服务器144用于接收主索引服务器142发送的信息资源,并记载该信息资源,以及接收定向资源搜索服务器120发送的包含数值型定向条件信息的定向资源请求,并将该数值型定向条件信息拆分,获取每类定向条件信息的目标标识,根据该目标标识搜索对应的资源位标识,根据该资源位标识从信息资源中查找对应的信息资源,并将该对应的信息资源返回给定向资源搜索服务器120。定向资源搜索服务器120将对应的信息资源返回给终端110。
图2为图1中网络信息资源的搜索系统的工作时序图。如图2所示,网络信息资源的搜索系统的工作过程包括:
(1)终端110将包含字符型定向条件信息的定向信息资源请求发送给定向资源搜索服务器120;
(2)定向资源搜索服务器130将字符型定向条件信息转换为数值型定向条件信息,并将包含数值型定向条件信息的定向信息资源请求发送给从索引服务器144;
(3)信息资源服务器130实时将信息资源发送给主索引服务器142;
(4)主索引服务器142记录信息资源,并更新第一名单和第二名单,并将信息资源发送给从索引服务器144;
(5)从索引服务器144加载信息资源,对数值型定向条件信息进行拆分,获取每类定向条件信息的目标标识,根据目标标识搜索对应的资源位标识,将资源位标识返回给资源搜索服务器。
上述网络信息资源的搜索系统,具有以下优点:
(1)网络带宽消耗低:通过将定向信息资源请求中的字符型定向条件信息转换为数值型定向条件信息,在搜索过程中均采用数值型定向条件信息,定向内容大大减少,网络传输消耗带宽也减少;
(2)报文处理快速:对数值型定向条件信息进行处理,无论是封装还是解析,均可快速处理;
(3)良好的可扩展性:增加和删除定向信息只需更新对应数值型映射关系表,具有良好的扩展性;
(4)采用统一化索引可以处理异常定向条件与资源位映射关系,其容错性较好;
(5)数值型信息处理速度高于字符型信息处理速度,从而大大提升了系统的吞吐量。
图3为一个实施例中网络信息资源的搜索方法的流程图。如图3所示,一种网络信息资源的搜索方法,包括以下步骤:
步骤302,接收包含字符型定向条件信息的定向信息资源请求。
具体地,定向资源搜索服务器120接收终端110发送的包含字符型定向条件信息的定向信息资源请求。
字符型定向条件信息可包括信息资源人群、年龄、性别、地域、操作系统、流量标签、时间范围、资源位约束条件、网络模式中一种或多种。
信息资源人群可为小孩、青年人、中年人、老年人等不同群体。
年龄可为1至127岁。性别可为未知、男、女。
地域可包括中国国内地域及国外地域。操作系统可分为未知、IOS系统、Android、WindowsPhone、Symbian、Java、S40asha、Webwx、Blackberry和Widows等类型。
流量标签类型可包括教育、旅游、金融、汽车、房产、家具、服饰鞋包、奢侈品、餐饮美食、生活服务、商务服务、美容、电子数码/软件/互联网、体育运动、医疗健康、母婴、游戏、文学、漫画动漫、音乐、科学、军事、新闻资讯、影视、娱乐、政法及其它等。
时间范围是指信息资源上线的时间范围。例如,可将时间区域分两层类型:第一层类型按星期制分七天,第二层将每一天以30分钟粒度分为48个区间范围。
网络模式可包括未知模式、WiFi无线、2G、3G、4G等。
资源位约束条件是指设定的限制搜索条件。可将年龄、性别、地域、操作系统、流量标签、网络模式和时间范围等组合在一起采用与、或、非等逻辑运算形成搜索条件。例如可设定年龄为1至3岁且时间范围在星期二。
步骤304,根据该定向信息资源请求将字符型定向条件信息转换为数值型定向条件信息。
首先,预先采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系。步骤304包括:根据该定向信息资源请求从预先建立的字符型定向条件信息与数值型定向条件信息的映射关系,将字符型定向条件信息转换为数值型定向条件信息。
步骤306,将包含数值型定向条件信息的定向信息资源请求发送给索引服务器,以使该索引服务器将该数值型定向条件信息拆分,获取每类定向条件信息的目标标识,根据该目标标识搜索对应的资源位标识。
具体地,目标标识是根据每类定向条件信息所确定的数值型标识。每类定向条件信息可得到对应的目标标识,根据每类定向条件的目标标识可确定对应的资源位标识,再根据资源位标识确定对应的信息资源。
例如年龄定向条件的目标标识为20至25岁对应的数值型标识,性别定向条件的目标标识女性对应的数值型标识,根据20至25岁对应的数值型标识及女性对应的数值型标识查找对应的资源位标识。
上述网络信息资源的搜索方法,通过将定向信息资源请求中的字符型定向条件信息转换为数值型定向条件信息,在搜索过程中均采用数值型定向条件信息,定向内容大大减少,网络传输消耗带宽也减少,对数值型定向条件信息进行处理,无论是封装还是解析,均可快速处理,数值型信息处理速度高于字符型信息处理速度,从而大大提升了系统的吞吐量。
在一个实施例中,上述网络信息资源的搜索方法还包括:在接收包含字符型定向条件信息的定向信息资源请求的步骤之前,预先采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系。
图4为一个实施例中预先采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系的步骤的具体流程图。如图4所示,预先采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系的步骤的具体流程图包括:
步骤402,预先将字符型定向条件信息分类。
具体地,字符型定向条件信息分类包括信息资源人群、年龄、性别、地域、操作系统、流量标签、时间范围、资源位约束条件、网络模式中一种或多种。
步骤404,采用统一的编码为每类字符型定向条件信息分配对应的数值型标识范围。
具体地,统一的编码可为64bit(比特位)编码规则或128bit等。本实施例中,采用64bit编码建立字符型定向条件信息和数值型定向条件信息建立映射关系。该映射关系的映射规则如网络信息资源的搜索系统中所描述,在此不再赘述。
为字符型定向条件信息资源分配对应的数值型标识,建立索引空间,以便于索引。首先,每类定向条件信息资源分配对应的数值型标识范围。
将定向条件信息中年龄、性别、地域、操作系统、时间范围、广告位约束条件、网络模式映射在system_targeting范围内,作为一大类,可扩容999999990个定向条件,且为system_targeting规定了lowerbound下限10和upperbound上限1000000000。资源位映射为wechat_ad_position范围,共1000W(万)数量,且为wechat_ad_position规定了lowerbound下限0x100000000和upperbound上限0x200000000,当前系统支撑不到100W,预留空间足够。流量标签映射为wechat_flow_class范围,且为wechat_flow_class规定了lowerbound下限0x200000000和upperbound上限0x300000000,共1000W数量。禁止编码段:0x100000000000~0xffffffffffffffff,可做预留段。
步骤406,为每类字符型定向条件信息中每条字符型定向条件信息在对应的数值型标识范围内分配对应的一个数值型标识。
性别的数值型标识分配:性别领域分配8个target id(目标标识,即数值型标识),范围涵盖:[12,20)。将未知性别、男和女分别映射到target id12、13和14,当前预留5个。
年龄的数值型标识分配:年龄区域分配200数量target id,范围涵盖:[101~300)。分别将未知年龄、1~127岁分别映射target 101~228,当前预留73个。
网络模式的数值型标识分配:网络模式区域分配100数量target,范围涵盖:[301~400)。分别将未知模式、无线、2G、3G、4G映射target 301~305,当前预留95个。
操作系统的数值型标识分配:操作系统区域分配100数量target,范围涵盖:[501~600)。分别将未知、IOS、Android、WindowsPhone、Symbian、Java、S40asha、Webwx、Blackberry和Windows类型映射target id 501~510,当前预留90个。
时间范围的数值型标识分配:时间映射共计分配1000数量target,范围涵盖:[100001~101000)。时间区域分两层类型:第一层按星期制分七天,第二层将每一天以30分钟粒度分为48个target id。在第一层,将日期分为星期日至星期六共七中,每天分配100数量target id。在第二层,每一天24小时时间按30分钟粒度划分为48个节点,节点id从0~47,当前预留52个。
地域的数值型标识分配:地域划分分为两层:中国国内地域划分及国外地域划分当前分配200万数量target,涵盖范围:[2000001~4000000)。国内分配100万,范围:2000000~3000000;国外分配100万,范围:3000000~4000000。
国内地域:将34个直辖市、省级及自治区及未知映射如35个一级区域内,当前仍预留15个一级区域target;每个区域内按市级行政级别划分target,对应target id分配规则:
[2000050+(省id-2000001)*50,2000050+(省id-2000001)*50+50)]
国外地域:列出一级类目-“洲”,可下拉二级类目-“国家”。洲级预留100个节点,国家级别预留1000个节点。
流量标签的数值型标识分配:流量标签类型众多,当前共有以下类型:教育、旅游、金融、汽车、房产、家具、服饰鞋包、奢侈品、餐饮美食、生活服务、商务服务、美容、电子数码/软件/互联网、体育运动、医疗健康、母婴、游戏、文学、漫画动漫、音乐、科学、军事、新闻资讯、影视、娱乐、政法及其它,共计27项。流量标签类型分配0x100000000数量target id,涵盖范围:[0x1 0000 0001~0x2 0000 0000)。在27个子项目中,每个项目X空间为:0x100000X01~0x10000 0XFF,每个子项均有256个target id。
资源位的数值型标识分配:资源位置分配0x100000000数量target id,涵盖范围:[0x2 0000 0001~0x300000000)。系统当前支持四个资源位,扩展位置预留target id非常巨大。描述不详尽之处请参网络信息资源的搜索系统描述。
上述通过采用统一化索引可以处理异常定向条件与资源位映射关系,其容错性较好。
在一个实施例中,每类字符型定向条件信息分配的数值型标识范围中数值型标识数量大于对应类字符型定向条件信息已分配的数值型标识数量。采用64位长度空间编码,预留了大量空间,可用于扩展定向条件及未知定向信息,简化了定向条件扩展工作,增加和删除定向信息只需更新对应数值型映射关系表,具有良好的扩展性。
图5为一个实施例中网络信息资源的搜索装置的结构框图。如图5所示,一种网络信息资源的搜索装置,运行于定向资源搜索服务器上,包括接收模块510、转换模块520、发送模块530。其中:
接收模块510用于接收包含字符型定向条件信息的定向信息资源请求。
具体地,定向资源搜索服务器120接收终端110发送的包含字符型定向条件信息的定向信息资源请求。
字符型定向条件信息可包括信息资源人群、年龄、性别、地域、操作系统、流量标签、时间范围、资源位约束条件、网络模式中一种或多种。
信息资源人群可为小孩、青年人、中年人、老年人等不同群体。
年龄可为1至127岁。性别可为未知、男、女。
地域可包括中国国内地域及国外地域。操作系统可分为未知、IOS系统、Android、WindowsPhone、Symbian、Java、S40asha、Webwx、Blackberry和Widows等类型。
流量标签类型可包括教育、旅游、金融、汽车、房产、家具、服饰鞋包、奢侈品、餐饮美食、生活服务、商务服务、美容、电子数码/软件/互联网、体育运动、医疗健康、母婴、游戏、文学、漫画动漫、音乐、科学、军事、新闻资讯、影视、娱乐、政法及其它等。
时间范围是指信息资源上线的时间范围。例如,可将时间区域分两层类型:第一层类型按星期制分七天,第二层将每一天以30分钟粒度分为48个区间范围。
网络模式可包括未知模式、WiFi无线、2G、3G、4G等。
资源位约束条件是指设定的限制搜索条件。可将年龄、性别、地域、操作系统、流量标签、网络模式和时间范围等组合在一起采用与、或、非等逻辑运算形成搜索条件。例如可设定年龄为1至3岁且时间范围在星期二。
转换模块520用于根据该定向信息资源请求将字符型定向条件信息转换为数值型定向条件信息。
首先,预先采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系。步骤304包括:根据该定向信息资源请求从预先建立的字符型定向条件信息与数值型定向条件信息的映射关系,将字符型定向条件信息转换为数值型定向条件信息。
发送模块530用于将包含数值型定向条件信息的定向信息资源请求发送给索引服务器,以使该索引服务器将该数值型定向条件信息拆分,获取每类定向条件信息的目标标识,根据该目标标识搜索对应的资源位标识。
具体地,目标标识是根据每类定向条件信息所确定的数值型标识。每类定向条件信息可得到对应的目标标识,根据每类定向条件的目标标识可确定对应的资源位标识,再根据资源位标识确定对应的信息资源。
例如年龄定向条件的目标标识为20至25岁对应的数值型标识,性别定向条件的目标标识女性对应的数值型标识,根据20至25岁对应的数值型标识及女性对应的数值型标识查找对应的资源位标识。
上述网络信息资源的搜索装置,通过将定向信息资源请求中的字符型定向条件信息转换为数值型定向条件信息,在搜索过程中均采用数值型定向条件信息,定向内容大大减少,网络传输消耗带宽也减少,对数值型定向条件信息进行处理,无论是封装还是解析,均可快速处理,数值型信息处理速度高于字符型信息处理速度,从而大大提升了系统的吞吐量。
图6为另一个实施例中网络信息资源的搜索装置的结构框图。如图6所示,一种网络信息资源的搜索装置,运行于定向资源搜索服务器上,除了包括接收模块510、转换模块520和发送模块530,还包括映射关系建立模块540。其中:
映射关系建立模块540用于在接收包含字符型定向条件信息的定向信息资源请求之前,预先采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系。
转换模块520还用于根据该定向信息资源请求从预先建立的字符型定向条件信息与数值型定向条件信息的映射关系,将字符型定向条件信息转换为数值型定向条件信息。
图7为一个实施例中图6中映射关系建立模块的内部结构示意图。映射关系建立模块540包括分类单元542和分配单元544。其中:
分类单元542用于预先将字符型定向条件信息分类。
该定向条件信息分类包括信息资源人群、年龄、性别、地域、操作系统、流量标签、时间范围、资源位约束条件、网络模式中一种或多种。
分配单元544用于采用统一的编码为每类字符型定向条件信息分配对应的数值型标识范围,以及为每类字符型定向条件信息中每条字符型定向条件信息在对应的数值型标识范围内分配对应的一个数值型标识。该每类字符型定向条件信息分配的数值型标识范围中数值型标识数量大于对应类字符型定向条件信息已分配的数值型标识数量。
采用统一化索引可以处理异常定向条件与资源位映射关系,其容错性较好。采用64位长度空间编码,预留了大量空间,可用于扩展定向条件及未知定向信息,简化了定向条件扩展工作,增加和删除定向信息只需更新对应数值型映射关系表,具有良好的扩展性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种网络信息资源的搜索方法,包括以下步骤:
预先采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系;
接收包含字符型定向条件信息的定向信息资源请求;
根据所述定向信息资源请求从预先建立的字符型定向条件信息与数值型定向条件信息的映射关系,将字符型定向条件信息转换为数值型定向条件信息;
将包含数值型定向条件信息的定向信息资源请求发送给索引服务器,以使所述索引服务器将所述数值型定向条件信息拆分,获取每类定向条件信息的目标标识,根据所述目标标识搜索对应的资源位标识;
所述预先采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系的步骤包括:
预先将字符型定向条件信息分类;
采用统一的编码为每类字符型定向条件信息分配对应的数值型标识范围;
为每类字符型定向条件信息中每条字符型定向条件信息在对应的数值型标识范围内分配对应的一个数值型标识。
2.根据权利要求1所述的方法,其特征在于,所述每类字符型定向条件信息分配的数值型标识范围中数值型标识数量大于对应类字符型定向条件信息已分配的数值型标识数量。
3.根据权利要求1或2所述的方法,其特征在于,所述字符型定向条件信息包括信息资源人群、年龄、性别、地域、操作系统、流量标签、时间范围、资源位约束条件、网络模式中一种或多种。
4.一种网络信息资源的搜索装置,其特征在于,包括:
映射关系建立模块,用于在接收包含字符型定向条件信息的定向信息资源请求之前,预先采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系;
接收模块,用于接收包含字符型定向条件信息的定向信息资源请求;
转换模块,用于根据所述定向信息资源请求从预先建立的字符型定向条件信息与数值型定向条件信息的映射关系,将字符型定向条件信息转换为数值型定向条件信息;
发送模块,用于将包含数值型定向条件信息的定向信息资源请求发送给索引服务器,以使所述索引服务器将所述数值型定向条件信息拆分,获取每类定向条件信息的目标标识,根据所述目标标识搜索对应的资源位标识;
所述映射关系建立模块还包括:
分类单元,用于预先将字符型定向条件信息分类;
分配单元,用于采用统一的编码为每类字符型定向条件信息分配对应的数值型标识范围,以及为每类字符型定向条件信息中每条字符型定向条件信息在对应的数值型标识范围内分配对应的一个数值型标识。
5.根据权利要求4所述的装置,其特征在于,所述每类字符型定向条件信息分配的数值型标识范围中数值型标识数量大于对应类字符型定向条件信息已分配的数值型标识数量。
6.根据权利要求4或5所述的装置,其特征在于,所述字符型定向条件信息包括信息资源人群、年龄、性别、地域、操作系统、流量标签、时间范围、资源位约束条件、网络模式中一种或多种。
7.一种网络信息资源的搜索系统,其特征在于,包括定向资源搜索服务器、信息资源服务器和索引服务器;
所述信息资源服务器用于实时发送信息资源给所述索引服务器;
所述定向资源搜索服务器用于接收包含字符型定向条件信息的定向信息资源请求,并根据所述定向信息资源请求从预先建立的字符型定向条件信息与数值型定向条件信息的映射关系,将字符型定向条件信息转换为数值型定向条件信息,以及将包含数值型定向条件信息的定向信息资源请求发送给所述索引服务器,所述定向资源搜索服务器还用于预先将字符型定向条件信息分类,采用统一的编码为每类字符型定向条件信息分配对应的数值型标识范围,为每类字符型定向条件信息中每条字符型定向条件信息在对应的数值型标识范围内分配对应的一个数值型标识;
所述索引服务器用于接收所述信息资源服务器实时发送的信息资源,并记载所述信息资源,以及接收定向资源搜索服务器发送的包含数值型定向条件信息的定向资源请求,并将所述数值型定向条件信息拆分,获取每类定向条件信息的目标标识,根据所述目标标识搜索对应的资源位标识,将所述资源位标识返回给所述定向资源搜索服务器。
8.根据权利要求7所述的系统,其特征在于,所述定向资源搜索服务器还用于预先采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系,并根据所述定向信息资源请求从预先建立的字符型定向条件信息与数值型定向条件信息的映射关系,将字符型定向条件信息转换为数值型定向条件信息;所述索引服务器还用于存储采用统一的编码建立字符型定向条件信息与数值型定向条件信息的映射关系。
9.根据权利要求7所述的系统,其特征在于,所述每类字符型定向条件信息分配的数值型标识范围中数值型标识数量大于对应类字符型定向条件信息已分配的数值型标识数量;所述字符型定向条件信息包括信息资源人群、年龄、性别、地域、操作系统、流量标签、时间范围、资源位约束条件、网络模式中一种或多种。
10.根据权利要求7所述的系统,其特征在于,所述索引服务器还包括主索引服务器和从索引服务器;
所述信息资源服务器还用于实时发送信息资源给所述主索引服务器;
所述主索引服务器用于接收实时发送的信息资源,并更新第一名单和第二名单,第一名单用于记录上线的信息资源,第二名单用于记录下线的信息资源,以及将信息资源发送给所述从索引服务器;
所述从索引服务器用于接收所述主索引服务器发送的信息资源,并记载所述信息资源,以及接收定向资源搜索服务器发送的包含数值型定向条件信息的定向资源请求,并将所述数值型定向条件信息拆分,获取每类定向条件信息的目标标识,根据所述目标标识搜索对应的资源位标识,并将所述资源位标识返回给所述定向资源搜索服务器。
CN201510336480.3A 2015-06-17 2015-06-17 网络信息资源的搜索方法、装置和系统 Active CN104991907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510336480.3A CN104991907B (zh) 2015-06-17 2015-06-17 网络信息资源的搜索方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510336480.3A CN104991907B (zh) 2015-06-17 2015-06-17 网络信息资源的搜索方法、装置和系统

Publications (2)

Publication Number Publication Date
CN104991907A CN104991907A (zh) 2015-10-21
CN104991907B true CN104991907B (zh) 2018-04-06

Family

ID=54303723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510336480.3A Active CN104991907B (zh) 2015-06-17 2015-06-17 网络信息资源的搜索方法、装置和系统

Country Status (1)

Country Link
CN (1) CN104991907B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895583B (zh) * 2018-09-12 2023-05-30 阿里巴巴集团控股有限公司 数据资源获取的方法、装置和系统
CN112052367A (zh) * 2020-07-23 2020-12-08 北京三快在线科技有限公司 一种搜索方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500197A (zh) * 2013-09-26 2014-01-08 乐视致新电子科技(天津)有限公司 一种搜索方法和装置
CN103595597A (zh) * 2012-08-14 2014-02-19 腾讯科技(深圳)有限公司 媒体资源搜索的方法及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040117366A1 (en) * 2002-12-12 2004-06-17 Ferrari Adam J. Method and system for interpreting multiple-term queries
US9426510B2 (en) * 2011-02-11 2016-08-23 Sony Corporation Method and apparatus for searching over a network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103595597A (zh) * 2012-08-14 2014-02-19 腾讯科技(深圳)有限公司 媒体资源搜索的方法及设备
CN103500197A (zh) * 2013-09-26 2014-01-08 乐视致新电子科技(天津)有限公司 一种搜索方法和装置

Also Published As

Publication number Publication date
CN104991907A (zh) 2015-10-21

Similar Documents

Publication Publication Date Title
Hashem et al. The role of big data in smart city
Fuchs et al. Big data analytics for knowledge generation in tourism destinations–A case from Sweden
Toole et al. Coupling human mobility and social ties
CN103295145B (zh) 一种基于用户消费特征向量的手机广告投放方法
Enli New media and politics
CN110168529B (zh) 数据存储方法、装置和存储介质
Kim et al. An analysis on movement patterns between zones using smart card data in subway networks
Lv et al. Discovering personally semantic places from gps trajectories
Assem et al. Spatio-temporal clustering approach for detecting functional regions in cities
CN103970891A (zh) 一种基于情境的用户兴趣信息查询方法
Betser et al. Architecting the enterprise via big data analytics
CN104991907B (zh) 网络信息资源的搜索方法、装置和系统
Zhu et al. Recognizing composite daily activities from crowd-labelled social media data
Birkin et al. An examination of personal mobility patterns in space and time using twitter
Kent et al. Predicting window view preferences using the environmental information criteria
Peng et al. Research trends in social media/big data with the emphasis on data collection and data management: A bibliometric analysis
Li et al. Annotating semantic tags of locations in location-based social networks
Guan et al. Sensing mixed urban land-use patterns using municipal water consumption time series
Nawshin et al. Modeling weather-aware prediction of user activities and future visits
Cagliero et al. Twitter data analysis by means of strong flipping generalized itemsets
Idrais et al. Introduction to sociology of moroccan online social networks: Evolution analysis of the moroccan community activity on facebook
Birkin et al. The classification of space-time behaviour patterns in a British city from crowd-sourced data
Croitoru et al. Geovisualization of social media
Cano et al. Travel mashups
Li et al. Real-time dynamic network learning for location inference modelling and computing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant