CN106855864A - 一种提取信息的方法和装置 - Google Patents

一种提取信息的方法和装置 Download PDF

Info

Publication number
CN106855864A
CN106855864A CN201510904195.7A CN201510904195A CN106855864A CN 106855864 A CN106855864 A CN 106855864A CN 201510904195 A CN201510904195 A CN 201510904195A CN 106855864 A CN106855864 A CN 106855864A
Authority
CN
China
Prior art keywords
matching
rule
user
user profile
cookie
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510904195.7A
Other languages
English (en)
Inventor
朱振华
李国杰
吴明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Miaozhen Information Consultant Co Ltd
Original Assignee
Beijing Miaozhen Information Consultant Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Miaozhen Information Consultant Co Ltd filed Critical Beijing Miaozhen Information Consultant Co Ltd
Priority to CN201510904195.7A priority Critical patent/CN106855864A/zh
Publication of CN106855864A publication Critical patent/CN106855864A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种提取信息的方法和装置,该方法包括:设置匹配规则以及获取需要处理的用户网络行为日志;根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息;按照预先设置的提取规则从获得的匹配信息中提取用户信息。本发明技术方案通过从Cookie以及URL中提取出需要的用户信息,更好地实现了精准化的营销和用户隐私保护。

Description

一种提取信息的方法和装置
技术领域
本发明涉及网络技术领域,尤指一种提取信息的方法和装置。
背景技术
用户网络行为日志记录了用户上网时留下的使用记录,包含有用户的上网账户、IP地址、访问页面的统一资源定位符(URL)、Cookie、来源页面的URL(Refer URL)、UA和时间戳等信息。用户网络行为日志里蕴含的用户信息,主要出现在URL、Cookie和UA中。其中,URL是用户上网产生的超文本传送协议(HTTP,Hypertext transfer protocol)请求链接,Cookie是用户访问网站时产生的用于识别用户、进行会话(session)跟踪的数据,而UA则被用来辨别浏览器版本以及向用户所访问的网站的服务器提供某些系统信息的细节。
由于网络行为日志里含有大量有价值的信息,这些信息可用于发掘用户的兴趣特征和行为模式,从而实现个性化的精准营销。目前,对于上网日志(即网络行为日志)的数据挖掘主要有两种方式:一是从日志中发现用户浏览模式,分析页面与来源页面的引用关系,挖掘频繁的浏览跳转路径;二是根据日志里URL、时间、IP地址以及浏览的页面的内容构造多维视图,建立多个用户与多个页面之间的关联性,以发掘现在的顾客、用户与和市场等。第一种方式侧重于页面之间的跳转关系,无法分析用户长时间跨度内的上网行为;第二种方式侧重于用户与访问的页面内容的关系,往往需要爬虫对超文本标记语言(html)页面进行定向抓取和分析。这两种方式都忽视了网络日志本身尤其是URL和Cookie中含有的与用户相关的信息,另外,由于同一个上网账户下可能存在大量不同的用户(如公共Wifi以及公司上网账户,就算是家庭宽带用户,往往一个上网账户也对应着若干个现实中的自然人),所以挖掘往往很难准确地定位到个人。
那么,如何从Cookie以及URL中提取出需要的用户信息,则成为亟需解决的难题。
发明内容
为了解决上述技术问题,本发明提供了一种提取信息的方法和装置,能够从Cookie以及URL中提取出需要的用户信息,更好地实现精准化的营销和用户隐私保护。
为了达到本发明目的,本发明提供了一种提取信息的方法,包括:
设置匹配规则以及获取需要处理的用户网络行为日志;
根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息;
按照预先设置的提取规则从获得的匹配信息中提取用户信息。
进一步地,所述匹配规则包括:统一资源定位符URL域名的第一匹配条件D,以及Cookie的键值对的第二匹配条件C,和/或路径Path的第三匹配条件P,和/或查询Query的键值对的第四匹配条件Q;
所述获取包含用户信息的匹配信息包括:
将所述获得的用户网络行为日志进行所述第一匹配条件D的匹配以获取匹配结果;
对获得的所述匹配结果进行所述第二匹配条件C的匹配,和/或所述第三匹配条件P的匹配,和/或所述第四匹配条件Q的匹配,以获取所述包含用户信息的匹配信息。
进一步地,所述对获得的匹配结果进行所述第二匹配条件C的匹配,和/或所述第三匹配条件P的匹配,和/或所述第四匹配条件Q的匹配,以获取所述包含用户信息的匹配信息,包括:
分别建立与所述第二匹配条件C对应的Cookie规则索引树、与所述第三匹配条件P对应的Path规则索引树,与所述第四匹配条件Q对应的Query规则索引树;
根据所述Cookie规则索引树或者所述Path规则索引树或者所述Query规则索引树对所述匹配结果进行由大到小的深度匹配的域名节点的匹配,以获取所述包含用户信息的匹配信息;
其中,所述Cookie规则索引树、所述Path规则索引树和所述Query规则索引树均包括由大到小的深度匹配的域名节点。
进一步地,所述预先设置的提取规则包括:用户信息类型I和正则表达式R。
进一步地,所述预先设置的提取规则还包括:自定义V,和/或特殊情况E。
进一步地,所述按照预先设置的提取规则从获得的匹配信息中提取用户信息包括:
根据所述I对获得的所述包含用户信息的匹配信息进行所述R校验,以提取用户信息。
进一步地,所述按照预先设置的提取规则从获得的匹配信息中提取用户信息包括:
根据所述I对获得的所述包含用户信息的匹配信息进行所述R校验之后,再进行所述V校验,和/或所述E校验,以提取用户信息。
本发明还提供了一种提取信息的装置,包括:设置模块、获取模块、匹配模块和提取模块;其中,
设置模块,用于设置匹配规则;
获取模块,用于获取需要处理的用户网络行为日志;
匹配模块,用于根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息;
提取模块,用于按照预先设置的提取规则从获得的匹配信息中提取用户信息。
进一步地,所述匹配规则包括:统一资源定位符URL域名的第一匹配条件D,以及Cookie的键值对的第二匹配条件C,和/或路径Path的第三匹配条件P,和/或查询Query的键值对的第四匹配条件Q;
所述匹配模块包括:第一匹配单元和第二匹配单元;其中,
所述第一匹配单元,用于将所述获得的用户网络行为日志进行所述第一匹配条件D的匹配以获取匹配结果;
所述第二匹配单元,用于对获得的所述匹配结果进行所述第二匹配条件C的匹配,和/或所述第三匹配条件P的匹配,和/或所述第四匹配条件Q的匹配,以获取包含所述用户信息的匹配信息。
进一步地,所述第二匹配单元,具体用于:
分别建立与所述第二匹配条件C对应的Cookie规则索引树、与所述第三匹配条件P对应的Path规则索引树,与所述第四匹配条件Q对应的Query规则索引树;
根据所述Cookie规则索引树或者所述Path规则索引树或者所述Query规则索引树对所述匹配结果进行由大到小的深度匹配的域名节点的匹配,以获取包含所述用户信息的匹配信息;
其中,所述Cookie规则索引树、所述Path规则索引树和所述Query规则索引树均包括由大到小的深度匹配的域名节点。
进一步地,所述预先设置的提取规则包括:用户信息类型I和正则表达式R。
进一步地,所述预先设置的提取规则还包括:自定义V,和/或特殊情况E。
进一步地,所述提取模块,具体用于:
根据所述I对获得的所述包含用户信息的匹配信息进行所述R校验,以提取用户信息。
进一步地,所述提取模块,还具体用于:
根据所述I对获得的包含用户信息的匹配信息进行所述R校验之后,再进行所述V校验,和/或所述E校验,以提取用户信息。
本发明技术方案包括:设置匹配规则以及获取需要处理的用户网络行为日志;根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息;按照预先设置的提取规则从获得的匹配信息中提取用户信息。本发明技术方案通过从Cookie以及URL中提取出需要的用户信息,更好地实现了精准化的营销和用户隐私保护。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明提取信息的方法的流程图;
图2为本发明提取信息的装置的结构示意图;
图3为本发明实施例的Cookie规则索引树的示意图;
图4为本发明实施例的Query规则索引树的示意图;
图5为本发明实施例的Cookie规则索引树的示意图。
具体实施方式
下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。
一个HTTP请求的URL一般由协议即HTTP、域名、路径和查询(Query)组成。有价值的信息大多数情况存在于Cookie以及URL的Query字段中,以键值对的形式表现。这些键值对里包含有用户参与网络活动的身份标识,可以是社交网络的ID,如微信ID、微博ID、QQ等;可以是用户上网设备的识别码,如IDFA、MAC、IMEI、IMSI等;可以是用户浏览电商网站的ID,如淘宝ID、京东ID等;或者是用户的个人隐私信息,如手机号、身份证等。上述身份标识信息一方面可用于从多角度描述用户的行为,融合各类ID信息,从而用统一的ID来标识每一个人的每一个行为,可以更加精确地完整地刻画一个真实世界的自然人,从而进行更加精准化的营销;另一方面则可以对这些身份标识信息进行加密和去隐私化,使得网络运营商能够在充分保护用户信息隐私的同时灵活地利用脱敏过后的上网行为数据去获取更大的商业价值。
图1为本发明提取信息的方法的流程图,如图1所示,包括以下步骤:
步骤101:设置匹配规则以及获取需要处理的用户网络行为日志。
其中,匹配规则包括:统一资源定位符(URL)域名的第一匹配条件D,以及Cookie的键值对的第二匹配条件C,和/或路径(Path)的第三匹配条件P,和/或查询(Query)的键值对的第四匹配条件Q。
步骤102:根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息。
其中,本步骤具体包括:将获得的用户网络行为日志进行第一匹配条件D的匹配以获取匹配结果;
对获得的匹配结果进行第二匹配条件C的匹配,和/或第三匹配条件P的匹配,和/或第四匹配条件Q的匹配,以获取包含用户信息的匹配信息。
其中,上述第一匹配条件或第二匹配条件或第三匹配条件或第四匹配条件利用通配来描述,如定义A≌B,其表示A可通配B,其中,≌表示通配。具体的,D利用域名通配来实现各个域名层级上适配URL的域名;C采用通配表示的匹配条件形如:Cookie键值对≌"key={prefix}*{subfix}",其中通配式中的key代表Cookie键值对中的键(key),{prefix}和{subfix}分别表示值(value)的前缀和后缀,代表着可确定不会含有用户信息的片段,前后缀可以为空,而中间的*则匹配任意字符,用户信息包含在其中,将用于各类校验后提取用户信息;P采用路径通配来实现各级路径目录上适配URL的路径;Query的键值对的匹配条件的格式与Cookie的键值对的匹配条件的格式一致。
举例说明,对于QQ空间域名为“user.qzone.qq.com”为例,从适配的范围由窄到广可将匹配条件D分别定义为:域名≌“user.qzone.qq.com”、域名≌“*.qzone.qq.com”、域名≌“*.qq.com”、域名≌“*.com”、域名≌“*”;例如,日志js.10086.cn的Cookie中存在含有手机号13812345678的键值对“CmWebtokenid=13812345678,js”,则匹配条件C可以定义为:Cookie键值对≌“CmWebtokenid={}*{,js}”;“http://go.10086.cn/rd/go/dh/”的路径“/rd/go/dh/”,由适配的范围从窄到广可将匹配条件P分别定义为:路径≌"/rd/go/dh/"、路径≌"/rd/go/*"、、路径≌"/rd/*"、路径≌"/*",当路径中含有用户信息时,路径匹配条件定义为到含有用户信息的那层目录的前一层的路径,例如:“http://sso.letv.com/user/mobileRegCode/mobile/=139****0969/mobilecodeletvid/”,则匹配条件P为:路径≌“/user/mobileRegCode/mobile/*”。
其中,对获得的匹配结果进行第二匹配条件C的匹配,和/或第三匹配条件P的匹配,和/或第四匹配条件Q的匹配,以获取包含用户信息的匹配信息,包括:
分别建立与第二匹配条件C对应的Cookie规则索引树、与第三匹配条件P对应的Path规则索引树,与第四匹配条件Q对应的Query规则索引树;
根据Cookie规则索引树或者Path规则索引树或者Query规则索引树对匹配结果进行由大到小的深度匹配的域名节点的匹配,以获取包含用户信息的匹配信息;
其中,Cookie规则索引树、Path规则索引树和Query规则索引树均包括由大到小的深度匹配的域名节点。需要说明的是,由于上网日志是包含有Cookie、Path(路径)和查询(Query)三部分的,而用户信息来源于何处并不可预知,所以一条上网日志需要分别去匹配这三类规则(C、P和Q),将上网日志中的Cookie与C规则匹配,Quer与Q规则匹配,路径与P规则匹配。具体匹配按照对应的规则索引树进行由大到小的深度匹配的域名节点的匹配。
其中,Cookie规则索引树如图3所示,只需设置域名的匹配和Cookie键值对的匹配,因此Cookie规则索引树按照各级域名来建立树形结构,以前述QQ空间“user.qzone.qq.com”的各个域名条件为例,假如这些域名条件均存在,则域名的索引树的根节点为“*”,二层的子节点为“*.com”,……,叶子节点为“user.qzone.qq.com”。域名索引树的各个节点上记录对应的Cookie键值对匹配条件,匹配时先索引域名条件,然后再对其对应的匹配条件C进行匹配。
其中,Query规则索引树如图4所示,其与Cookie规则索引树类似,先对域名建立树状索引,然后对每个域名下的路径按照路径目录层级来建立树状索引,以前述路径“/rd/go/dh/”为例,索引树的根节点为“/*”,二层的子节点为“/rd/*”,……,叶子节点为“/rd/go/dh/”,最后,每个路径索引树的节点记录对应的Query匹配条件,匹配时先通过索引域名条件,然后索引该域名对应的路径,最后对条件进行Q匹配。
其中,Path索引与Query索引一致,只是没有匹配条件D。
步骤103:按照预先设置的提取规则从获得的匹配信息中提取用户信息。
其中,预先设置的提取规则包括:用户信息类型I和正则表达式R。
本步骤具体包括:
根据上述I对获得的包含用户信息的匹配信息进行R校验,以提取用户信息。
进一步地,预先设置的提取规则还包括:自定义V,和/或特殊情况E。其中,步骤103具体包括:
根据上述I对获得的包含用户信息的匹配信息进行R校验之后,再进行V校验,和/或E校验,以提取用户信息。
需要说明的是,关于如何根据上述I对获得的包含用户信息的匹配信息进行R校验、V校验或E校验以提取用户信息属于本领域技术人员所熟知的惯用技术手段,在此不再赘述,并不用来限制本发明。
其中,可以根据用户类型自定义V,如可以针对用户信息类型为身份证的情形,定义V为身份证号码位校验,假如身份证号码为18位的,在满足R校验后,进行V校验,具体包括:根据身份证号码的前17位通过特定算法(已知算法)计算出第18位,再判断计算出的第18位是否与提取出的身份证号码的第18位是否一致;还可以定义V为银行卡号位校验,还可以定义V为日期格式校验等等;E主要用于特殊情况,比如Query(或者Cookie)的键值对中value是一个URL编码过后的JSON串或者value是一个URL编码过的http连接地址。
需要说明的是,无论是JSON还是http连接地址中都有很大可能是包含用户信息的,简单的按照正则表达式校验没有办法将用户校验和提取出来。对于JSON字段,特殊校验E定义了JSON字段的键值对的匹配条件,其格式与Cookie条件是一致的。当匹配上JSON匹配条件之后,再采用正则表达式R校验和自定义V校验,以提取JSON键值对value中含有的用户信息,对于http连接的地址,E校验则更加简单,直接把其解码后当做一次上网日志用规则库去匹配即可。
举例说明,以一条日志访问的URL为http://user.qzone.qq.com/141592653的Cookie中含有字段“o_cookie=141592653”和“uin=o0141592653”。依次匹配经过了Cookie规则索引树中的“*”、“*.com”、“*.qq.com”、“*.qzone.qq.com”,即分别对每个节点的Cookie条件进行匹配,只有“*.qzone.qq.com”中存在Cookie条件"o_cookie={}*{}"。分别对两个Cookie字段分别去匹配该Cookie条件,第一个键值对“o_cookie=141592653”与条件相匹配,将匹配出的“*”代表的是“141592653”;而第二个键值对“uin=o0141592653”无Cookie条件与之匹配,则匹配失效。
进一步地,该方法还包括:推导新的匹配条件。如上例中,无法被匹配的Cookie字段“uin=o0141592653”中包含有用户的QQ号,所以可以推导出一条新的匹配规则C^',为:Cookie键值对≌"uin={o}*{}"。
进一步地,该方法还包括:利用相似度聚合一个以上的同一种类的匹配条件为一个匹配条件。
进一步地,该方法还包括:记录匹配条件使用次数以统计匹配条件使用频次;保留匹配条件使用频次大于或等于预设阈值的匹配条件,淘汰匹配条件使用频次小于预设阈值的匹配条件。
进一步地,该方法还包括:抽取某一匹配条件进行人工校验。
需要说明的是,通过程序人员编程发现的规则有时候会不准确,例如,可以通过人工抽样QQ的匹配条件,发现4399游戏网的id和QQ号的格式是一样的,从而导致很多QQ的规则其实抽取出来的是4399网站的id,通过对规则和满足规则的日志进行抽样人工检测,可以使整个规则库更加准确。
本发明方法中通过根据设置的匹配规则和提取规则在获得的用户网络行为日志中提取用户信息,通过从Cookie以及URL中提取出需要的用户信息,更好地实现了精准化的营销和用户隐私保护。
上述方法中,也可以按照如下公式定义if-then关系作为匹配规则和提取规则:
(D,C,P,Q)→(I,R),
其中,D是统一资源定位符URL域名的第一匹配条件,C是Cookie的键值对的第二匹配条件,P是路径Path的第三匹配条件,Q是查询Query的键值对的第四匹配条件,I是用户信息类型,R是正则表达式。
其中,D利用域名通配(≌)来实现各个域名层级上适配URL的域名;C采用通配表示的匹配条件形如:Cookie键值对≌"key={prefix}*{subfix}",其中通配式中的key代表Cookie键值对中的键(key),{prefix}和{subfix}分别表示值(value)的前缀和后缀,代表着可确定不会含有用户信息的片段,前后缀可以为空,而中间的*则匹配任意字符,用户信息包含在其中,将用于各类校验后提取用户信息;P采用路径通配来实现各级路径目录上适配URL的路径;Query的键值对的匹配条件的格式与Cookie的键值对的匹配条件的格式一致。
举例说明,对于QQ空间域名为“user.qzone.qq.com”为例,从适配的范围由窄到广可将匹配条件D分别定义为:域名≌“user.qzone.qq.com”、域名≌“*.qzone.qq.com”、域名≌“*.qq.com”、域名≌“*.com”、域名≌“*”;例如,日志js.10086.cn的Cookie中存在含有手机号13812345678的键值对“CmWebtokenid=13812345678,js”,则匹配条件C可以定义为:Cookie键值对≌“CmWebtokenid={}*{,js}”;“http://go.10086.cn/rd/go/dh/”的路径“/rd/go/dh/”,由适配的范围从窄到广可将匹配条件P分别定义为:路径≌"/rd/go/dh/"、路径≌"/rd/go/*"、、路径≌"/rd/*"、路径≌"/*",当路径中含有用户信息时,路径匹配条件定义为到含有用户信息的那层目录的前一层的路径,例如:“http://sso.letv.com/user/mobileRegCode/mobile/=139****0969/mobilecodeletvid/”,则匹配条件P为:路径≌“/user/mobileRegCode/mobile/*”。
匹配规则和提取规则也可以是:按照如下公式定义if-then关系作为匹配规则和提取规则:
(D,C,P,Q)→(I,R,V,E),
其中,D是统一资源定位符URL域名的第一匹配条件,C是Cookie的键值对的第二匹配条件,P是路径Path的第三匹配条件,Q是查询Query的键值对的第四匹配条件,R是正则表达式,V是自定义,E是特殊情况,I是用户信息类型。
其中,if-then关系,4个匹配条件D、C、P和Q(即(D,C,P,Q))构成了if的条件,用户信息类型I加上3个校验(R,V,E)构成了then的处理逻辑。因此,if-then可以描述成“某条上网日志如果满足D,以及C或P或Q,那么该上网日志里包含有信息类型为I的用户信息,通过R、V、E校验来保证用户信息准确”。
其中,可以根据用户类型自定义V,如可以自定义为身份证号等;E主要用于特殊情况,比如Query(或者Cookie)的键值对中value是一个URL编码过后的JSON串或者value是一个URL编码过的http连接地址。特殊情况出现频率较少,在规则未定义特殊校验E的情况下提取过程通过常规校验(R,V)来完成。正则校验R通过正则表达式去匹配可能含有用户信息的日志片段,将符合用户信息定义的部分提取出来。如果规则存在自定义的检验V,比如身份证和银行卡号需要按位校验、日期需要满足日期格式校验等等,则对正则校验后提取出来的用户信息进行自定义的校验。特殊校验E和自定义检验V并不局限与上述的几种情况,在实施过程中可以根据日志情况不断地增加,具体实现方式属于本领域技术人员所熟知的惯用技术手段,在此不再赘述,并不用来限制本发明,其体现的是本发明提取用户信息规则的可拓展性,因为任何匹配规则都无法完美的适配所有的上网日志。
需要说明的是,R校验必不可少,可以不用V校验和E校验。另外,用户信息可能存在于Cookie、路径(Path)和查询(Query)中,规则又可细分C规则(匹配条件)、Q规则和P规则。其中,C规则从Cookie中提取信息,因此并不关心Path和Query,则上述匹配规则可以简化为(D,C)→(I,R,V,E);Q规则从Query中提取信息,并不关心Cookie,则上述匹配规则可以简化为(D,P,Q)→(I,R,V,E);P规则从路径中提取信息,并不关心Cookie和Query,规则简化为(D,P)→(I,R,V,E)。
图2为本发明提取信息的装置的结构示意图,如图2所示,包括:设置模块、获取模块、匹配模块和提取模块。其中,
设置模块,用于设置匹配规则。
其中,匹配规则包括:统一资源定位符URL域名的第一匹配条件D,以及Cookie的键值对的第二匹配条件C,和/或路径Path的第三匹配条件P,和/或查询Query的键值对的第四匹配条件Q。
获取模块,用于获取需要处理的用户网络行为日志。
匹配模块,用于根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息。
其中,匹配模块包括:第一匹配单元和第二匹配单元;其中,
第一匹配单元,用于将获得的用户网络行为日志进行第一匹配条件D的匹配以获取匹配结果;
第二匹配单元,用于对获得的匹配结果进行第二匹配条件C的匹配,和/或第三匹配条件P的匹配,和/或第四匹配条件Q的匹配,以获取包含用户信息的匹配信息。
其中,第二匹配单元,具体用于:
分别建立与第二匹配条件C对应的Cookie规则索引树、与第三匹配条件P对应的Path规则索引树,与第四匹配条件Q对应的Query规则索引树;
根据Cookie规则索引树或者Path规则索引树或者Query规则索引树对匹配结果进行由大到小的深度匹配的域名节点的匹配,以获取包含用户信息的匹配信息;
其中,Cookie规则索引树、Path规则索引树和Query规则索引树均包括由大到小的深度匹配的域名节点。
提取模块,用于按照预先设置的提取规则从获得的匹配信息中提取用户信息。
其中,预先设置的提取规则包括:用户信息类型I和正则表达式R。
进一步地,预先设置的提取规则还包括:自定义V,和/或特殊情况E。
其中,提取模块,具体用于:
根据上述I对获得的包含用户信息的匹配信息进行R校验,以提取用户信息。
其中,当预先设置的提取规则还包括:自定义V,和/或特殊情况E时,提取模块,具体用于:
根据上述I对获得的包含用户信息的匹配信息进行R校验之后,再进行V校验,和/或E校验,以提取用户信息。
下面结合具体实施例对本发明技术方案进行详细描述。本实施例中以提取用户QQ和生成QQ相应的匹配条件为例对本发明的上述方法进行详细阐述。
步骤一:种子规则(或者称为匹配规则)的储备(或者称为设置)。
其中,可以查看多条QQ空间的上网日志,假如发现Cookie中的含有用户QQ号141592653的字段是:“o_cookie=141592653”,于是可以储备一条种子规则:(D,C)→(I,R),其中,D定义为:域名≌“*.qzone.qq.com”,表示域名需匹配“*.qzone.qq.com”,其中,≌是通配符;C定义为Cookie的键值对≌"o_cookie={}*{}",表示Cookie的键值对需要满足键(key)为"o_cookie",值(value)整个作为含有用户信息的日志片段参与信息提取;I定义为QQ,表示提取出来的信息是用户的QQ号;R定义为"^(.*\\D)?([0-9]{5,10})(\\D.*)?$",表示QQ号需要满足的正则表达式为5-10位的数字。
步骤二:建立Cookie规则索引树。
其中,建立的Cookie规则索引树如图5所示。
步骤三:遍历用户网络行为日志匹配符合C的日志记录。
其中,该条日志访问的URL为http://user.qzone.qq.com/141592653,Cookie中含有字段“o_cookie=141592653”和“uin=o0141592653”。
依次匹配经过了Cookie规则索引树中的“*”、“*.com”、“*.qq.com”、“*.qzone.qq.com”,即分别对每个节点的Cookie条件进行匹配,只有“*.qzone.qq.com”中存在Cookie条件"o_cookie={}*{}"。分别对两个Cookie字段分别去匹配该Cookie条件,第一个键值对“o_cookie=141592653”与条件相匹配,将匹配出的“*”代表的是“141592653”;而第二个键值对“uin=o0141592653”无Cookie条件与之匹配,则匹配失效。
步骤四:根据匹配出的“141592653”提取用户信息。
其中,从“141592653”中提取用户信息经过R是QQ≌"^(.*\\D)?([0-9]{5,10})(\\D.*)?$"的正则校验,提取出用户信息I为(QQ,141592653)。
步骤五:发现新规则。具体包括以下步骤:
步骤51:推导可能的新规则。
上述无法被匹配的Cookie字段“uin=o0141592653”中包含有用户的QQ号,所以可以推导出一条新的规则:(D,C^')→(I,R)。其中,C^'为:Cookie键值对≌"uin={o}*{}",D,I,R和前面定义一样。
步骤52:规则聚合。
规则聚合用于合并相似的规则,例如,有10个QQ空间的域名“00000.qzone.qq.com”、“11111.qzone.qq.com”、…、“99999.qzone.qq.com”,上述10个QQ空间的域名包含同样的Cookie匹配条件C为键值对≌"uin={o}*{}"。这10个域名QQ空间的可以聚合成一个“*.qzone.qq.com”。
其中,可以利用相似度来聚合。利用相似度来聚合不仅适用于域名,同时也适用于路径。
步骤53:规则淘汰。
通过统计规则使用频次,来选择保留前k的规则或者淘汰低于某个频次阈值的规则。
其中,统计规则的频次,可以在提取用户信息的过程中,也可以在推导新规则的过程中完成。
步骤54:规则抽样人工校验。
程序发现的规则有时候会不准确。例如通过人工抽样QQ的规则,发现4399游戏网的id和QQ号的格式是一样的,从而导致很多QQ的规则其实抽取出来的是4399网站的id。对规则和满足规则的日志进行抽样人工检测,可以使整个规则库更加准确。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (14)

1.一种提取信息的方法,其特征在于,包括:
设置匹配规则以及获取需要处理的用户网络行为日志;
根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息;
按照预先设置的提取规则从获得的匹配信息中提取用户信息。
2.根据权利要求1所述的方法,其特征在于,所述匹配规则包括:统一资源定位符URL域名的第一匹配条件D,以及Cookie的键值对的第二匹配条件C,和/或路径Path的第三匹配条件P,和/或查询Query的键值对的第四匹配条件Q;
所述获取包含用户信息的匹配信息包括:
将所述获得的用户网络行为日志进行所述第一匹配条件D的匹配以获取匹配结果;
对获得的所述匹配结果进行所述第二匹配条件C的匹配,和/或所述第三匹配条件P的匹配,和/或所述第四匹配条件Q的匹配,以获取所述包含用户信息的匹配信息。
3.根据权利要求2所述的方法,其特征在于,所述对获得的匹配结果进行所述第二匹配条件C的匹配,和/或所述第三匹配条件P的匹配,和/或所述第四匹配条件Q的匹配,以获取所述包含用户信息的匹配信息,包括:
分别建立与所述第二匹配条件C对应的Cookie规则索引树、与所述第三匹配条件P对应的Path规则索引树,与所述第四匹配条件Q对应的Query规则索引树;
根据所述Cookie规则索引树或者所述Path规则索引树或者所述Query规则索引树对所述匹配结果进行由大到小的深度匹配的域名节点的匹配,以获取所述包含用户信息的匹配信息;
其中,所述Cookie规则索引树、所述Path规则索引树和所述Query规则索引树均包括由大到小的深度匹配的域名节点。
4.根据权利要求2或3所述的方法,其特征在于,所述预先设置的提取规则包括:用户信息类型I和正则表达式R。
5.根据权利要求4所述的方法,其特征在于,所述预先设置的提取规则还包括:自定义V,和/或特殊情况E。
6.根据权利要求4所述的方法,其特征在于,所述按照预先设置的提取规则从获得的匹配信息中提取用户信息包括:
根据所述I对获得的所述包含用户信息的匹配信息进行所述R校验,以提取用户信息。
7.根据权利要求5或6所述的方法,其特征在于,所述按照预先设置的提取规则从获得的匹配信息中提取用户信息包括:
根据所述I对获得的所述包含用户信息的匹配信息进行所述R校验之后,再进行所述V校验,和/或所述E校验,以提取用户信息。
8.一种提取信息的装置,其特征在于,包括:设置模块、获取模块、匹配模块和提取模块;其中,
设置模块,用于设置匹配规则;
获取模块,用于获取需要处理的用户网络行为日志;
匹配模块,用于根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息;
提取模块,用于按照预先设置的提取规则从获得的匹配信息中提取用户信息。
9.根据权利要求8所述的装置,其特征在于,所述匹配规则包括:统一资源定位符URL域名的第一匹配条件D,以及Cookie的键值对的第二匹配条件C,和/或路径Path的第三匹配条件P,和/或查询Query的键值对的第四匹配条件Q;
所述匹配模块包括:第一匹配单元和第二匹配单元;其中,
所述第一匹配单元,用于将所述获得的用户网络行为日志进行所述第一匹配条件D的匹配以获取匹配结果;
所述第二匹配单元,用于对获得的所述匹配结果进行所述第二匹配条件C的匹配,和/或所述第三匹配条件P的匹配,和/或所述第四匹配条件Q的匹配,以获取包含所述用户信息的匹配信息。
10.根据权利要求9所述的装置,其特征在于,所述第二匹配单元,具体用于:
分别建立与所述第二匹配条件C对应的Cookie规则索引树、与所述第三匹配条件P对应的Path规则索引树,与所述第四匹配条件Q对应的Query规则索引树;
根据所述Cookie规则索引树或者所述Path规则索引树或者所述Query规则索引树对所述匹配结果进行由大到小的深度匹配的域名节点的匹配,以获取包含所述用户信息的匹配信息;
其中,所述Cookie规则索引树、所述Path规则索引树和所述Query规则索引树均包括由大到小的深度匹配的域名节点。
11.根据权利要求9或10所述的装置,其特征在于,所述预先设置的提取规则包括:用户信息类型I和正则表达式R。
12.根据权利要求11所述的方法,其特征在于,所述预先设置的提取规则还包括:自定义V,和/或特殊情况E。
13.根据权利要求11所述的装置,其特征在于,所述提取模块,具体用于:
根据所述I对获得的所述包含用户信息的匹配信息进行所述R校验,以提取用户信息。
14.根据权利要求12或13所述的装置,其特征在于,所述提取模块,还具体用于:
根据所述I对获得的包含用户信息的匹配信息进行所述R校验之后,再进行所述V校验,和/或所述E校验,以提取用户信息。
CN201510904195.7A 2015-12-09 2015-12-09 一种提取信息的方法和装置 Pending CN106855864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510904195.7A CN106855864A (zh) 2015-12-09 2015-12-09 一种提取信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510904195.7A CN106855864A (zh) 2015-12-09 2015-12-09 一种提取信息的方法和装置

Publications (1)

Publication Number Publication Date
CN106855864A true CN106855864A (zh) 2017-06-16

Family

ID=59132512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510904195.7A Pending CN106855864A (zh) 2015-12-09 2015-12-09 一种提取信息的方法和装置

Country Status (1)

Country Link
CN (1) CN106855864A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404486A (zh) * 2017-08-04 2017-11-28 厦门市美亚柏科信息股份有限公司 解析Http数据的方法、装置、终端设备及存储介质
CN111046307A (zh) * 2018-10-15 2020-04-21 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111881480A (zh) * 2020-07-31 2020-11-03 平安付科技服务有限公司 隐私数据加密方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090299964A1 (en) * 2008-05-30 2009-12-03 Microsoft Corporation Presenting search queries related to navigational search queries
CN102855248A (zh) * 2011-06-29 2013-01-02 中国移动通信集团广西有限公司 一种用户特征信息的确定方法、装置及系统
CN103237094A (zh) * 2013-04-17 2013-08-07 北京亿赞普网络技术有限公司 一种识别用户的方法及装置
CN103970843A (zh) * 2014-04-28 2014-08-06 东华大学 一种Web日志预处理中基于UUID的会话合并方法
CN104765752A (zh) * 2014-01-07 2015-07-08 三星电子(中国)研发中心 基于用户模型演进的推荐装置和方法
CN104883269A (zh) * 2014-02-28 2015-09-02 中国移动通信集团上海有限公司 一种处理ac日志的方法和装置
CN104933157A (zh) * 2015-06-26 2015-09-23 百度在线网络技术(北京)有限公司 用于获取用户属性信息的方法、装置及服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090299964A1 (en) * 2008-05-30 2009-12-03 Microsoft Corporation Presenting search queries related to navigational search queries
CN102855248A (zh) * 2011-06-29 2013-01-02 中国移动通信集团广西有限公司 一种用户特征信息的确定方法、装置及系统
CN103237094A (zh) * 2013-04-17 2013-08-07 北京亿赞普网络技术有限公司 一种识别用户的方法及装置
CN104765752A (zh) * 2014-01-07 2015-07-08 三星电子(中国)研发中心 基于用户模型演进的推荐装置和方法
CN104883269A (zh) * 2014-02-28 2015-09-02 中国移动通信集团上海有限公司 一种处理ac日志的方法和装置
CN103970843A (zh) * 2014-04-28 2014-08-06 东华大学 一种Web日志预处理中基于UUID的会话合并方法
CN104933157A (zh) * 2015-06-26 2015-09-23 百度在线网络技术(北京)有限公司 用于获取用户属性信息的方法、装置及服务器

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404486A (zh) * 2017-08-04 2017-11-28 厦门市美亚柏科信息股份有限公司 解析Http数据的方法、装置、终端设备及存储介质
CN107404486B (zh) * 2017-08-04 2020-05-22 厦门市美亚柏科信息股份有限公司 解析Http数据的方法、装置、终端设备及存储介质
CN111046307A (zh) * 2018-10-15 2020-04-21 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111046307B (zh) * 2018-10-15 2023-05-30 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111881480A (zh) * 2020-07-31 2020-11-03 平安付科技服务有限公司 隐私数据加密方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN103297435B (zh) 一种基于web日志的异常访问行为检测方法与系统
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN107341399B (zh) 评估代码文件安全性的方法及装置
CN106095979B (zh) Url合并处理方法和装置
CN109905288B (zh) 一种应用服务分类方法及装置
CN105072089A (zh) 一种web恶意扫描行为异常检测方法与系统
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN108763274B (zh) 访问请求的识别方法、装置、电子设备及存储介质
CN110321424B (zh) 一种基于深度学习的艾滋病人员行为分析方法
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN109768992A (zh) 网页恶意扫描处理方法及装置、终端设备、可读存储介质
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN102760150A (zh) 基于属性重现和标签路径的网页抽取方法
CN103812906B (zh) 一种网址推荐方法、装置和通信系统
CN107862039A (zh) 网页数据获取方法、系统和数据匹配推送方法
CN116324766A (zh) 通过浏览简档优化抓取请求
CN106855864A (zh) 一种提取信息的方法和装置
CN103475673B (zh) 钓鱼网站识别方法、装置及客户端
CN105824884A (zh) 一种用户上网信息处理方法及装置
Siddiqui et al. Bot or not
CN104391958B (zh) 网页搜索关键词的相关性检测方法及装置
Zhuang et al. Discovering obscure looking glass sites on the web to facilitate internet measurement research
CN103957245B (zh) 互联网数据获取方法及装置
CN107301192A (zh) 一种终端识别方法和识别服务器

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170616