CN103136360B - 一种互联网行为标注引擎及对应该引擎的行为标注方法 - Google Patents

一种互联网行为标注引擎及对应该引擎的行为标注方法 Download PDF

Info

Publication number
CN103136360B
CN103136360B CN201310072271.3A CN201310072271A CN103136360B CN 103136360 B CN103136360 B CN 103136360B CN 201310072271 A CN201310072271 A CN 201310072271A CN 103136360 B CN103136360 B CN 103136360B
Authority
CN
China
Prior art keywords
behavior
url
user
rule
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310072271.3A
Other languages
English (en)
Other versions
CN103136360A (zh
Inventor
唐波
李骄阳
张祺
薛忠军
高福强
褚秀良
庞岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING C-PLATFORM Co Ltd
Original Assignee
BEIJING C-PLATFORM Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING C-PLATFORM Co Ltd filed Critical BEIJING C-PLATFORM Co Ltd
Priority to CN201310072271.3A priority Critical patent/CN103136360B/zh
Publication of CN103136360A publication Critical patent/CN103136360A/zh
Application granted granted Critical
Publication of CN103136360B publication Critical patent/CN103136360B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种互联网行为标注引擎及对应该引擎的行为标注方法,属于用户互联网行为数据的收集和分析技术领域。所述的标注引擎包括分类体系、分词库、语义分析、爬取程序、规则库、知识库、规则解析器、自学习程序8个模块。所述的互联网行为标注方法提出:用户行为=行为主体+行为标识+行为状态,的基本逻辑结构。本发明提高了分类的效率和准确度,细化了互联网用户行为数据的描述粒度,完整识别一次用户行为的动作、对象和环境条件,完整还原了互联网用户行为。按照IUBML规则输出的用户行为数据直接提供基于用户行为和需求理解的精确广告服务,满足企业客户的市场营销需求。

Description

一种互联网行为标注引擎及对应该引擎的行为标注方法
技术领域
本发明涉及一种用户互联网行为数据的收集和分析技术,具体公开了一种互联网行为标注引擎及对应该引擎的行为标注方法。
背景技术
长期以来,困扰企业最大的难题就是“如何更加了解他的客户”。在互联网上,任何行为都有前兆。要买商品,必先浏览,对比,询价;要搞活动,必先征集、讨论、策划;通过对用户互联网行为数据的收集和分析,企业具备了预判物理世界中顾客未来行为的能力。
互联网用户行为大数据挖掘必须具备管理不同的数据类型与数据结构的能力。多样性(variety)是大数据(Big Data)的基本特征之一。大数据通常是结构化数据、半结构和无结构数据的混合体,互联网中海量文本是典型的无结构数据。如何将无结构的文本数据转化为结构数据,如何管理混合结构类型的数据,如何将大量增长的用户上网日志还原为可识别与可理解的用户行为,这些问题是大数据背景下,互联网用户行为研究中急需解决的重要问题。
基于内容的信息检索和数据挖掘成为备受关注的领域.其中,文本分类(textcategorization,简称TC)技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。其基本原理是通过输入自然语言规则,切分出文本中的“关键词”,通过测算“关键词”语义距离及频数,可以较为精确地整体标记文本的内容与类型。文本挖掘技术解决了对文本内容的识别和对文本数据的结构化转换过程,但文本挖掘技术形成的文本分类体系本质上是一种基于名词体系的词典规则,其数据结构为树形结构(即数据元素之间的一对多关系);而用户上网行为数据结构为图状结构(即数据元素之间存在多对多的关系),因而当前的文本分类技术难以满足互联网用户行为分析的需要,主要存在的不足有以下几点:
1.基于已有分类词库,对新词的依赖权重较低或为0。
2.增加新分类困难:每个分类都需要大量的训练集文件进行训练,获取该类词库。
3.分类体系变动困难:若分类体系发生调整,则词库需要全部重新训练。
4.分类结果的准确性与待分类的文本长度有关系,当待分类的文本长度小于阀值(如短于100个字)时则分开准确性大大降低。
5.只能处理互联网中的文本分类,对于视频、音频等数据无能为力。
6.文本分类技术使用的多种算法,依据文本相似度产生的分类准确率一般低于90%。
7.文本分类体系不能完整描述行为,静态的文本分类体系是用户行为标记语言的一部分。因为文本内容不能等同于用户行为,文本分类体系亦不能等同于用户行为标记语言。当前多数网站能够为用户提供“一站式”的服务,即网站不仅向用户提供特定内容的多种文本类型的信息产品,且同时支持浏览、搜索、下载、在线消费、支付等多种信息产品消费方式。例如,对于同一篇小说,用户可以“浏览”也可以“下载”,但“浏览”和“下载”是不同的用户行为,不同的行为反映了用户对特定内容的需求程度和消费方式的差异。基于文本内容的标记方法不能反映出针对同一内容用户上网行为的差异。
8.文本分类体系难以满足“以个体用户为核心”的移动互联网用户行为分析的描述需要。当前文本分类体系多用于网站分析中,在网站分析中以文本分类体系作为描述的自变量,以用户群体行为发生频数作为因变量;而用户行为分析,尤其是移动互联网用户行为分析中经常需要以个体用户作为自变量,当文本分类体系变成因变量时难以提供精准和多元组合描述维度。实际上,当前无论是网站分析还是用户分析,{用户,文本}、{网站,用户}、{网站,文本}的二元组已经难以满足实践中的分析需要。
发明内容
本发明所要解决的技术问题是将用户上网日志还原为用户行为记录。即建立以“个体用户行为”为核心的互联网用户行为标记语言体系,以满足移动互联网用户行为分析对数据的需要。综合识别互联网用户的文本、音频、视频等数据的分类、主题、及内容对象。
本发明为解决上述技术问题采用以下技术方案:一种互联网行为标注引擎,包括分类体系模块、语义分析模块、爬取程序模块、规则库模块、知识库模块、规则解析器模块、自学习程序模块,其中:
所述分类体系模块依据HTTP日志标记规则对规则库模块和知识库模块中的数据进行分类,其中所述HTTP日志标记规则定义的基本逻辑结构为:用户行为=行为主体+行为标识+行为状态;
所述语义分析模块用于根据分类体系模块中定义好的分类项,识别出待处理文本隶属的分类类别;
所述爬取程序模块用于获取用户访问过的、待分类的互联网URL资源数据,并将这些数据保存到知识库模块中;
所述规则库模块含有互联网URL资源分类规则数据,用于分词库模块中文本分类之外的识别;
所述知识库模块用于存储互联网URL资源的内容对象集合;
所述规则解析器模块用于将规则库模块里的模式数据和用户访问的URL进行匹配,提取相应的产品对象、内容对象、用户动作信息;
所述自学习程序模块用于当识别出的URL内容对象在知识库模块里没有被检索到时,利用爬取程序模块从网络上将该条URL内容对象相关信息爬取下来,并保存到知识库模块中。
进一步的,所述的一种互联网行为标注引擎,还包括一个分词库模块,该模块为文本分类技术所使用的词库,所述互联网行为标注引擎在面对文本信息数据时使用文本挖掘技术对用户在互联网上的行为进行分类和分析。
进一步的,所述承建分类体系的HTTP日志标记规则中行为主体和行为标识是行为描述构成的必备项,行为状态为可选项,其中:
行为主体即用户,以用户ID的形式确定,在桌面互联网中,需要使用cookie追踪及用户模型来定位个体用户;
行为标识包括动作、对象和载体三个部分,为图状或网状结构;
行为状态反映了用户上网行为的客观物质条件,提供了理解行为主体和行为标识的语境,包括时间、位置和操作环境三个方面;
所述承建分类体系的HTTP日志标记规则中使用多元组描述结构描述用户上网行为,将一条用户上网日志分解为以下数据元素:用户、动作、对象、载体、时间、位置、接入点、终端、操作系统。
进一步的,所述的互联网行为标注引擎实现互联网行为标注的方法,具体步骤如下:
(1)开始:调用行为标注引擎,需要输入6个参数,即用户电话号码、用户访问URL字符串、用户访问URL的内容类型、用户访问URL的服务器响应状态,用户访问URL的数据提交方式;
(2)日志清洗:行为标注引擎接收到参数后,首先根据传输的参数值,根据有效规则标识出无效的URL,仅对有效的URL在语义分析模块中进行分类操作,有效规则如下:
(201)网页内容类型的参数值为application/text、application/vnd.wap.wmlc、application/vnd.wap.xhtml+xml、application/xhtml+xml、application/xml、text/html、text/xhtml、text/plain、text/vnd.wap.wml中的一个;
(202)HTTP响应状态的参数值大于等于200且小于400;
(203)数据提交方式的参数值为get或post;
(3)产品匹配:在规则库模块中识别用户访问URL的网站产品信息;
(4)动作识别:在规则库模块中识别出用户在所访问网站中的操作;
(5)对象匹配:结合规则库模块中的存储信息利用规则解析器模块,当用户访问的URL资源对象是内容对象时,行为标注引擎将提取该内容对象的名称、分类等信息,通过将内容对象与知识库相关联,从而扩展内容对象的识别维度和描述粒度,对知识库中未存储的URL资源对象,通过爬取程序模块将该URL资源对象自学习至知识库中;
(6)UA识别:利用规则解析器模块提取用户终端使用的UA信息;
(7)标注结果:即标明行为标注引擎对URL的分类解析结果。
进一步的,所述的步骤(3)产品匹配的过程,具体步骤如下:
(301)开始:输入用户访问的URL对象和该URL的顶级域名;
(302)获取站点匹配集合:根据步骤(301)中URL的顶级域名,在规则库模块中获取该站点的匹配规则对象集合;
(303)判断匹配规则对象集合是否为空:若步骤(302)中该站点的匹配规则对象集合为空,则产品匹配失败,跳出产品匹配子流程;若步骤(302)中该站点的匹配规则对象集合不为空,则进行下述(304)步骤;
(304)获取规则对象:从该站点的匹配规则集合中迭代出一个规则对象;
(305)模式匹配的执行:使用步骤(304)获取的规则对象,匹配用户访问的URL;
(306)判断匹配成功与否:判断步骤(305)模式匹配是否成功,若成功,则返回该匹配的规则对象,跳出产品匹配子流程;
(307)在步骤(306)中,若匹配失败,则从该站点的匹配规则对象集合中提取下一个规则对象,继续执行模式匹配;若已经迭代到了匹配规则对象集合的最后一个元素,则跳出产品匹配子流程,进一步循环执行对象匹配子流程。
进一步的,所述的步骤(5)对象匹配的过程,具体步骤如下:
(501)开始:输入用户访问的URL对象和访问站点的资源提取规则;
(502)获取资源标识变量值:根据访问站点的资源提取规则,从用户访问的URL中提取资源标识变量值;
(503)若提取成功,则执行匹配知识库操作;若提取失败,则对象匹配流程结束;
(504)匹配知识库:以站点的资源标识值为参数,在知识库中检索用户访问的URL对象;
(505)判断匹配成功与否:若在知识库中检索到与用户访问的URL对象匹配的站点资源对象,则返回该站点资源对象的内容对象,跳出对象匹配子流程;若未检索到匹配的站点资源对象,则将该URL对象传递给自学器;
(506)自学习程序模块:接收步骤(505)中传递来的URL对象,通过爬取程序模块将该URL对象自学习至知识库中。
附图说明
图1是行为标注引擎的模块结构示意图;
图2是行为标注引擎的承建流程示意图;
图3是行为标注引擎的整体执行过程示意图;
图4是执行过程中产品匹配过程示意图;
图5是执行过程中对象匹配过程示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
一、行为标注引擎的模块结构
如图1所示,行为标注引擎(Internet Behavior Markup Engine,iBMEngine)主要包含分类体系(IUBML)、分词库、语义分析、爬取程序、规则库、知识库、规则解析器、自学习程序8个模块。其中:
1.分类体系模块中分类体系的承建依据即一种HTTP日志标记规则,称为IUBML(Internet Universal Behavior Markup Language,互联网通用行为标注语言),所述的标记规则定义了:“用户行为=行为主体+行为标识+行为状态”的基本逻辑结构。
2.分词库模块即文本分类技术所使用的词库。
3.语义分析模块即文本分类器,使用分类体系中定义好的分类项,将待处理文本自动识别出隶属分类类别。
4.爬取程序模块用来获取待分类的用户访问的互联网内容数据。
5.规则库模块中含有互联网URL(Uniform/Universal Resource Locator,统一资源定位符)资源分类规则数据,主要应用于文本分类之外的识别,以手工方式承建。
6.知识库模块是指内容对象集合。
7.规则解析器模块即分类匹配器,将规则库里的模式数据和用户访问的URL经行匹配,提取相应的产品、内容对象、用户动作信息。
8.自学习程序模块:即自学器,可理解为知识库的(追加式)自我丰富。当iBMEngine识别出的URL内容对象在知识库里没有检索到时,iBMEngine将该条URL传递给自学习程序,自学习程序从网络上将该内容对象相关信息爬取下来,并保存到知识库中。
二、承建流程
如图2所示,包括“数据与规则准备”以及“分解分析标准程序”两部分。
数据与规则准备:行为标注引擎建设的前阶段为基础信息准备,如分类体系的承建、规则库的承建、知识库的承建、以及文本分类词库的训练。这个基点可理解为“分类标准”的制定。
分解分析标准程序:行为标注引擎建设的后期为代码开发阶段,如自学习程序的开发、规则解析程序的开发、分词分析与计算程序的开发、网络内容爬取程序的开发。这个阶段可理解为“分类标准”的执行。
三、整体执行过程
如图3所示,具体过程如下,需要说明的是,分类执行流程中“对象匹配”并不是所有的URL分类都执行,只有该URL资源对象为内容对象时才执行该子流程。
1.开始:调用iBMEngine,需要传入6个参数,即用户电话号码(PhoneNO:139xxxxxxxx)、用户访问URL字符串(URL:http://www.baidu.com)、用户访问URL的内容类型(ContentType:html/text|…)、用户访问URL的服务器响应状态(status:200|400|302|…),用户访问URL的数据提交方式(method:get|post|…)。
2.日志清洗:BMEngine接受到参数后,首先根据传输的参数值,进行日志清洗(即标识出无效URL,有效的URL才能执行分类操作),有效规则为:ContentType为application/text、application/vnd.wap.wmlc、application/vnd.wap.xhtml+xml、application/xhtml+xml、application/xml、text/html、text/xhtml、text/plain、text/vnd.wap.wml中的一个;status为大于等于200且小于400的值;Method的值为get、post。有效规则之外的URL都为无效URL。
3.产品匹配:识别用户访问URL的网站产品信息,如网站名称、品牌名、产品类型、主题等。
4.动作识别:识别出用户在该网站中的操作,如浏览、阅读、下载、购买等。
5.对象匹配:用户访问的URL资源对象如果是内容对象(比如用户在线阅读),iBMEngine将提取该内容对象的名称、分类等信息。该阶段主要通过内容知识库关联,扩展内容对象的识别维度和描述粒度;例如,URL资源对象可被直接解析为一本书的名称,但通过图书知识库关联,该数据项则可扩展为书的{名称,体裁,作者}等。
6.UA(User Agent,用户识别)识别:提取用户终端使用的UA信息,如操作系统版本,UA类型等。
7.标注结果:即BMEngine对URL的分类解析结果,包含了网站产品信息、用户动作[内容对象]、UA信息等。
整体执行过程中,第3部分产品匹配过程如图4所示,具体包括以下步骤,需要说明的是,该流程是在产品匹配阶段执行的,若匹配成功,则返回的规则对象中包含了“产品形体”、”产品主题”等产品信息,同时也包含了用户动作、内容对象相关信息(若该URL为内容对象URL)。
(1)开始:调用匹配接口,传入用户访问的URL字符串的URL对象(URL是java实体对象类)和该URL的顶级域名(topDomain,如qq.com、baidu.com)。
(2)获取站点匹配对象集合:根据topDomain在一级匹配规则集合中获取该站点的匹配规则集合。
(3)集合为空:若匹配集合为空,则匹配失败,跳出子流程;否则循环执行匹配,直到匹配成功或结束,跳出子流程。
(4)获取集合中一个规则对象:按顺序从集合中迭代出一个规则对象。
(5)规则匹配:使用上一步获取的规则对象,匹配用户访问的URL,即为模式匹配的执行。
(6)匹配成功否:判断上一步模式匹配是否成功,若成功,则返回该匹配对象,跳出子流程。
(7)循环结束否:若匹配失败,则从集合中提取下一个匹配对象,继续执行模式匹配流程;若已经迭代到了集合的最后一个元素,则跳出子流程。
(8)结束:跳出子流程,返回匹配结果(null或规则对象)
整体执行过程中,第5部分对象匹配过程如图5所示,具体包括以下步骤,需要说明的是,如用户访问的URL为内容对象URL,则执行该流程。
(1)开始:输入参数URL对象(用户访问URL字符串对应的URL对象)和站点资源对象的匹配规则实例(一种Reg对象)。
(2)获取资源变量值:在URL中使用站点资源提取规则,提取该资源对象的标识值(如bid=123中的123数值,其中bid就是资源标识变量)。
(3)若提取成功,则执行“匹配知识库”操作;若失败,则流程结束。
(4)匹配知识库:以站点的资源标识值为参数,在知识库中检索该对象。
(5)匹配成功否:若检索成功,则返回该内容对象(包含,内容对象id,内容对象分类编码等对象信息)。若检索失败,则判断是否给新资源,若是新资源,则将URL对象传递给“自学器”(即“自学程序”),将该资源自学习至知识库中。
(6)自学器:即自学习程序模块,负责丰富知识库内容数据。该流程和父流程为异步操作,所以无论该“自学”流程是否正常,父流程都正常结束。
四、具体实施方式
实例1:
数据准备:用户访问的URL字符串
http://read.10086.cn/booksort?nodeId=6893664
处理过程:
Step1:根据顶级域名(10086.cn)获取该站点内的匹配规则。
Step2:根据域名前缀部分(read)执行匹配,获取与该URL能匹配的规则对象为:{"id":2627,"topDomain":"10086.cn","ars":{"id":28},"domainReg":{”^read$”},"genre":"ts_","matchingType":1,"prod":{"id":1376,"prodMod":"546","prodType":"702"},"resIdType":0,"resIdVal":"","resIdVarReg":null,"resIdVarSet":null,"resIdVarValReg":null,"userAct":"104003","validCode":"901",…}
Step3:非内容对象,流程结束。结果数据为:{"ars":{"id":28,"name":"中国移动通信有限公司"},"prod":{"id":1376,"prodMod":"546","prodName":"移动阅读","prodType":"702"},"resObj":null,"topDomain":"10086.cn","userAct":"104003","validityCode":"901"}
实例2:
数据准备:用户访问的URL字符串
http://read.10086.cn/www/readView?bid=377517448&cid=377517451
处理过程:
Step1:根据顶级域名(10086.cn)获取该站点内的匹配规则,即二级集合。
Step2:根据域名前缀部分(read)执行匹配,获取与该URL能匹配的规则对象为:{"id":2627,"topDomain":"10086.cn","ars":{"id":28},"domainReg":{”^read$”},"genre":"ts_","matchingType":1,"prod":{"id":1376,"prodMod":"546","prodType":"702"},"resIdType":11,"resIdVal":"","resIdVarReg":null,"resIdVarSet":["bid"],"resIdVarValReg":null,"userAct":"104003","validCode":"901",…}
Step3:是内容对象,读取内容对象信息:bid=377517448
Step4:分类结果:{"ars":{"id":28,"name":"中国移动通信有限公司"},"kwTaskIds":[],"prod":{"id":1376,"topDomain":"10086.cn","prodMod":"546","prodName":"移动阅读","prodType":"702"},"resObj":{"keywords":"","muiltCategory":[{"cateInfos":[{"code":"101017","text":"阅读|言情小说","wight":1}],"name":"genre"}],"resId":"ts_881","resName":"最美时光"},"userAct":"104003","validityCode":"901"}
五、IUBML分类体系
本发明还基于对“行为”本身的自然语言语法规则探讨,提出针对互联网HTTP协议日志通用的用户行为标记规则。本发明提出并建立起互联网用户行为数据对象和数据元素之间的图状结构关系,是一种针对互联网用户行为的元语言规则。基本逻辑结构为“用户行为=行为主体+行为标识+行为状态”,并提出描述用户上网行为的多元组描述结构,将一条用户上网日志分解为{用户,动作,对象,载体,时间,位置,接入点,终端,操作系统,浏览器}等多个数据元素,这种标记方法以个体用户为核心组织数据项,在实践中,可以根据分析需要,灵活重新组织数据元素和数据对象。我们将这种HTTP日志标记规则称之为“互联网通用行为标注语言”(IUBML,Internet Universal Behavior Markup Language),它有效还原了用户上网“行为”的含义,细化了用户行为数据的刻画精度,满足了大数据分析的多样性要求。
1.“行为”描述的自然语言规则:用户行为=行为主体+行为标识+行为状态。
从自然语言规则中看,对一次人类行为的描述必然是一个主谓(宾)结构:{谁|做|(什么)}。
在主谓(宾)结构中,必然包含一个行为主体(“谁”/人称代词)和一个动作(“做”/动词)。在主谓(宾)句式中,主语的功能是指代行为主体,谓语负责具体表义,说明动作是什么。在大多数情况下,谓语动词指向宾语,即说明动作的对象是什么(“什么”/名词)。例如,{我|吃(饭)}是一个行为,在这个行为中,“吃(饭)”是负责表义的部分,负载行为的具体内涵。
主谓宾结构是有方向的,即行为主体发起了动作,动作选择了对象,三者之间有联动关系,次序不能回溯。
以主谓结构为骨架,对人类行为的描述包含了“主|谓”、“主|谓|宾”和“主|谓|宾|状”三种句式,不断丰满对行为的描述。
语法结构清晰地显示,对行为的描述包含了“行为主体”、“行为标识”和“行为状态”三个方面,其中“行为主体”和“行为标识”是行为描述构成的必备项,“行为状态”为可选项。
用户即“行为主体”,他或她是行为的使动者,决定了行为的目标、内容和方式。在移动互联网中,用户ID通常对应的是明确、唯一的个体用户。在桌面互联网中,需要使用cookie追踪及用户模型来定位个体用户。
“行为标识”包含了动作、对象(动作的客体)和(对象的)载体三个部分。文本分类体系描述的是“对象”(动作的客体),是基于名词语义关系建立起来的树状结构;而由动作、对象、载体三者共同构成的“行为标识”则为图状或网状结构。从语法规则来看,“行为”的表义核心是“动作”而非“对象”或“载体”,它们的词性、表义功能不同。根据谓宾结构的方向性,不能以“对象”取代“动作”,更不能将“对象”等同于“载体”。因而,仅对文本分类体系等同于IUBML中的“对象”,相当于IUBML中的一个数据对象。通过解析一条用户上网日志中的URL可以得到动作、对象、载体三类数据对象。例如,http://apps.wandoujia.com/apps/com.rovio.angrybirds/download可以被解码为:用户在豌豆荚网站[载体]|下载[动作]|(益智趣味类游戏)愤怒的小鸟[对象]
“行为状态”反映了用户上网行为的客观物质条件,提供了理解“行为主体”和“行为标识”的语境(context),包括了时间、位置和操作环境三个方面。在拥有可上网终端和网络信号的前提下,为什么用户会在某个特定的时间和空间,发起了行为(上网)、消费某种互联网内容?操作环境与行为标识的交互分析能够一定程度上反映出用户的上网体验,而时间、位置与行为标识的交互分析有助于理解用户发起本次上网行为的动机和现实处境。需要说明的是,位置和环境信息是基于移动互联网的数据资源而言的,桌面互联网对这两项数据资源的识别精度和识别方法有所不同。
2.IUBML结构示意表
行为主体(用户)是既定的,IUBML的主要构成为行为标识和行为状态两部分叙词表的建构与技术实现过程。行为状态的数据疏密度主要受数据源影响,如位置信息需要采集CDR信令数据;UA解析主要依靠规则化的数据清洗。当前IUBML将URL字符串解析为“动作+对象+载体”3个族别可达6层纵深的叙词表结构。

Claims (5)

1.使用互联网行为标注引擎实现互联网行为标注的方法,所述互联网行为标注引擎,包括分类体系模块、语义分析模块、爬取程序模块、规则库模块、知识库模块、规则解析器模块、自学习程序模块,其中:
所述分类体系模块依据HTTP日志标记规则对规则库模块和知识库模块中的数据进行分类,其中所述HTTP日志标记规则定义的基本逻辑结构为:用户行为=行为主体+行为标识+行为状态;
所述语义分析模块用于根据分类体系模块中定义好的分类项,识别出待处理文本隶属的分类类别;
所述爬取程序模块用于获取用户访问过的、待分类的互联网URL资源数据,并将这些数据保存到知识库模块中;
所述规则库模块含有互联网URL资源分类规则数据,用于分词库模块中文本分类之外的识别;
所述知识库模块用于存储互联网URL资源的内容对象集合;
所述规则解析器模块用于将规则库模块里的模式数据和用户访问的URL进行匹配,提取相应的产品对象、内容对象、用户动作信息;
所述自学习程序模块用于当识别出的URL内容对象在知识库模块里没有被检索到时,利用爬取程序模块从网络上将该条URL内容对象相关信息爬取下来,并保存到知识库模块中;其特征在于,使用该互联网行为标注引擎实现互联网行为标注的方法具体步骤如下:
(1)开始:调用行为标注引擎,需要输入5个参数,即用户电话号码、用户访问URL字符串、用户访问URL的内容类型、用户访问URL的服务器响应状态,用户访问URL的数据提交方式;
(2)日志清洗:行为标注引擎接收到参数后,首先根据传输的参数值,根据有效规则标识出无效的URL,仅对有效的URL在语义分析模块中进行分类操作,有效规则如下:
(201)网页内容类型的参数值为application/text、application/vnd.wap.wmlc、application/vnd.wap.xhtml+xml、application/xhtml+xml、application/xml、text/html、text/xhtml、text/plain、text/vnd.wap.wml中的一个;
(202)HTTP响应状态的参数值大于等于200且小于400;
(203)数据提交方式的参数值为get或post;
(3)产品匹配:在规则库模块中识别用户访问URL的网站产品信息;
(4)动作识别:在规则库模块中识别出用户在所访问网站中的操作;
(5)对象匹配:结合规则库模块中的存储信息利用规则解析器模块,当用户访问的URL资源对象是内容对象时,行为标注引擎将提取该内容对象的名称、分类信息,通过将内容对象与知识库相关联,从而扩展内容对象的识别维度和描述粒度,对知识库中未存储的URL资源对象,通过爬取程序模块将该URL资源对象自学习至知识库中;
(6)UA识别:利用规则解析器模块提取用户终端使用的UA信息;
(7)标注结果:即标明行为标注引擎对URL的分类解析结果。
2.如权利要求1所述使用互联网行为标注引擎实现互联网行为标注的方法,其特征在于,所述的步骤(3)产品匹配的过程,具体步骤如下:
(301)开始:输入用户访问的URL对象和该URL的顶级域名;
(302)获取站点匹配集合:根据步骤(301)中URL的顶级域名,在规则库模块中获取该站点的匹配规则对象集合;
(303)判断匹配规则对象集合是否为空:若步骤(302)中该站点的匹配规则对象集合为空,则产品匹配失败,跳出产品匹配子流程;若步骤(302)中该站点的匹配规则对象集合不为空,则进行下述(304)步骤;
(304)获取规则对象:从该站点的匹配规则集合中迭代出一个规则对象;
(305)模式匹配的执行:使用步骤(304)获取的规则对象,匹配用户访问的URL;
(306)判断匹配成功与否:判断步骤(305)模式匹配是否成功,若成功,则返回该匹配的规则对象,跳出产品匹配子流程;
(307)在步骤(306)中,若匹配失败,则从该站点的匹配规则对象集合中提取下一个规则对象,继续执行模式匹配;若已经迭代到了匹配规则对象集合的最后一个元素,则跳出产品匹配子流程,进一步循环执行对象匹配子流程。
3.如权利要求1所述使用互联网行为标注引擎实现互联网行为标注的方法,其特征在于,所述的步骤(5)对象匹配的过程,具体步骤如下:
(501)开始:输入用户访问的URL对象和访问站点的资源提取规则;
(502)获取资源标识变量值:根据访问站点的资源提取规则,从用户访问的URL中提取资源标识变量值;
(503)若提取成功,则执行匹配知识库操作;若提取失败,则对象匹配流程结束;
(504)匹配知识库:以站点的资源标识值为参数,在知识库中检索用户访问的URL对象;
(505)判断匹配成功与否:若在知识库中检索到与用户访问的URL对象匹配的站点资源对象,则返回该站点资源对象的内容对象,跳出对象匹配子流程;若未检索到匹配的站点资源对象,则将该URL对象传递给自学器;
(506)自学习程序模块:接收步骤(505)中传递来的URL对象,通过爬取程序模块将该URL对象自学习至知识库中。
4.如权利要求1所述使用互联网行为标注引擎实现互联网行为标注的方法,其特征在于:互联网行为标注引擎还包括一个分词库模块,该模块为文本分类技术所使用的词库,所述互联网行为标注引擎在面对文本信息数据时使用文本挖掘技术对用户在互联网上的行为进行分类和分析。
5.如权利要求1所述使用互联网行为标注引擎实现互联网行为标注的方法,其特征在于,承建分类体系的HTTP日志标记规则中行为主体和行为标识是行为描述构成的必备项,行为状态为可选项,其中:
行为主体即用户,以用户ID的形式确定,在桌面互联网中,需要使用cookie追踪及用户模型来定位个体用户;
行为标识包括动作、对象和载体三个部分,为图状或网状结构;
行为状态反映了用户上网行为的客观物质条件,提供了理解行为主体和行为标识的语境,包括时间、位置和操作环境三个方面;
承建分类体系的HTTP日志标记规则中使用多元组描述结构描述用户上网行为,将一条用户上网日志分解为以下数据元素:用户、动作、对象、载体、时间、位置、接入点、终端、操作系统。
CN201310072271.3A 2013-03-07 2013-03-07 一种互联网行为标注引擎及对应该引擎的行为标注方法 Expired - Fee Related CN103136360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310072271.3A CN103136360B (zh) 2013-03-07 2013-03-07 一种互联网行为标注引擎及对应该引擎的行为标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310072271.3A CN103136360B (zh) 2013-03-07 2013-03-07 一种互联网行为标注引擎及对应该引擎的行为标注方法

Publications (2)

Publication Number Publication Date
CN103136360A CN103136360A (zh) 2013-06-05
CN103136360B true CN103136360B (zh) 2016-09-07

Family

ID=48496185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310072271.3A Expired - Fee Related CN103136360B (zh) 2013-03-07 2013-03-07 一种互联网行为标注引擎及对应该引擎的行为标注方法

Country Status (1)

Country Link
CN (1) CN103136360B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399908B (zh) * 2013-07-30 2017-02-08 北京北纬通信科技股份有限公司 业务数据抓取方法和系统
CN104317846A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种语义分析与标注方法及系统
CN104615729A (zh) * 2014-10-30 2015-05-13 南京源成语义软件科技有限公司 基于语义网技术的网络搜索方法
CN104391996B (zh) * 2014-12-15 2018-05-04 上海携程商务有限公司 移动终端的用户交互行为的收集分析方法
CN106156025B (zh) * 2015-03-25 2019-07-23 阿里巴巴集团控股有限公司 一种数据标注的管理方法及装置
US20170251072A1 (en) * 2015-10-22 2017-08-31 Symantec Corporation System and method for annotating client-server transactions
CN106650760A (zh) 2015-10-28 2017-05-10 华为技术有限公司 基于流量分析识别用户行为对象的方法和装置
CN106057200A (zh) * 2016-06-23 2016-10-26 广州亿程交通信息有限公司 基于语义的交互系统及交互方法
CN106202274B (zh) * 2016-06-30 2019-10-15 云南电网有限责任公司电力科学研究院 一种基于贝叶斯网络的缺陷数据自动文摘分类方法
CN108255868B (zh) * 2016-12-29 2020-11-24 北京国双科技有限公司 检查网站中链接的方法和装置
CN108459873B (zh) * 2018-03-05 2021-09-24 中国人民解放军国防科技大学 一种提高开源代码注释率及注释质量的方法
CN110737851B (zh) * 2018-07-03 2022-09-09 百度在线网络技术(北京)有限公司 超链的语义化方法、装置、设备及计算机可读存储介质
CN109359263B (zh) * 2018-10-16 2020-09-29 杭州安恒信息技术股份有限公司 一种用户行为特征提取方法及系统
CN111105259B (zh) * 2018-10-29 2024-04-02 北京奇虎科技有限公司 一种用户识别方法、装置、电子设备和存储介质
CN109657013A (zh) * 2018-11-30 2019-04-19 杭州数澜科技有限公司 一种系统化生成标签的方法和系统
CN111258969B (zh) * 2018-11-30 2023-08-15 中国移动通信集团浙江有限公司 一种互联网访问日志解析方法及装置
CN110083608B (zh) * 2019-04-26 2021-10-15 北京零秒科技有限公司 基于知识库的内容管理方法及装置
CN110765402A (zh) * 2019-10-31 2020-02-07 同方知网(北京)技术有限公司 一种基于网络资源的可视化采集系统及采集方法
CN110930189A (zh) * 2019-11-20 2020-03-27 深圳市豪斯莱科技有限公司 基于用户行为的个性化营销方法
CN111563190B (zh) * 2020-04-07 2023-03-14 中国电子科技集团公司第二十九研究所 一种区域网络用户行为的多维度分析与监管方法及系统
CN111488741A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种税收知识数据语义标注方法及相关装置
CN115249017B (zh) * 2021-06-23 2023-12-19 马上消费金融股份有限公司 文本标注方法、意图识别模型的训练方法及相关设备
CN113657121B (zh) * 2021-09-03 2023-04-07 四川大学 一种日志变量语义标注方法
CN115168755A (zh) * 2022-07-26 2022-10-11 北京永信至诚科技股份有限公司 基于url特征的异常数据处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169780A (zh) * 2006-10-25 2008-04-30 华为技术有限公司 一种基于语义本体的检索系统和方法
CN101211339A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 基于用户行为的智能网页分类器
CN101676907A (zh) * 2008-09-16 2010-03-24 北京雷速科技有限公司 一种互联网资源定向获取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2443574A4 (en) * 2009-06-19 2014-05-07 Blekko Inc EVOLVING CLUSTER DATABASE

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169780A (zh) * 2006-10-25 2008-04-30 华为技术有限公司 一种基于语义本体的检索系统和方法
CN101211339A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 基于用户行为的智能网页分类器
CN101676907A (zh) * 2008-09-16 2010-03-24 北京雷速科技有限公司 一种互联网资源定向获取方法及系统

Also Published As

Publication number Publication date
CN103136360A (zh) 2013-06-05

Similar Documents

Publication Publication Date Title
CN103136360B (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其系统
Milne et al. An open-source toolkit for mining Wikipedia
US20140279622A1 (en) System and method for semantic processing of personalized social data and generating probability models of personal context to generate recommendations in searching applications
CN109471949B (zh) 一种宠物知识图谱的半自动化构建方法
CN100462969C (zh) 利用互联网为公众提供和查询信息的方法
Aletras et al. Evaluating topic representations for exploring document collections
CN101499062A (zh) 用于收集实体别名的方法和设备
CN102622453A (zh) 基于本体的食品安全事件语义检索系统
Zhang et al. Mining and clustering service goals for restful service discovery
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
Weninger et al. Document-topic hierarchies from document graphs
CN107301195A (zh) 生成用于搜索内容的分类模型方法、装置和数据处理系统
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
Velásquez Web site keywords: A methodology for improving gradually the web site text content
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
US20180089193A1 (en) Category-based data analysis system for processing stored data-units and calculating their relevance to a subject domain with exemplary precision, and a computer-implemented method for identifying from a broad range of data sources, social entities that perform the function of Social Influencers
Lee et al. Automatic tag recommendation for the web 2.0 blogosphere using collaborative tagging and hybrid ANN semantic structures
KR20100013157A (ko) 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법
Phan et al. Ontology-based heuristic patent search
Almoqhim et al. Improving on popularity as a proxy for generality when building tag hierarchies from folksonomies
Wasim et al. Extracting and modeling user interests based on social media
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
ElGindy et al. Enriching user profiles using geo-social place semantics in geo-folksonomies
Ayyasamy et al. Mining Wikipedia knowledge to improve document indexing and classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Fei Wenli

Inventor after: Tang Bo

Inventor after: Li Jiaoyang

Inventor after: Zhang Qi

Inventor after: Xue Zhongjun

Inventor after: Gao Fuqiang

Inventor after: Chu Xiuliang

Inventor after: Pang Yan

Inventor before: Tang Bo

Inventor before: Li Jiaoyang

Inventor before: Zhang Qi

Inventor before: Xue Zhongjun

Inventor before: Gao Fuqiang

Inventor before: Chu Xiuliang

Inventor before: Pang Yan

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Tang Bo

Inventor after: Li Jiaoyang

Inventor after: Zhang Qi

Inventor after: Xue Zhongjun

Inventor after: Gao Fuqiang

Inventor after: Chu Xiuliang

Inventor after: Pang Yan

Inventor before: Fei Wenli

Inventor before: Tang Bo

Inventor before: Li Jiaoyang

Inventor before: Zhang Qi

Inventor before: Xue Zhongjun

Inventor before: Gao Fuqiang

Inventor before: Chu Xiuliang

Inventor before: Pang Yan

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160907