CN111191109A - 一种信息处理方法及装置、存储介质 - Google Patents
一种信息处理方法及装置、存储介质 Download PDFInfo
- Publication number
- CN111191109A CN111191109A CN201811362470.7A CN201811362470A CN111191109A CN 111191109 A CN111191109 A CN 111191109A CN 201811362470 A CN201811362470 A CN 201811362470A CN 111191109 A CN111191109 A CN 111191109A
- Authority
- CN
- China
- Prior art keywords
- interest
- tag
- preset
- information
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 73
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims description 54
- 238000000034 method Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 239000003795 chemical substances by application Substances 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种信息处理方法及装置、存储介质,该信息处理方法包括:获取上网数据,上网数据表征网络中的操作信息;分析上网数据,得到兴趣标签;根据预设时空特征模型,计算兴趣标签对应的标签属性信息,得到兴趣标签信息,预设时空特征模型用于确定兴趣标签在时间特征和空间特征上对应的时空特征信息。
Description
技术领域
本发明涉及互联网领域的信息处理技术,尤其涉及一种信息处理方法及装置、存储介质。
背景技术
随着移动互联网、大数据技术的发展,运营商的数据逐渐复杂化,客户需求更加多样化,传统运营思路已无法满足竞争需求,需要从以业务为中心转向以客户为中心,通过构建成熟完善的客户标签体系,准确描述客户特征,实现客户需求的全方位分析与理解,为客户提供差异化的信息服务,提升客户洞察价值。大数据时代,运营商面临业务转型压力,开始从单一的通讯服务提供商逐渐转变为多元化的信息服务提供商,因此运营商的产业链和价值链也需要更加丰富,客户成为了新价值链中的核心。在客户标签体系建设过程中,除了需要刻画客户的消费能力、社会属性、社交行为、终端特征、位置特征、上网行为、性格情绪等客户基本特征标签之外,用户的时空轨迹信息实际上记录了用户的客观活动行为,可以从这些行为活动中继续挖掘出用户的意图、活动规律和潜在的兴趣爱好等重要信息作为客户的兴趣标签信息,对客户行为洞察和价值变现方面具有重要的意义。
现有技术中进行客户的兴趣标签信息生成时,通常通过对客户关联的图像进行标签标注,进而根据已标注标签的图像分析得到客户的兴趣标签信息。然而,由于上述获得客户的兴趣标签信息的过程是仅基于客户关联的图像实现的,因此,获得兴趣标签信息所依据的数据单一,兴趣标签信息稀疏,不能够完整描述客户信息。
发明内容
为解决上述技术问题,本发明实施例期望提供一种信息处理方法及装置、存储介质,能够提高兴趣标签信息的覆盖度和准确性,提升兴趣标签信息的动态适应性。
本发明的技术方案是这样实现的:
第一方面,本发明实施例期望提供了一种信息处理方法,所述方法包括:
获取上网数据,所述上网数据表征网络中的操作信息;
分析所述上网数据,得到兴趣标签;
根据预设时空特征模型,计算所述兴趣标签对应的标签属性信息,得到兴趣标签信息,所述预设时空特征模型用于确定所述兴趣标签在时间特征和空间特征上对应的时空特征信息。
在上述方案中,所述获取上网数据,包括:
基于上网日志和网络爬虫数据,得到所述上网数据。
在上述方案中,所述分析所述上网数据,得到兴趣标签,包括:
对所述上网数据进行解析,得到上网解析内容;
根据预设标签生成模型,对所述上网解析内容进行处理,得到所述兴趣标签。
在上述方案中,所述预设时空特征模型包括预设时间特征模型和预设空间特征模型,所述根据预设时空特征模型,计算所述兴趣标签对应的标签属性信息,得到兴趣标签信息,包括:
基于所述预设时间特征模型,计算所述兴趣标签对应的时间属性信息;
基于所述预设空间特征模型,计算所述兴趣标签对应的空间属性信息;
其中,所述时间属性信息和所述空间属性信息构成所述标签属性信息,所述兴趣标签对应的标签名称和所述标签属性信息构成所述兴趣标签信息。
在上述方案中,所述基于所述预设时间特征模型,计算所述兴趣标签对应的时间属性信息,包括:
基于所述预设时间特征模型,计算所述兴趣标签对应的活跃时间覆盖度、活跃时间均衡度和活跃周期中的至少一种,得到所述时间属性信息。
在上述方案中,所述基于所述预设空间特征模型,计算所述兴趣标签对应的空间属性信息,包括:
基于网络设备,获取位置数据,所述位置数据表征为地理位置上的停留信息;
基于所述预设空间特征模型,对所述位置数据进行解析,得到所述空间属性信息,所述预设空间特征模型用于根据所述位置数据确定能够表征所述空间属性信息的兴趣区域。
在上述方案中,所述对所述上网数据进行解析,得到上网解析内容,包括:
利用预设解析模型,从广度和深度对所述上网数据进行解析,得到所述上网解析内容,所述预设解析模型包括用于对所述上网数据进行解析的域名库、访问代理库、IP端口库、路径域名库、爬虫解析规则和人工配置的识别规则中的至少一种。
在上述方案中,所述得到兴趣标签信息之后,所述方法还包括:
基于所述兴趣标签信息,进行推荐处理。
第二方面,本发明实施例提供了一种信息处理装置,所述信息处理装置包括:处理器、存储器和通信总线,所述存储器通过所述通信总线与所述处理器进行通信,所述存储器存储所述处理器可执行的程序,当所述程序被执行时,通过所述处理器执行如上述所述的信息处理方法。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现如上述所述的信息处理方法。
本发明实施例提供了一种信息处理方法及装置、存储介质,首先,获取上网数据,上网数据表征网络中的操作信息;其次,分析上网数据,得到兴趣标签;最后,根据预设时空特征模型,计算兴趣标签对应的标签属性信息,得到兴趣标签信息,预设时空特征模型用于确定兴趣标签在时间特征和空间特征上对应的时空特征信息。采用上述技术实现方案,由于兴趣标签信息是通过分析客户在网络中的操作信息而获得的,而客户在网络中的操作信息全面地覆盖了客户的网络活动轨迹,使得获得兴趣标签信息所依据的数据丰富,因此,提高了兴趣标签信息的覆盖度,从而能够完整描述客户信息;另外,由于从时间特征和空间特征上计算兴趣标签对应的标签属性信息,使得客户的兴趣标签信息在时间和空间上是动态变化的,从而提升了兴趣标签信息的动态适应性,同时,提高了兴趣标签信息的准确性。
附图说明
图1为本发明实施例提供的一种信息处理方法实现流程图;
图2为本发明实施例提供的一种示例性的解析上网数据的流程示意图;
图3为本发明实施例提供的一种互联网标签体系示意图;
图4为本发明实施例提供的一种示例性的信息处理方法流程示意图;
图5为本发明实施例提供的一种示例性的兴趣标签信息示意图;
图6为本发明实施例提供的一种信息处理装置的结构示意图一;
图7为本发明实施例提供的一种信息处理装置的结构示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例一
本发明实施例提供了一种信息处理方法,图1为本发明实施例提供的一种信息处理方法实现流程图,如图1所示,该信息处理方法包括:
S101、获取上网数据,上网数据表征网络中的操作信息。
在本发明实施例中,信息处理装置能够获取到用户在网络中的操作信息,即能够获取上网数据。也就是说,上网数据表征网络中的操作信息,比如,用户对APP(Application,应用程序)的操作。
需要说明的是,针对某一用户,信息处理装置获取该用户在网络中的操作信息,即获取了该用户对应的上网数据。比如,对于用户A,信息处理装置获取用户A在网络中的操作信息,从而获得用户A对应的上网数据。也就是说,本发明实施例中的上网数据是与用户标识一一对应的,即上网数据包含对应的用户标识,而用户标识用来表示用户唯一性信息。
具体地,在本发明实施例中,信息处理装置获取上网数据是基于上网日志和网络爬虫数据,得到上网数据的。
需要说明的是,用户上网时,会产生上网记录,该上网记录以上网日志的形式被存储在相应的存储空间中,当需要获取上网日志时直接从相应的存储空间中进行获取;而对于未被以上网日志存储的上网数据,通过网络爬虫技术获取,于是得到了网络爬虫数据;从而将获得的上网日志和网络爬虫数据作为上网数据。
可以理解的是,由于互联网的发展,用户的上网数据几乎成了用户的活动轨迹的数据性描述,通过获取上网数据,也就相当于获得了用户活动轨迹对应的数据信息,因此,上网数据能够准确描述用户的活动轨迹。
S102、分析上网数据,得到兴趣标签。
在本发明实施例中,信息处理装置在获得了上网数据之后,对上网数据进行分析,从而获得对应的兴趣标签。
需要说明的是,由于上网数据是与用户标识对应的,因此,根据上网数据得到的兴趣标签也是与用户标识对应的。比如,通过分析用户A的上网数据,从而获得用户A的兴趣标签;通过分析用户B的上网数据,从而获得用户B的兴趣标签。另外,兴趣标签是指将用户感兴趣的事物以标签的形式进行描述的方式。比如,爱好购物并且爱好美食的用户的兴趣标签为:购物和美食。
这里,兴趣标签至少包括兴趣标签对应的标签名称和兴趣标签对应的时间信息,其中,兴趣标签对应的时间信息为该兴趣标签的出现时间信息。
S103、根据预设时空特征模型,计算兴趣标签对应的标签属性信息,得到兴趣标签信息,预设时空特征模型用于确定兴趣标签在时间特征和空间特征上对应的时空特征信息。
在本发明实施例中,信息处理装置中预设设置有预设时空特征模型,该预设时空特征模型用于确定兴趣标签在时间特征和空间特征上对应的时空特征信息,将该时空特征信息作为兴趣标签对应的标签属性信息,即信息处理装置根据预设时空特征模型,计算兴趣标签对应的标签属性信息。
这里,由于得到了兴趣标签,兴趣标签中包括兴趣标签对应的标签名称,因此,再得到了兴趣标签对应的标签属性信息之后,该标签名称和该标签属性信息共同构成了兴趣标签信息。
需要说明的是,信息处理装置从时间特征和空间特征两方面计算兴趣标签对应的标签属性信息,所谓时间特征是指用户的兴趣标签对应的时间属性表现出的特征,而所谓空间特征是指用户的兴趣标签对应的位置属性表现出的特征。
在本发明实施例中,信息处理装置为执行信息处理方法所对应的装置,该信息处理装置可以作为终端或服务器中的一个功能模块存在,也可以作为独立的设备存在,本发明实施例对此不作具体限定。
示例性地,信息处理装置通过获取用户标识为A的上网日志和网络爬虫数据来得到上网数据,上网数据的数量为n条信息;通过分析该n条信息,获得对应的兴趣标签的标签名称和时间信息;再根据预设时空特征模型,确定兴趣标签的标签属性信息,从而就获得了用户标识A包含标签名称和标签属性信息的兴趣标签信息。
可以理解的是,由于本发明实施例提供的信息处理方法是基于上网数据和预设时空特征模型获取兴趣标签信息的过程,不局限于用户的某一类特定信息,提高了兴趣标签信息生成的信息覆盖度和准确率,提升了兴趣标签信息获取方法的适应性和普及度。
进一步地,在本发明实施例中,S102中信息处理装置分析上网数据,得到兴趣标签,具体包括S102a-S102b,其中:
S102a、对上网数据进行解析,得到上网解析内容。
在本发明实施例中,信息处理装置对获取到的上网数据进行解析,首先获得的是对应的上网解析内容。这里,上网解析内容表征为从上网数据中获得的按类型分类别后获得的数据信息,比如,用户标识对应的浏览过的APP、浏览过的网站等等。
在本发明实施例中,信息处理装置对上网数据进行解析,得到上网解析内容,具体包括:信息处理装置利用预设解析模型,从广度和深度对上网数据进行解析,得到上网解析内容。
需要说明的是,信息处理装置中预先设置有预设解析模型,该预设解析模型包括用于对上网数据进行解析的域名库、访问代理库、IP端口库、路径域名库、爬虫解析规则和人工配置的识别规则中的至少一种。这里,通过域名库和访问代理库从上网数据中识别访问APP和网站应用等信息;通过IP(Internet Protocol,网络之间互连的协议)端口库对IP和端口号识别应用的规则信息;通过路径域名库对部分URL内容识别应用的规则信息;同时,对未识别域名通过爬虫解析规则进行识别,对未识别UA(User Agent,用户代理)人工配置的识别规则进行识别;综上,获得了上网解析内容。
此外,本发明实施例中信息处理装置利用预设解析模型对上网数据进行解析时,作为一可行的实施例,可以先对上网数据进行广度解析,再对广度解析后的结果进行深度解析。这里,广度解析包括解析优先级,比如,广度解析优先级依次为:IP端口表、路径域名表、参数域名表、域名识别和UA识别。
在本发明实施例中,上网解析内容包括对APP点击的动作,比如,查看购物车、微信朋友圈等操作记录;同时也包括具体查看的内容,比如:具体小说、所听的音乐、微信的公众号等操作内容。
图2为本发明实施例提供的一种示例性的解析上网数据的流程示意图,如图2所示,上网数据包括上网日志和网络爬虫数据,信息处理装置根据预设解析模型对上网数据进行解析,具体是利用预设解析模型中的域名库、访问代理库、IP端口库、路径域名库、爬虫解析规则和人工配置的识别规则对上网数据进行解析,其中,经过域名库、访问代理库、IP端口库和路径域名库解析上网数据之后,还存在未识别域名和未识别UA,对于未识别域名通过爬虫解析规则进行解析,对于未识别UA通过人工配置的识别规则进行解析。最终,得到的上网解析内容存储在数据库中,该上网解析内容包括IP端口码表、路径域名码表、参数域名码表、域名码表、UA规则表、产品表和行为标签表。
S102b、根据预设标签生成模型,对上网解析内容进行处理,得到兴趣标签。
在本发明实施例中,信息处理装置中预先设置有预设标签生成模型,用于根据上网解析内容获得兴趣标签。因此,信息处理装置在获得上网解析内容之后,根据预设标签生成模型,对上网解析内容进行处理,得到兴趣标签。
需要说明的是,预设标签生成模型是基于数据内容层次结构和内部特征获得的一个完整的兴趣标签体系。比如,互联网标签体系即是一个预设标签生成模型,其中,图3为本发明实施例提供的一种互联网标签体系示意图,如图3所示,该互联网标签体系具有六个级别:一级标签、二级标签、三级标签、四级标签、五级标签、六级标签,对应的数量分别为:7、81、295、649、1667、2542。然而,在互联网标签体系中,存在部分标签无法细分到六级,比如,网站类可分到三级,应用类可分到二级。
在本发明实施例中,兴趣标签为预设标签生成模型中的部分或全部标签。
进一步地,在本发明实施例中,预设时空特征模型包括预设时间特征模型和预设空间特征模型,S103中信息处理装置根据预设时空特征模型,计算兴趣标签对应的标签属性信息,得到兴趣标签信息,具体包括S103a-S103b,其中:
S103a、基于预设时间特征模型,计算兴趣标签对应的时间属性信息。
在本发明实施例中,预设时间特征模型用于确定兴趣标签在时间特征上表现出的信息,信息处理装置基于预设时间特征模型,从而得到兴趣标签对应的时间属性信息。
具体地,信息处理装置基于预设时间特征模型,计算兴趣标签对应的时间属性信息,包括:信息处理装置基于预设时间特征模型,计算兴趣标签对应的活跃时间覆盖度、活跃时间均衡度和活跃周期中的至少一种,得到时间属性信息。
需要说明的是,预设时间特征模型用于计算兴趣标签对应的活跃时间覆盖度、活跃时间均衡度和活跃周期中的至少一种,在得到兴趣标签对应的活跃时间覆盖度、活跃时间均衡度和活跃周期中的至少一种之后,经过组合、再计算等处理,获得时间属性信息。具体在获得活跃时间覆盖度、活跃时间均衡度和活跃周期中的至少一种的过程中,所依据的数据为兴趣标签中的时间信息。
这里,活跃时间覆盖度(ATC,Active Time Coverage)表征为某个兴趣标签与用户标识u关联上的天数占标签周期(获取兴趣标签信息的时间区间)的比重,那么,用户标识u的某个兴趣标签t在标签周期上的活跃时间覆盖度ATC<u,t>,通过公式(1)计算获得,公式(1)为:
其中,D<u,t>表征为用户标识u对某个兴趣标签t的活跃天数,End-Start表征为标签周期(获取兴趣标签信息的截止时间减去开始时间)。
可以理解的是,ATC<u,t>活跃时间覆盖度越趋近于1,表示用户标识u对应的用户几乎每天都访问该兴趣标签t,表示该兴趣标签t为用户标识u对应的用户的感兴趣标签;相应地,ATC<u,t>活跃时间覆盖度越趋近于0,表示用户标识u对应的用户几乎不访问或者只在极个别时间访问该兴趣标签t,即便访问该兴趣标签的总次数较大,也表明该兴趣标签t也不为该用户标识u对应的用户的感兴趣标签。也就是说,如果某个兴趣标签的活跃时间覆盖度高,也就是表明某用户与此兴趣标签为强关联,用户在标签周期内对该兴趣标签的兴趣度强;如果兴趣标签的活跃时间覆盖度低,也就表明某用户与此兴趣标签为弱关联,用户在标签周期内对该兴趣标签的兴趣度较弱。同时,兴趣标签的活跃时间覆盖度可以用于特定时段全网热点分析,比如,对某标签全网大部分用户具有较高的活跃时间覆盖度,表明该标签在某时段内同时被多个用户经常访问,即该标签为此部分用户的活跃兴趣标签,也就是反映出某个时间点的全网热点为该标签。
活跃时间均衡度(ATH,Active Time Homogenized)为某个兴趣标签出现的周期间隔的标准差,表征了用户标识u在标签周期内对该兴趣标签的兴趣程度;那么,用户标识u的某个兴趣标签t的活跃时间均衡度ATH<u,t>通过公式(2)计算获得,公式(2)为:
其中,用户标识u的某个兴趣标签t的出现次数为k次,用户标识u每次出现该兴趣标签t的时间与下一次出现该兴趣标签t的间隔天数分别为d1,d2,d3,…,dk天,其中,dk表征为用户标识u最后出现兴趣标签t的时间与标签周期的截止时间之间的间隔天数。
可以理解的是,用户标识的某个兴趣标签的活跃时间均衡度的值越大,表示该兴趣标签在标签周期内分布越不均匀,即表明着用户标识对应的用户对该兴趣标签在标签周期中的近期的兴趣度明显;相应地,活跃时间均衡度值越小,表示该兴趣标签在标签周期内分布越均匀,表明用户标识对应的用户对该兴趣标签为长期兴趣标签,而不是近期兴趣标签。因此,ATH可以用来度量用户标识对应的用户对某个兴趣标签的近期兴趣程度,进而能够利用ATH匹配相关营销活动做精准营销。
活跃周期(AC,Active Cycle)表征为出现某个兴趣标签的规律,即用户标识对应的用户来说出现某个兴趣标签的平均周期;那么,用户标识u的某个兴趣标签t的活跃周期AC<u,t>通过公式(3)计算获得,公式(3)为:
其中,当用户标识u每次出现该兴趣标签t的时间与下一次出现兴趣标签t的间隔天数分别为d1,d2,d3,…,dk天,Sk为间隔天数的集合,D<u,t>为间隔天数集合出现次数最多间隔天数为D天,freq(D,Sk)为间隔天数D在用户标识u对应的用户的某个兴趣标签t的间隔天数集合Sk的出现次数,|Sk|为集合Sk的大小,β为根据不同兴趣标签有效性等级调整系数,freq(D,Sk)≤β*|Sk|则表征用户标识u对应的用户对于该兴趣标签不具有活跃周期,即不具有规律性。
活跃时间偏离度(ATD,Active Time Deviation)表征为用户标识u对应用户的某个兴趣标签的出现均衡程度,是将ATH<u,t>规格化[0,1]的结果,用于衡量用户标识u对应的用户近期对某个兴趣标签的兴趣度,那么,用户标识u对应的用户的兴趣标签t的活跃时间均衡度ATD<u,t>通过公式(4)计算获得,公式(4)为:
其中,ATHmin为用户标识u在整个周期(包含至少一个标签周期)上出现某个兴趣标签t的活跃时间均衡度的最小值,ATHmax为用户标识u在整个周期上出现某个兴趣标签t的活跃时间均衡度的最大值。
活跃时间有效度(ATV,Active Time Validity)用于衡量某个兴趣标签的活跃时间有效性,基于ATC和ATD获得,那么,用户标识u的某个兴趣标签t的活跃时间均衡度ATV<u,t>通过公式(5)计算获得,公式(5)为:
ATV<u,t>=ATC<u,t>-ATD<u,t> (5)
活跃时间有效度是解决用户的两个兴趣标签的活跃时间覆盖率一致,并不能说明用户对这两个兴趣标签的用户为强关联关系;以及,如果这两个标签的活跃时间偏离度相同,并不能说明用户对这两个兴趣标签的近期兴趣是一致的两个问题的。此外,由于活跃时间覆盖度取值区间为[0,1],活跃时间偏离度取值区间为[0,1],因此活跃时间有效度取值区间为[-1,1]。当用户标识u的某个兴趣标签的活跃时间有效度为1时,即用户标识u的覆盖度较大,活跃时间偏离度较小,说明用户标识u与兴趣标签为强关联关系,而用户标识u近期对该兴趣标签的兴趣较低;当兴趣标签的活跃时间有效度为-1时,即用户标识u覆盖度较小,活跃时间偏离度较大,说明用户标识u与兴趣标签为弱关联关系,而用户标识u近期对该兴趣标签的兴趣较高。
S103b、基于预设空间特征模型,计算兴趣标签对应的空间属性信息。
在本发明实施例中,信息处理装置基于预设空间特征模型,计算兴趣标签对应的空间属性信息,具体包括:信息处理装置基于网络设备,获取位置数据,位置数据表征为地理位置上的停留信息;并基于预设空间特征模型,对位置数据进行解析,得到空间属性信息。这里,预设空间特征模型用于根据位置数据确定能够表征空间属性信息的兴趣区域,而兴趣区域进一步可通过包含各种主题(比如,美食、购物、休息、医疗、运动、娱乐、景点和交通等)的向量构成。
需要说明的是,空间属性信息为兴趣标签对应的位置属性信息,因此,在确定兴趣标签对应的空间属性信息之前,需先获得兴趣标签对应的位置数据(地理位置上的停留信息),其中,位置数据与兴趣标签的关联通过用户标识和时间信息进行关联。具体获得空间属性信息的过程为:信息处理装置基于预设空间特征模型得到空间属性信息时,首先,基于预设空间特征模型确定停留时间、采集点之间的距离、在停留区域内的平均速度、单位距离内的停留率、速度改变、角度转换率等的方式,来分析位置数据,再基于分析结果进行聚类,从而得到兴趣区域,进而该兴趣区域即为空间属性信息。
需要说明的是,S103a和S103b在执行上不区分先后顺序。
其中,时间属性信息和空间属性信息构成标签属性信息,兴趣标签对应的标签名称和标签属性信息构成兴趣标签信息。
图4为本发明实施例提供的一种示例性的信息处理方法流程示意图,如图5所示,信息处理方法流程开始,获取上网数据,分析上网数据获得兴趣标签以及对应的时间属性信息,获取关联的位置数据,分析位置数据兴趣标签对应的空间属性信息,得到兴趣标签信息,该兴趣标签信息包括兴趣标签对应的标签名称、时间属性信息和空间属性信息。
图5为本发明实施例提供的一种示例性的兴趣标签信息示意图,如图5所示,某用户标识u对应的用户的兴趣标签信息包括标签名称和标签属性值,其中标签名称为用户标签1、用户标签2、……、用户标签n,对应的标签属性信息均包括时间属性信息和空间属性信息,其中,时间属性信息通过活跃时间覆盖度、活跃时间均衡度、活跃时间偏离度、活跃时间有效度、活跃周期体现,空间属性信息通过兴趣区域体现。
进一步地,在本发明实施例中,信息处理装置在得到兴趣标签信息之后,信息处理方法还包括:信息处理装置基于兴趣标签信息,进行推荐处理。
需要说明的是,由于兴趣标签信息中表征了用户对兴趣标签的兴趣程度信息,因此,可以基于用于兴趣程度大的兴趣标签,进行相关联的推荐处理。
在本发明实施例中,信息处理装置基于兴趣标签信息,除了进行推荐处理之外,还可以进行用户的相似性计算。
具体地,由于空间属性信息即是兴趣区域,首先,通过地图应用程序接口对兴趣区域的主题进行标注,从而对各个兴趣区域的主题进行统计,这里,主题是对用户日程生活场所类别的划分结果,比如主题具体包括美食、购物、休息、医疗、运动、娱乐、景点和交通等。然后,基于统计结果进行兴趣标签信息的应用,具体地,进行该应用时需计算用户访问兴趣区域频度、用户访问兴趣区域主题概率和兴趣向量。
需要说明的是,用户访问兴趣区域频度(ULF,User Location Frequency)通过公式(6)计算得到,公式(6)为:
其中,|U|代表访问过兴趣区域j的用户量,N代表用户总量。
可以理解的是,利用用户访问兴趣区域频度计算用户的相似性,用户访问某兴趣区域的人数越多,则该兴趣区域对计算用户相似性的支持度越小,相反若访问该兴趣区域的人越少则该兴趣区域对计算用户相似性的支持度则越大。
进一步地,在得到ULF之后,用户访问兴趣区域主题概率(ULTP,User LocationTheme probability)是用概率的形式标识用户访问某一兴趣区域内各主题的可能性。通过公式(7)计算得到,公式(7)为:
其中,Pi j代表用户在兴趣区域j内访问i类主题的概率,ni代表兴趣区域j内i类主题的数量,∑nk代表兴趣区域j内所有主题的数量和,α为弱化系数(α<1,利用对用户已知信息程度的认知度,进行α参数调整)。
可以理解的是,用户访问该兴趣区域主题概率越大,则对应用户对该主题的兴趣度越大;相反用户访问该兴趣区域主题概率越小,则对应用户对该主题的兴趣度越小。
进一步地,在得到ULTP之后,基于所有的兴趣区域确定出的ULTP,获得用户兴趣向量Vu,具体如公式(8)所示,
Vu=<De,Sh,…,En,Sc> (8)
其中,Vu中的每一个元组待代表用户对每一个主题的兴趣程度标签,其中,De,Sh,…,En,Sc表征为美食、购物、…、娱乐、景点以及分别对应的ULTP。
可以理解的是,通过获取用户兴趣向量,可以涵盖现实世界中与人们生活密切相关的绝大部分主题,也就可以映射出人们日常生活中具有代表性的大多数行为,客观反映用户的兴趣爱好特征。
需要说明的是,经过信息处理方法获得的兴趣标签信息为标签周期内的信息。也就是说,上网数据的获取是获取的标签周期内的网络中的操作信息,位置数据的获取也是获取的标签周期内的地理位置上的停留信息。
可以理解的是,由于兴趣标签信息是通过分析客户在网络中的操作信息而获得的,而客户在网络中的操作信息全面地覆盖了客户的网络活动轨迹,使得获得兴趣标签信息所依据的数据丰富,因此,提高了兴趣标签信息的覆盖度,从而能够完整描述客户信息;另外,由于从时间特征和空间特征上计算兴趣标签对应的标签属性信息,使得客户的兴趣标签信息在时间和空间上是动态变化的,从而提升了兴趣标签信息的动态适应性,同时,提高了兴趣标签信息的准确性。
实施例二
基于与实施例一同一发明构思,本发明实施例提供了一种信息处理装置1,对应于一种信息处理方法,图6为本发明实施例提供的一种信息处理装置的结构示意图一,如图6所示,该信息处理装置1包括:
获取单元10,用于获取上网数据,所述上网数据表征网络中的操作信息;
分析单元11,用于分析所述上网数据,得到兴趣标签;
计算单元12,用于根据预设时空特征模型,计算所述兴趣标签对应的标签属性信息,得到兴趣标签信息,所述预设时空特征模型用于确定所述兴趣标签在时间特征和空间特征上对应的时空特征信息。
进一步地,所述获取单元10,具体用于基于上网日志和网络爬虫数据,得到所述上网数据。
进一步地,所述分析单元11,具体用于对所述上网数据进行解析,得到上网解析内容;以及根据预设标签生成模型,对所述上网解析内容进行处理,得到所述兴趣标签。
进一步地,所述预设时空特征模型包括预设时间特征模型和预设空间特征模型,所述根据预设时空特征模型,计算所述兴趣标签对应的标签属性信息,得到兴趣标签信息,所述分析单元11,具体用于基于所述预设时间特征模型,计算所述兴趣标签对应的时间属性信息;基于所述预设空间特征模型,计算所述兴趣标签对应的空间属性信息;其中,所述时间属性信息和所述空间属性信息构成所述标签属性信息,所述兴趣标签对应的标签名称和所述标签属性信息构成所述兴趣标签信息。
进一步地,所述分析单元11,具体用于基于所述预设时间特征模型,计算所述兴趣标签对应的活跃时间覆盖度、活跃时间均衡度和活跃周期中的至少一种,得到所述时间属性信息。
进一步地,所述分析单元11,具体用于基于网络设备,获取位置数据,所述位置数据表征为地理位置上的停留信息;以及基于所述预设空间特征模型,对所述位置数据进行解析,得到所述空间属性信息,所述预设空间特征模型用于根据所述位置数据确定能够表征所述空间属性信息的兴趣区域。
进一步地,所述分析单元11,具体用于利用预设解析模型,从广度和深度对所述上网数据进行解析,得到所述上网解析内容,所述预设解析模型包括用于对所述上网数据进行解析的域名库、访问代理库、IP端口库、路径域名库、爬虫解析规则和人工配置的识别规则中的至少一种。
进一步地,所述信息处理装置1还包括推荐单元13,所述推荐单元13,用于基于所述兴趣标签信息,进行推荐处理。
需要说明的是,在实际应用中,上述获取单元10、分析单元11、计算单元12和推荐单元13可由位于信息处理装置1上的处理器14实现,具体为CPU(Central ProcessingUnit,中央处理器)、MPU(Microprocessor Unit,微处理器)、DSP(Digital SignalProcessing,数字信号处理器)或现场可编程门阵列(FPGA,Field Programmable GateArray)等实现。
本发明实施例还提供了一种信息处理装置1,如图7所示,所述信息处理装置1包括:处理器14、存储器15和通信总线16,所述存储器15通过所述通信总线16与所述处理器14进行通信,所述存储器15存储所述处理器14可执行的程序,当所述程序被执行时,通过所述处理器14执行如实施例一所述的信息处理方法。
本发明实施例提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器14执行时实现如实施例一所述的信息处理方法。
可以理解的是,由于兴趣标签信息是通过分析客户在网络中的操作信息而获得的,而客户在网络中的操作信息全面地覆盖了客户的网络活动轨迹,使得获得兴趣标签信息所依据的数据丰富,因此,提高了兴趣标签信息的覆盖度,从而能够完整描述客户信息;另外,由于从时间特征和空间特征上计算兴趣标签对应的标签属性信息,使得客户的兴趣标签信息在时间和空间上是动态变化的,从而提升了兴趣标签信息的动态适应性,同时,提高了兴趣标签信息的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (10)
1.一种信息处理方法,其特征在于,所述方法包括:
获取上网数据,所述上网数据表征网络中的操作信息;
分析所述上网数据,得到兴趣标签;
根据预设时空特征模型,计算所述兴趣标签对应的标签属性信息,得到兴趣标签信息,所述预设时空特征模型用于确定所述兴趣标签在时间特征和空间特征上对应的时空特征信息。
2.根据权利要求1所述的方法,其特征在于,所述获取上网数据,包括:
基于上网日志和网络爬虫数据,得到所述上网数据。
3.根据权利要求1所述的方法,其特征在于,所述分析所述上网数据,得到兴趣标签,包括:
对所述上网数据进行解析,得到上网解析内容;
根据预设标签生成模型,对所述上网解析内容进行处理,得到所述兴趣标签。
4.根据权利要求1所述的方法,其特征在于,所述预设时空特征模型包括预设时间特征模型和预设空间特征模型,所述根据预设时空特征模型,计算所述兴趣标签对应的标签属性信息,得到兴趣标签信息,包括:
基于所述预设时间特征模型,计算所述兴趣标签对应的时间属性信息;
基于所述预设空间特征模型,计算所述兴趣标签对应的空间属性信息;
其中,所述时间属性信息和所述空间属性信息构成所述标签属性信息,所述兴趣标签对应的标签名称和所述标签属性信息构成所述兴趣标签信息。
5.根据权利要求4所述的方法,其特征在于,所述基于所述预设时间特征模型,计算所述兴趣标签对应的时间属性信息,包括:
基于所述预设时间特征模型,计算所述兴趣标签对应的活跃时间覆盖度、活跃时间均衡度和活跃周期中的至少一种,得到所述时间属性信息。
6.根据权利要求4所述的方法,其特征在于,所述基于所述预设空间特征模型,计算所述兴趣标签对应的空间属性信息,包括:
基于网络设备,获取位置数据,所述位置数据表征为地理位置上的停留信息;
基于所述预设空间特征模型,对所述位置数据进行解析,得到所述空间属性信息,所述预设空间特征模型用于根据所述位置数据确定能够表征所述空间属性信息的兴趣区域。
7.根据权利要求3所述的方法,其特征在于,所述对所述上网数据进行解析,得到上网解析内容,包括:
利用预设解析模型,从广度和深度对所述上网数据进行解析,得到所述上网解析内容,所述预设解析模型包括用于对所述上网数据进行解析的域名库、访问代理库、IP端口库、路径域名库、爬虫解析规则和人工配置的识别规则中的至少一种。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述得到兴趣标签信息之后,所述方法还包括:
基于所述兴趣标签信息,进行推荐处理。
9.一种信息处理装置,其特征在于,所述信息处理装置包括:处理器、存储器和通信总线,所述存储器通过所述通信总线与所述处理器进行通信,所述存储器存储所述处理器可执行的程序,当所述程序被执行时,通过所述处理器执行如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811362470.7A CN111191109A (zh) | 2018-11-15 | 2018-11-15 | 一种信息处理方法及装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811362470.7A CN111191109A (zh) | 2018-11-15 | 2018-11-15 | 一种信息处理方法及装置、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111191109A true CN111191109A (zh) | 2020-05-22 |
Family
ID=70707085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811362470.7A Pending CN111191109A (zh) | 2018-11-15 | 2018-11-15 | 一种信息处理方法及装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191109A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990323A (zh) * | 2021-03-23 | 2021-06-18 | 李光伟 | 基于大数据线上模式的用户画像挖掘方法及机器学习系统 |
CN117932175A (zh) * | 2024-03-18 | 2024-04-26 | 广州番禺职业技术学院 | 数据解析方法、设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090276377A1 (en) * | 2008-04-30 | 2009-11-05 | Cisco Technology, Inc. | Network data mining to determine user interest |
CN106649347A (zh) * | 2015-10-30 | 2017-05-10 | 北京国双科技有限公司 | 一种兴趣信息的识别方法及装置 |
CN107291755A (zh) * | 2016-04-01 | 2017-10-24 | 中国移动通信有限公司研究院 | 一种终端推送方法及装置 |
-
2018
- 2018-11-15 CN CN201811362470.7A patent/CN111191109A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090276377A1 (en) * | 2008-04-30 | 2009-11-05 | Cisco Technology, Inc. | Network data mining to determine user interest |
CN106649347A (zh) * | 2015-10-30 | 2017-05-10 | 北京国双科技有限公司 | 一种兴趣信息的识别方法及装置 |
CN107291755A (zh) * | 2016-04-01 | 2017-10-24 | 中国移动通信有限公司研究院 | 一种终端推送方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990323A (zh) * | 2021-03-23 | 2021-06-18 | 李光伟 | 基于大数据线上模式的用户画像挖掘方法及机器学习系统 |
CN117932175A (zh) * | 2024-03-18 | 2024-04-26 | 广州番禺职业技术学院 | 数据解析方法、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10455363B2 (en) | Systems and methods for using geo-blocks and geo-fences to discover lookalike mobile devices | |
CN106570722B (zh) | 一种智能推荐系统及智能推荐方法 | |
CN113473187B (zh) | 广告投放的跨屏优化 | |
US10162891B2 (en) | Determining demographics based on user interaction | |
CN105532030B (zh) | 用于分析目标实体的移动的装置、系统和方法 | |
US10163130B2 (en) | Methods and apparatus for identifying a cookie-less user | |
TW201740295A (zh) | 確定用戶行為偏好的方法、推薦資訊的展示方法和裝置 | |
CN107515915B (zh) | 基于用户行为数据的用户标识关联方法 | |
US9015128B2 (en) | Method and system for measuring social influence and receptivity of users | |
CN108960975A (zh) | 基于用户画像的个性化精准营销方法、服务器及存储介质 | |
CN107426328B (zh) | 信息推送方法和装置 | |
CA2931106C (en) | Methods and apparatus to measure a cross device audience | |
JP6767952B2 (ja) | 推定装置、推定方法および推定プログラム | |
JP2021500659A (ja) | 自動化されたアトリビューションモデリングおよび測定 | |
CN111626767B (zh) | 资源数据的发放方法、装置及设备 | |
CN106228391A (zh) | 广告监测的方法及系统 | |
KR20190097879A (ko) | 마케팅 플랫폼 시스템과, 이를 이용한 소셜 네트워크 기반 광고 방법 및 컴퓨터 프로그램 | |
Huang et al. | Interest-driven outdoor advertising display location selection using mobile phone data | |
Smith | Metrics, locations, and lift: Mobile location analytics and the production of second-order geodemographics | |
US11887161B2 (en) | Systems and methods for delivering content to mobile devices | |
CN111191109A (zh) | 一种信息处理方法及装置、存储介质 | |
CN114065051A (zh) | 私域平台视频推荐方法、装置、电子设备和介质 | |
CN109829593B (zh) | 目标对象的信用度确定方法、装置、存储介质及电子装置 | |
WO2018160092A1 (ru) | Способ построения портрета клиента | |
KR20200128222A (ko) | 인공지능을 이용한 성과 기반 콘텐츠 스타일 추천방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200522 |