CN108875084B - 项目声量排序方法、装置、电子设备、存储介质 - Google Patents

项目声量排序方法、装置、电子设备、存储介质 Download PDF

Info

Publication number
CN108875084B
CN108875084B CN201810787720.5A CN201810787720A CN108875084B CN 108875084 B CN108875084 B CN 108875084B CN 201810787720 A CN201810787720 A CN 201810787720A CN 108875084 B CN108875084 B CN 108875084B
Authority
CN
China
Prior art keywords
item
behavior log
log data
project
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810787720.5A
Other languages
English (en)
Other versions
CN108875084A (zh
Inventor
张茂洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jingshu Information Technology Co ltd
Original Assignee
Shanghai Jingshu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jingshu Information Technology Co ltd filed Critical Shanghai Jingshu Information Technology Co ltd
Priority to CN201810787720.5A priority Critical patent/CN108875084B/zh
Publication of CN108875084A publication Critical patent/CN108875084A/zh
Application granted granted Critical
Publication of CN108875084B publication Critical patent/CN108875084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种同源样本的项目声量排序方法、装置、电子设备、存储介质。方法包括:获取一段时间内多个路由器的行为日志数据;根据所述行为日志数据筛选路由器和行为日志数据;对各行为日志数据设置项目标注;对各行为日志数据设置设备标识;至少根据项目ID对关联同一设备的行为日志数据进行聚合计数作为该设备对该项目ID的准项目声量;判断各设备对各项目ID的准项目声量是否大于所述项目声量阈值;若是,则使该设备对该项目ID的项目声量为项目声量阈值;若否,则使该设备对该项目ID的项目声量为准项目声量;对各项目ID,按项目声量对各设备进行排序,并以图形化显示排序结果。本发明提供的方法及设备实现跨终端类型建立同源样本。

Description

项目声量排序方法、装置、电子设备、存储介质
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种项目声量排序方法、装置、电子设备、存储介质。
背景技术
传统的用户研究一直存在几个不足:
一方面,传统研究采用主动调研问卷的方式,样本招募、留存、维护困难,并且受访样本受当时主观感受或记忆的影响,调研结果有一定的偏差。
另一方面,样本行为触点的覆盖有限,跨平台同源打通困难。在早期互联网环境中设备单一,主要集中在电脑端时是可行的,但是当前移动互联网、智能家居、互联网电视等设备越来越普及的情况下,用户的行为习惯被不同的设备终端所分拆,用户在不同的终端上出现不同的行为特征,旧的基于一台终端设备代表一个研究对象的分析方法明显不再适用于当前的环境。
基于传统用户研究的不足,目前急需一种可以客观分析用户行为、跨终端类型建立同源样本并且可以持续观测样本行为特征的样本库项目来满足在当前环境下的用户研究需求。
发明内容
本发明为了克服上述现有技术存在的缺陷,提供一种同源样本的项目声量排序方法、装置、电子设备、存储介质,以客观分析用户行为、跨终端类型建立同源样本并且可以持续观测样本行为特征的样本库项目来满足在当前环境下的用户研究需求。
根据本发明的一个方面,提供一种同源样本的项目声量排序方法,包括:
获取一段时间内多个路由器的行为日志数据;
根据所述行为日志数据筛选路由器,将与所述路由器连接的设备活跃参数符合预定阈值的路由器加入样本库;
提取关联所述样本库中的路由器的行为日志数据中的URL,将包含有效URL的行为日志数据加入行为日志数据库;
对各行为日志数据设置项目标注,所述项目标注为行为日志数据库中各行为日志数据的所包含的URL涉及项目数据,所述项目标注至少包括项目ID;
对各行为日志数据设置设备标注,所述设备标注至少包括设备标识,所述设备标识用于标识与所述样本库中的路由器连接的设备;
至少根据项目ID对关联同一设备的行为日志数据进行聚合计数作为该设备对该项目ID的准项目声量;
计算一项目声量阈值,所述项目声量阈值mode=med+2std,其中,med为各设备对各项目ID的准项目声量的中位数,std为各设备对各项目ID的准项目声量的标准差;
判断各设备对各项目ID的准项目声量是否大于所述项目声量阈值;
若是,则使该设备对该项目ID的项目声量为项目声量阈值;
若否,则使该设备对该项目ID的项目声量为准项目声量;
对各项目ID,按项目声量对各设备进行排序,并以图形化显示排序结果。
可选地,将与所述路由器连接的设备活跃参数符合预定阈值的路由器加入样本库包括:
将与所述路由器连接的设备数量小于15台,与所述路由器连接的设备的网络请求总数量大于50次每天,且与所述路由器连接的设备每周至少三次在线的路由器加入样本库。
可选地,所述提取关联所述样本库中的路由器的行为日志数据中的URL,将包含有效URL的行为日志数据加入行为日志数据库包括:
判断所述URL是否为动态URL;
若是,则提取URL中的参数变量并根据一参数变量字典获取关联参数变量的项目数据;
若否,则判断URL的域名是否为ip地址;
若是,则指示该URL无效;
若否,则提取URL中的静态后缀名并根据一静态后缀名字典获取关联参数变量的项目数据。
可选地,所述项目数据还包括站点名称、站点公司信息、项目名称、涉及行业、搜索关键词中的一项或多项。
可选地,对各行为日志数据设置项目标注之后还包括:
根据站点公司信息、涉及行业、搜索关键词中的一项或多项对关联同一设备的行为日志数据进行聚合计数,并以图形化显示计数结果。
可选地,所述设备标注还包括设备系统、设备类型、设备型号中的一项或多项,所述设备标注根据行为日志数据中的URL参数变量和/或用户代理获得;
对各项目ID,根据设备系统、设备类型、设备型号中的一项或多项对行为日志数据进行聚合计数,并以图形化显示计数结果。
可选地,所述对各行为日志数据设置项目标注之后还包括:
对各行为日志数据设置项目标注用户信息,所述用户信息包括账户ID和/或用户位置,所述账户ID根据行为日志数据中的URL参数变量获得,所述用户位置根据行为日志数据中的请求IP地址获得;
对各账户ID,根据各项目ID的行为日志数据进行聚合计数,并以图形化显示计数结果;
对各项目ID,对各用户位置的行为日志数据进行聚合计数,并以图形化显示计数结果。
可选地,所述对各行为日志数据设置项目标注之后还包括:
至少根据项目ID对关联同一路由器的行为日志数据进行聚合计数,并以图形化显示计数结果。
根据本发明的又一方面,还提供一种同源样本的项目声量排序装置,包括:
获取模块,用于获取一段时间内多个路由器的行为日志数据,每个路由器为一样本源;
第一筛选模块,用于根据所述行为日志数据筛选路由器,将与所述路由器连接的设备活跃参数符合预定阈值的路由器加入样本库;
第二筛选模块,用于提取关联所述样本库中的路由器的行为日志数据中的URL,将包含有效URL的行为日志数据加入行为日志数据库;
第一标注模块,用于对各行为日志数据设置项目标注,所述项目标注为行为日志数据库中各行为日志数据的所包含的URL涉及项目数据,所述项目标注至少包括项目ID;
第二标注模块,用于对各行为日志数据设置设备标注,所述设备标注至少包括设备标识,所述设备标识用于标识与所述样本库中的路由器连接的设备;
聚合模块,用于至少根据项目ID对关联同一设备的行为日志数据进行聚合计数作为该设备对该项目ID的准项目声量;
计算模块,用于计算一项目声量阈值,所述项目声量阈值mode=med+2std,其中,med为各设备对各项目ID的准项目声量的中位数,std为各设备对各项目ID的准项目声量的标准差;
判断模块,用于判断各设备对各项目ID的准项目声量是否大于所述项目声量阈值;
确定模块,若判断模块判断为是,则所述确定模块使该设备对该项目ID的项目声量为项目声量阈值;若判断模块判断为否,则所述确定模块使该设备对该项目ID的项目声量为准项目声量;
排序模块,用于对各项目ID,按项目声量对各设备进行排序,并以图形化显示排序结果。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
相比现有技术,本发明具有如下优势:
1)对路由器将利用不同设备通过同一路由发出网络请求的同一用户的行为日志数据进行分析实现跨终端类型建立同源样本。
2)通过路由器筛选保留具有活跃度的家庭路由器以大概率保证样本同源性。
3)通过行为日志数据的URL进行项目标注,简单便捷,同时利于后序的行为日志数据的聚合计数。
4)通过修正算法防止作弊设备,提高项目声量的准确性,由此,可根据排序结果准确分析同源样本的用户行为及用户需求。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的同源样本的项目声量排序方法的流程图。
图2示出了根据本发明实施例的家庭路由的示意图。
图3示出了根据本发明实施例的筛选路由器的流程图。
图4示出了根据本发明实施例的清洗行为日志数据的流程图。
图5示出了根据本发明实施例的行为日志数据标注的示意图。
图6示出了根据本发明实施例的同源样本的项目声量排序装置的示意图。
图7示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
图8示意性示出本公开示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
下面结合附图描述本发明提供的各个实施例。
首先参见图1,图1示出了根据本发明实施例的同源样本的项目声量排序方法的流程图。图1共示出10个步骤:
步骤S101:获取一段时间内多个路由器的行为日志数据,每个路由器为一样本源;
步骤S102:根据所述行为日志数据筛选路由器,将与所述路由器连接的设备活跃参数符合预定阈值的路由器加入样本库;
步骤S103:提取关联所述样本库中的路由器的行为日志数据中的URL,将包含有效URL的行为日志数据加入行为日志数据库;
步骤S104:对各行为日志数据设置项目标注,所述项目标注为行为日志数据库中各行为日志数据的所包含的URL涉及项目数据,所述项目标注至少包括项目ID;
步骤S105:对各行为日志数据设置设备标注,所述设备标注至少包括设备标识,所述设备标识用于标识与所述样本库中的路由器连接的设备
步骤S106:至少根据项目ID对关联同一设备的行为日志数据进行聚合计数作为该设备对该项目ID的准项目声量;
步骤S107:计算一项目声量阈值,所述项目声量阈值mode=med+2std,其中,med为各设备对各项目ID的准项目声量的中位数,std为各设备对各项目ID的准项目声量的标准差;
步骤S108:判断各设备对各项目ID的准项目声量是否大于所述项目声量阈值;
若步骤S108判断为是,则执行步骤S109使该设备对该项目ID的项目声量为项目声量阈值;
若步骤S108判断为否,则执行步骤S110使该设备对该项目ID的项目声量为准项目声量;
步骤S111,对各项目ID,按项目声量对各设备进行排序,并以图形化显示排序结果。
由此,本发明提供同源样本的项目声量排序方法,一方面,对路由器将利用不同设备通过同一路由发出网络请求的同一用户的行为日志数据进行分析实现跨终端类型建立同源样本;另一方面,通过路由器筛选保留具有活跃度的家庭路由器以大概率保证样本同源性;再一方面,通过行为日志数据的URL进行项目标注,简单便捷,同时利于后序的行为日志数据的聚合计数;又一方面,通过修正算法防止作弊设备,提高项目声量的准确性,由此,可根据排序结果准确分析同源样本的用户行为及用户需求。
具体而言,如图2所示,同一用户会操作电脑110、手机130及互联网电视120等电子设备进行上网购物等。但根据现有技术,当用户利用游客身份或不同的账号登录不同的设备时,就无法将电脑110、手机130及互联网电视120识别为同一用户的操作,进而无法准确的反应同一用户的行为。
本发明上述方法,将通过同一路由器进140行网络连接的多个设备识别为同源样本(同一用户),由此实现跨终端类型建立同源样本,进而可以跨终端实现用户行为的准确记录和分析。
具体而言,所述步骤S102根据所述行为日志数据筛选路由器,将与所述路由器连接的设备活跃参数符合预定阈值的路由器加入样本库包括如下步骤:
将与所述路由器连接的设备数量小于15台,与所述路由器连接的设备的网络请求总数量大于50次每天,且与所述路由器连接的设备每周至少三次在线的路由器加入样本库。由此,可保留具有活跃度的家庭路由器,以便更准确地获得后序的聚合数据。
进一步地,在本发明的一个具体实施例中,步骤S102可以按如图3所示的方式进行,图3示出了根据本发明实施例的筛选路由器的流程图。
首先在步骤S201将路由器的行为日志输入筛选路由器的流程。
步骤S202,判断路由器是否存在于稳定样本库内。
若步骤S202判断为否,则执行步骤S203,将该非稳定路由器的行为日志数据暂存(可选地,仅暂存两周)。
步骤S204,按固定周期(例如一周),将根据暂存的非稳定路由器的更新行为日志数据,判断非稳定路由器是否当前稳定(例如符合前述的活跃度阈值)。
若步骤S204判断为否,则该非稳定路由器任暂存,当超过预定时间(例如两周,与步骤S203中的暂存时间对应),该非稳定路由器仍非稳定,则执行步骤S207删除该非稳定路由器及其行为日志数据。
若步骤S204判断为是,则将该暂存的非稳定路由器加入稳定样本库中,并继续执行步骤S206。该步骤S206也为上述步骤S202判断为是时的后序步骤。
步骤S206,判断路由器是否在常驻样本库中。
若步骤S206判断为是,则继续执行图1所示步骤S103。
若步骤S206判断为否,则执行步骤S208,将非常驻路由器及其行为日志数据暂存(可选地,仅暂存两周)。
步骤S209,按固定周期(例如一周),将根据暂存的非常驻路由器的更新行为日志数据,判断非常驻路由器是否当前稳定(例如符合前述的活跃度阈值)。
若步骤S209判断为否,则该非常驻路由器任暂存,当超过预定时间(例如两周,与步骤S206中的暂存时间对应),该非常驻路由器仍非稳定,则执行步骤S207删除该非常驻路由器及其行为日志数据。
若步骤S209判断为是,则将该非常驻路由器加入常驻样本库中,并继续执行图1所示步骤S103。
由此,上述步骤通过两级样本库对路由器进行筛选,可仅保留长时间都稳定(具有活跃度)的家庭路由器,通过精准化筛选路由器,进而以增加后序数据处理和数据分析的准确性及可参考性。
具体而言,所述步骤S103提取关联所述样本库中的路由器的行为日志数据中的URL,将包含有效URL的行为日志数据加入行为日志数据库的步骤还包括:
判断所述URL是否为动态URL;
若是,则提取URL中的参数变量并根据一参数变量字典获取关联参数变量的项目数据;
若否,则判断URL的域名是否为ip地址;
若是,则指示该URL无效;
若否,则提取URL中的静态后缀名并根据一静态后缀名字典获取关联参数变量的项目数据。
所述项目数据还可以包括站点名称、站点公司信息、项目名称、涉及行业、搜索关键词中的一项或多项。项目数据及其它数据的标注可以如图5所示,在此不予赘述。
由此,可以通过行为日志数据中的URL实现项目(产品)数据的标注。
进一步地,在上述步骤的一个具体实施例中,参见图4,图4示出了根据本发明实施例的清洗行为日志数据的流程图。
首先是步骤S301,从行为日志数据的URL中提取主域名、子域名、路径文件名、文件后缀名及参数串。
步骤S302,判断URL中的参数个数是否大于等于2(或者是否具有单一有价值参数),同时域名并不是IP地址。步骤S302相当于判断URL是静态URL还是动态URL。有价值的参数例如可以具有一预设列表,但参数命中该预设列表,则表示该参数有有价值参数。有价值的参数例如可以是视频网站的账号、设备的mac地址、设备的imei、使用app的版本号、请求的时间戳、使用的手机运营商、连接网络的方式等。例如,在请求优酷视频的某一请求中:
http://push.m.youku.com/collect-api/v1/guid_devices?pid=6b5f94f4ab33c702&mac=20:82:C0:5F:80:EF&imei=867389025963496&ver=7.2.1&_t_=1523599362&operator=中国移动&network=WIFI,可以解析出观看视频的pid、设备的mac地址、设备的imei、使用app的版本号、请求的时间戳、使用的手机运营商、连接网络的方式等参数。
若步骤S302判断为否,即表示URL为静态URL,执行步骤S303,判断URL的域名是否不是IP地址。
若步骤S303判断为否,则执行步骤S304,将行为日志数据深度压缩到无意义日志库中。
若步骤S303判断为是,则执行步骤S305,判断URL中的静态后缀名是否在静态后缀名字典(预先设置)中。
若步骤S305判断为否,则执行步骤S304,将行为日志数据深度压缩到无意义日志库中。
若步骤S305判断为是,则执行步骤S306,根据主域名、子域名、路径文件名、文件后缀名自相应的预设字典中补全项目数据。
若上述步骤S302判断为是,则表示URL为动态URL,执行步骤S307,判断参数变量是否在参数变量字典中。
若步骤S307判断为是,则执行步骤S308,根据主域名、子域名、路径文件名、文件后缀名、参数串自相应的预设字典中补全项目数据。
若步骤S307判断为否,则执行步骤S309,根据主域名、子域名、路径文件名、文件后缀名自相应的预设字典中补全项目数据,并将为在参数变量字典中的参数变量及对应的项目数据增加到参数变量字典中。
在本发明的上述各个实施例中,各预设字典可以通过爬虫及自然语言处理技术实现URL中各项内容与项目数据的对应。
进一步地,在本发明的上述各个实施例中,通过对一时间段内的数据进行处理,由此减少系统的处理数据量,增加系统的处理速度,同时,基于时间的行为分析相比长时间的行为分析更贴切用户的实时需求。
本发明可通过上述方法以实现利用URL及预设字典补全项目数据的技术方案。由于URL的特殊结构,其在行为日志数据中便于提取,同时便于根据URL的特殊结构划分主域名、子域名、路径文件名、文件后缀名、参数串等等,以根据这些数据补全项目数据。
除了项目标注外,本发明还可以对行为日志数据增加其它类型的批注,
在一些变化例中,所述步骤S104对各行为日志数据设置项目标注之后还可以包括如下步骤:
根据站点公司信息、涉及行业、搜索关键词中的一项或多项对关联同一路由器的行为日志数据进行聚合计数,并以图形化显示计数结果。
例如,可以分析某一路由器一段时间内的网络请求涉及的哪个行业数量最多,哪个行业数量最小,由此可以进一步分析用户的实时需求。
在一些变化例中,
所述设备标注还包括设备系统、设备类型、设备型号中的一项或多项,所述设备标注根据行为日志数据中的URL参数变量和/或用户代理获得;
对各项目ID,根据设备系统、设备类型、设备型号中的一项或多项对行为日志数据进行聚合计数,并以图形化显示计数结果。
例如,对于某一项目ID(产品ID),获得哪一类型的设备(移动终端、电脑、网络电视等)的行为日志数据的数量分布,由此,可对该产品的信息投放到哪一类设备进行建议。
在一些变化例中,所述步骤S104对各行为日志数据设置项目标注之后还可以包括如下步骤:
对各行为日志数据设置项目标注用户信息,所述用户信息包括账户ID和/或用户位置,所述账户ID根据行为日志数据中的URL参数变量获得,所述用户位置(例如可以是IP地址所在城市)根据行为日志数据中的请求IP地址获得;
对各账户ID,根据各项目ID的行为日志数据进行聚合计数,并以图形化显示计数结果;
对各项目ID,对各用户位置的行为日志数据进行聚合计数,并以图形化显示计数结果。
例如,可以根据用户账号的ID,获得各项目ID关联的行为日志数据的数量,进而可以分析用户的实时需求。
例如,可以对于某一项目ID(产品ID)获得哪一城市的行为日志数据分布情况,进而对项目投放的地点进行建议。
在一些变化例中,所述步骤S104对各行为日志数据设置项目标注之后还可以包括如下步骤:至少根据项目ID对关联同一路由器的行为日志数据进行聚合计数,并以图形化显示计数结果。
由此,可以实现各种不同需求的声量分析。
本发明还提供一种同源样本的项目声量排序装置,如图6所示。图6示出了根据本发明实施例的同源样本的项目声量排序装置的示意图。
同源样本的项目声量排序装置900包括获取模块901、第一筛选模块902、第二筛选模块903、第一标注模块904、第二标注模块905、聚合模块906、计算模块907、判断模块908、确定模块909及排序模块910。
获取模块901用于获取一段时间内多个路由器的行为日志数据,每个路由器为一样本源。
第一筛选模块902用于根据所述行为日志数据筛选路由器,将与所述路由器连接的设备活跃参数符合预定阈值的路由器加入样本库。
第二筛选模块903用于提取关联所述样本库中的路由器的行为日志数据中的URL,将包含有效URL的行为日志数据加入行为日志数据库。
第一标注模块904用于对各行为日志数据设置项目标注,所述项目标注为行为日志数据库中各行为日志数据的所包含的URL涉及项目数据,所述项目标注至少包括项目ID。
第二标注模块905用于对各行为日志数据设置设备标注,所述设备标注至少包括设备标识,所述设备标识用于标识与所述样本库中的路由器连接的设备;
聚合模块906用于至少根据项目ID对关联同一设备的行为日志数据进行聚合计数作为该路由器对该项目ID的准项目声量。
计算模块907用于计算一项目声量阈值,所述项目声量阈值mode=med+2std,其中,med为各设备对各项目ID的准项目声量的中位数,std为各设备对各项目ID的准项目声量的标准差。
判断模块908用于判断各设备对各项目ID的准项目声量是否大于所述项目声量阈值。
若判断模块908判断为是,则所述确定模块909使该设备对该项目ID的项目声量为项目声量阈值;若判断模块908判断为否,则所述确定模块909使该设备对该项目ID的项目声量为准项目声量。
排序模块910用于对各项目ID,按项目声量对各设备进行排序,并以图形化显示排序结果。
由此,本发明提供同源样本的项目声量排序装置,一方面,对路由器将利用不同设备通过同一路由发出网络请求的同一用户的行为日志数据进行分析实现跨终端类型建立同源样本;另一方面,通过路由器筛选保留具有活跃度的家庭路由器以大概率保证样本同源性;再一方面,通过行为日志数据的URL进行项目标注,简单便捷,同时利于后序的行为日志数据的聚合计数;又一方面,通过修正算法防止作弊设备,提高项目声量的准确性,由此,可根据排序结果准确分析同源样本的用户行为及用户需求。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述电子处方流转处理方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本公开的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述电子处方流转处理方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图8来描述根据本发明的这种实施方式的电子设备600。图8显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1、图3及图4中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述电子处方流转处理方法。
相比现有技术,本发明具有如下优势:
1)对路由器将利用不同设备通过同一路由发出网络请求的同一用户的行为日志数据进行分析实现跨终端类型建立同源样本。
2)通过路由器筛选保留具有活跃度的家庭路由器以大概率保证样本同源性。
3)通过行为日志数据的URL进行项目标注,简单便捷,同时利于后序的行为日志数据的聚合计数。
4)通过修正算法防止作弊设备,提高项目声量的准确性,由此,可根据排序结果准确分析同源样本的用户行为及用户需求。
以上具体地示出和描述了本发明的示例性实施方式。应该理解,本发明不限于所公开的实施方式,相反,本发明意图涵盖包含在所附权利要求范围内的各种修改和等效置换。

Claims (11)

1.一种同源样本的项目声量排序方法,其特征在于,包括:
获取一段时间内多个路由器的行为日志数据;
根据所述行为日志数据筛选路由器,将与所述路由器连接的设备活跃参数符合预定阈值的路由器加入样本库;
提取关联所述样本库中的路由器的行为日志数据中的URL,将包含有效URL的行为日志数据加入行为日志数据库;
对各行为日志数据设置项目标注,所述项目标注为行为日志数据库中各行为日志数据的所包含的URL涉及项目数据,所述项目标注至少包括项目ID;
对各行为日志数据设置设备标注,所述设备标注至少包括设备标识,所述设备标识用于标识与所述样本库中的路由器连接的设备;
至少根据项目ID对关联同一设备的行为日志数据进行聚合计数作为该设备对该项目ID的准项目声量;
计算一项目声量阈值,所述项目声量阈值mode=med+2std,其中,med为各设备对各项目ID的准项目声量的中位数,std为各设备对各项目ID的准项目声量的标准差;
判断各设备对各项目ID的准项目声量是否大于所述项目声量阈值;
若是,则使该设备对该项目ID的项目声量为项目声量阈值;
若否,则使该设备对该项目ID的项目声量为准项目声量;
对各项目ID,按项目声量对各设备进行排序,并以图形化显示排序结果。
2.如权利要求1所述的同源样本的项目声量排序方法,其特征在于,将与所述路由器连接的设备活跃参数符合预定阈值的路由器加入样本库包括:
将与所述路由器连接的设备数量小于15台,与所述路由器连接的设备的网络请求总数量大于50次每天,且与所述路由器连接的设备每周至少三次在线的路由器加入样本库。
3.如权利要求1所述的同源样本的项目声量排序方法,其特征在于,所述提取关联所述样本库中的路由器的行为日志数据中的URL,将包含有效URL的行为日志数据加入行为日志数据库包括:
判断所述URL是否为动态URL;
若是,则提取URL中的参数变量并根据一参数变量字典获取关联参数变量的项目数据;
若否,则判断URL的域名是否为ip地址;
若是,则指示该URL无效;
若否,则提取URL中的静态后缀名并根据一静态后缀名字典获取关联参数变量的项目数据。
4.如权利要求3所述的同源样本的项目声量排序方法,其特征在于,所述项目数据还包括站点名称、站点公司信息、项目名称、涉及行业、搜索关键词中的一项或多项。
5.如权利要求4所述的同源样本的项目声量排序方法,其特征在于,对各行为日志数据设置项目标注之后还包括:
根据站点公司信息、涉及行业、搜索关键词中的一项或多项对关联同一设备的行为日志数据进行聚合计数,并以图形化显示计数结果。
6.如权利要求3所述的同源样本的项目声量排序方法,其特征在于,所述设备标注还包括设备系统、设备类型、设备型号中的一项或多项,所述设备标注根据行为日志数据中的URL参数变量和/或用户代理获得;
对各项目ID,根据设备系统、设备类型、设备型号中的一项或多项对行为日志数据进行聚合计数,并以图形化显示计数结果。
7.如权利要求3所述的同源样本的项目声量排序方法,其特征在于,所述对各行为日志数据设置项目标注之后还包括:
对各行为日志数据设置项目标注用户信息,所述用户信息包括账户ID和/或用户位置,所述账户ID根据行为日志数据中的URL参数变量获得,所述用户位置根据行为日志数据中的请求IP地址获得;
对各账户ID,根据各项目ID的行为日志数据进行聚合计数,并以图形化显示计数结果;
对各项目ID,对各用户位置的行为日志数据进行聚合计数,并以图形化显示计数结果。
8.如权利要求3所述的同源样本的项目声量排序方法,其特征在于,所述对各行为日志数据设置项目标注之后还包括:
至少根据项目ID对关联同一路由器的行为日志数据进行聚合计数,并以图形化显示计数结果。
9.一种同源样本的项目声量排序装置,其特征在于,包括:
获取模块,用于获取一段时间内多个路由器的行为日志数据,每个路由器为一样本源;
第一筛选模块,用于根据所述行为日志数据筛选路由器,将与所述路由器连接的设备活跃参数符合预定阈值的路由器加入样本库;
第二筛选模块,用于提取关联所述样本库中的路由器的行为日志数据中的URL,将包含有效URL的行为日志数据加入行为日志数据库;
第一标注模块,用于对各行为日志数据设置项目标注,所述项目标注为行为日志数据库中各行为日志数据的所包含的URL涉及项目数据,所述项目标注至少包括项目ID;
第二标注模块,用于对各行为日志数据设置设备标注,所述设备标注至少包括设备标识,所述设备标识用于标识与所述样本库中的路由器连接的设备;
聚合模块,用于至少根据项目ID对关联同一设备的行为日志数据进行聚合计数作为该设备对该项目ID的准项目声量;
计算模块,用于计算一项目声量阈值,所述项目声量阈值mode=med+2std,其中,med为各设备对各项目ID的准项目声量的中位数,std为各设备对各项目ID的准项目声量的标准差;
判断模块,用于判断各设备对各项目ID的准项目声量是否大于所述项目声量阈值;
确定模块,若判断模块判断为是,则所述确定模块使该设备对该项目ID的项目声量为项目声量阈值;若判断模块判断为否,则所述确定模块使该设备对该项目ID的项目声量为准项目声量;
排序模块,用于对各项目ID,按项目声量对各设备进行排序,并以图形化显示排序结果。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至8任一项所述的同源样本的项目声量排序方法。
11.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至8任一项所述的同源样本的项目声量排序方法。
CN201810787720.5A 2018-07-17 2018-07-17 项目声量排序方法、装置、电子设备、存储介质 Active CN108875084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810787720.5A CN108875084B (zh) 2018-07-17 2018-07-17 项目声量排序方法、装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810787720.5A CN108875084B (zh) 2018-07-17 2018-07-17 项目声量排序方法、装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN108875084A CN108875084A (zh) 2018-11-23
CN108875084B true CN108875084B (zh) 2021-03-12

Family

ID=64302992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810787720.5A Active CN108875084B (zh) 2018-07-17 2018-07-17 项目声量排序方法、装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN108875084B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902073B (zh) * 2019-04-03 2020-12-29 奇安信科技集团股份有限公司 日志处理方法、装置、计算机设备和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248677A (zh) * 2013-04-24 2013-08-14 深圳天源迪科信息技术股份有限公司 互联网行为分析系统及其工作方法
CN105096281A (zh) * 2014-05-14 2015-11-25 佳能株式会社 图像处理装置及图像处理方法
US9692843B1 (en) * 2011-05-03 2017-06-27 Google Inc. System and method for associating individual household members with television programs viewed
CN107612707A (zh) * 2017-08-04 2018-01-19 上海斐讯数据通信技术有限公司 面向行业领域的同源样本数据分类存储的预处理方法及系统
CN107741958A (zh) * 2017-09-20 2018-02-27 上海斐讯数据通信技术有限公司 一种数据处理方法及系统
CN108255976A (zh) * 2017-12-27 2018-07-06 东软集团股份有限公司 数据排序的方法、装置和存储介质以及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013025553A2 (en) * 2011-08-12 2013-02-21 Splunk Inc. Data volume management

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9692843B1 (en) * 2011-05-03 2017-06-27 Google Inc. System and method for associating individual household members with television programs viewed
CN103248677A (zh) * 2013-04-24 2013-08-14 深圳天源迪科信息技术股份有限公司 互联网行为分析系统及其工作方法
CN105096281A (zh) * 2014-05-14 2015-11-25 佳能株式会社 图像处理装置及图像处理方法
CN107612707A (zh) * 2017-08-04 2018-01-19 上海斐讯数据通信技术有限公司 面向行业领域的同源样本数据分类存储的预处理方法及系统
CN107741958A (zh) * 2017-09-20 2018-02-27 上海斐讯数据通信技术有限公司 一种数据处理方法及系统
CN108255976A (zh) * 2017-12-27 2018-07-06 东软集团股份有限公司 数据排序的方法、装置和存储介质以及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《What happened in my network: mining network events from router syslogs》;Tongqing Qiu等;《Proceedings of the 10th ACM SIGCOMM conference on Internet measurement》;20101130;第472-484页 *
网络舆情热点事件中声量变化及分析研究;韩国柱等;《武警学院学报》;20150525;第31卷(第5期);第79-83页 *
面向海量数据的用户观点抽取技术实现与应用;刘培谦;《中国优秀硕士学位论文全文数据库信息科技辑》;20160715;第I138-1263页 *

Also Published As

Publication number Publication date
CN108875084A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
JP6708717B2 (ja) ニュース推薦方法及び装置
CN110825957B (zh) 基于深度学习的信息推荐方法、装置、设备及存储介质
EP2947581B1 (en) Interactive searching method and apparatus
CN110019616B (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
CN106971009B (zh) 语音数据库生成方法及装置、存储介质、电子设备
US20190179966A1 (en) Method and apparatus for identifying demand
CN110830812B (zh) 相似主播分类模型训练方法、主播推荐方法及相关装置
CN108197211A (zh) 一种信息推荐方法、装置、服务器和存储介质
CN108197198B (zh) 一种兴趣点搜索方法、装置、设备和介质
CN109271509B (zh) 直播间话题的生成方法、装置、计算机设备和存储介质
WO2020156236A1 (zh) 关联信息的推送方法、装置,电子设备及存储介质
US7539934B2 (en) Computer-implemented method, system, and program product for developing a content annotation lexicon
CN108694324B (zh) 一种信息泄露监控方法以及装置
CN106021449A (zh) 用于移动终端的搜索方法、装置以及移动终端
CN109167816A (zh) 信息推送方法、装置、设备和存储介质
KR102150660B1 (ko) 검색 이력 기반 디지털 컨텐츠 추천 방법 및 그 장치
CN106844550B (zh) 一种虚拟化平台操作推荐方法及装置
CN110688434B (zh) 一种兴趣点处理方法、装置、设备和介质
CN106681598A (zh) 信息输入方法和装置
CN113592535A (zh) 一种广告推荐方法、装置、电子设备和存储介质
CN107291835B (zh) 一种搜索词的推荐方法和装置
CN108875084B (zh) 项目声量排序方法、装置、电子设备、存储介质
CN114022196A (zh) 广告投放方法、装置、电子装置和存储介质
CN111200639B (zh) 基于用户操作行为的信息推送方法、装置和电子设备
CN109522141B (zh) 信息推送方法及装置、服务器、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant