CN107220383A - 数据过滤方法 - Google Patents
数据过滤方法 Download PDFInfo
- Publication number
- CN107220383A CN107220383A CN201710508532.XA CN201710508532A CN107220383A CN 107220383 A CN107220383 A CN 107220383A CN 201710508532 A CN201710508532 A CN 201710508532A CN 107220383 A CN107220383 A CN 107220383A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- access
- threshold value
- object data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1734—Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及一种数据过滤方法,包括:获取面向第一用户的待筛选的目标数据;确定每个待筛选的目标数据的访问日志;所述访问日志包括所述目标数据的播放时长、所述第一用户的用户ID和所述目标数据的目标对象ID的格式;验证第一目标数据的访问日志中所述用户ID和所述目标对象ID的格式;当验证通过时,确定所述第一目标数据的播放时长是否超过有效播放时间阈值;当所述第一目标数据的播放时长不超过所述有效播放时间阈值时,对所述第一目标数据添加第一数据属性;所述第一数据属性用以表示所述第一目标数据为无效数据;将所述第一目标数据从所述待筛选的目标数据中删除。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据过滤方法。
背景技术
随着互联网的飞速发展,日益膨胀的网络数据使互联网用户逐渐迷失在了信息的海洋之中。为此,各种个性化服务技术被提出来,为不同的用户提供不同的服务,以满足不同的需求。协同过滤推荐(Collaborative Filteringrecommendation)是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。
然而,常常会有一些无效数据混杂在其中,造成协同过滤结果不准确,导致预测结果与实际存在偏差。
发明内容
本发明的目的是提供一种数据过滤方法,能够对于数据进行识别和筛选,滤出有效数据,从而保证后续用于数据计算的数据有效性。
为实现上述目的,本发明提供了一种数据过滤方法,包括:
获取面向第一用户的待筛选的目标数据;
确定每个待筛选的目标数据的访问日志;所述访问日志包括所述目标数据的播放时长、所述第一用户的用户ID和所述目标数据的目标对象ID的格式;
验证第一目标数据的访问日志中所述用户ID和所述目标对象ID的格式;
当验证通过时,确定所述第一目标数据的播放时长是否超过有效播放时间阈值;
当所述第一目标数据的播放时长不超过所述有效播放时间阈值时,对所述第一目标数据添加第一数据属性;所述第一数据属性用以表示所述第一目标数据为无效数据;
将所述第一目标数据从所述待筛选的目标数据中删除。
优选的,所述方法还包括:
当所述验证不通过时,对所述第一目标数据添加所述第一数据属性;
根据所述第一数据属性,将所述第一目标数据从所述待筛选的目标数据中删除。
优选的,所述访问日志还包括:访问所述目标数据的终端IP地址和访问动作的时间戳;在所述对所述第一目标数据添加第一数据属性之前,所述方法还包括:
统计同一终端IP地址对同一目标数据的访问动作的时间戳,确定第一目标数据的访问频率是否超过预定频率阈值;
当所述第一目标数据的访问频率超过预定频率阈值时,对所述第一目标数据添加所述第一数据属性。
进一步优选的,当所述第一目标数据的访问频率不超过预定频率阈值时,将所述第一目标数据添加至有效数据集合。
优选的,所述验证所述用户ID和所述目标对象ID的格式具体为:
通过正则方式进行所述用户ID和所述目标对象ID的格式的数据校验。
优选的,所述方法还包括:
当所述第一目标数据的播放时长超过所述有效播放时间阈值时,将所述第一目标数据添加至有效数据集合。
本发明实施例提供的数据过滤方法,通过对目标数据的数据格式和用户访问时间的有效性来滤除无效数据,确定有效数据,从而保证后续用于数据计算的数据有效性。
附图说明
图1为本发明实施例提供的数据过滤方法的流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明实施例提供的数据过滤方法,能够用于自动的数据有效性的过滤和筛选。
下面结合图1所示的数据过滤方法的流程图,以面向用户的数据过滤服务的应用场景为例,对本发明实施例提供的数据过滤方法进行说明。
如图1所示,本发明的数据过滤方法包括如下步骤:
步骤110,获取面向第一用户的待筛选的目标数据;
具体的,在本实施例中,目标数据是按照用户属性存储的。每个用户具有一个目标数据的数据库,用以存储目标数据。
在具体的例子中,例如在对用户的影片观看喜好进行数据过滤的场景中,目标数据可以是用户观看影片的影片信息,比如影片名称、影片ID、主演名称等等;在对用户的购物喜好进行数据过滤的场景中,目标数据可以是用户关注商品的商品信息,比如商品名称、商品ID等。对于不同的应用场景,目标数据可以不同,但本发明的方法可以适用于多种场景。
因为目标数据是基于用户ID进行存储的,所以可以通过用户ID获取到所需要进行筛选的目标数据。
步骤120,确定每个待筛选的目标数据的访问日志;
具体的,访问日志是在目标数据被访问、查看的时候生成的。
访问日志可以包括目标数据的播放时长、第一用户的用户ID和目标数据的目标对象ID的格式等。
其中,目标数据的播放时长并不限制于其字面意思所显示的播放的概念。比如,对于目标数据是用户观看影片的影片信息的情况,播放时长可以是用户观看影片的时间;又比如对于目标数据是用户关注商品的商品信息的情况,播放时长可以是指用户停留在商品页面上查看的时间,或者在一定时段内的累计查看时间。
用户的用户ID以及被查看的目标数据的目标对象ID的格式也相应的都记录在访问日志中。这里所说的目标数据的目标对象ID是指目标数据的唯一标识信息。比如商品ID、影片ID等等。
步骤130,验证第一目标数据的访问日志中用户ID和目标对象ID的格式,确定数据格式验证是否通过;
具体的,进行数据过滤时,在本例中首先对数据格式进行校验,确定待筛选目标数据的数据格式是否正确。
在具体实现中,进行数据格式验证可以通过正则方式来实现。
当数据格式验证通过时,执行步骤140,当数据格式验证不通过时,执行步骤160。
步骤140,确定第一目标数据的播放时长是否超过有效播放时间阈值;
具体的,通过设定有效播放时间阈值,可以对播放时间过短的数据进行筛除。因为如果用户观看时间过短,虽然是进行了目标数据的访问,但并不能客观反映用户的真实兴趣,而往往是因为没有兴趣才会出现观看时间过短的情况。
比如,以观看影片为例,观看时间小于1分钟,或者小于3分钟,并不能反映用户的兴趣。
而以查阅商品为例,用户在商品页面停留的时间小于5秒钟,可以认为用户对该商品没有兴趣,因此可以设定5秒这个时间为播放时间阈值。
为了更加准确的进行数据过滤,对于不同类型的目标数据,可以设置不同的有效播放时间阈值。具体的可以根据目标数据的目标对象ID确定相应的有效播放时间阈值。
当第一目标数据的播放时长超过有效播放时间阈值时,执行步骤150;
当第一目标数据的播放时长不超过有效播放时间阈值时,执行步骤160。
步骤150,确定第一目标数据为有效数据;
具体的,可以对确定为有效数据的第一目标数据添加数据属性,用以表示其为有效数据。或者也可以将第一目标数据加入有效数据的数据列表中,在后续进行数据处理时,直接通过获取数据列表中的数据来得到有效数据。
步骤160,对第一目标数据添加第一数据属性;
具体的,第一数据属性用以表示第一目标数据为无效数据。通过为目标数据添加数据属性来标识该数据为无效数据。
步骤170,根据第一数据属性,将第一目标数据从待筛选的目标数据中删除。
当然也可以跳过步骤160,直接将无效的第一目标数据从待筛选的目标数据中删除。
此外,在待筛选的目标数据中还可能混入一类无效数据,比如用户模拟注入或者频繁调用上报的数据。这些数据也是需要进行过滤的。
具体可以通过目标数据相关联的终端IP地址和访问动作的时间戳来判定。例如可以统计同一终端IP地址对同一目标数据的访问动作的时间戳,确定对该目标数据的访问频率是否超过预定频率阈值;如果对该目标数据的访问频率超过预定频率阈值时,确定该数据时无效的数据。因而可以对该目标数据添加第一数据属性,并将其从待筛选的目标数据中删除。
本发明实施例提供的数据过滤方法,通过对目标数据的数据格式、用户访问时间的有效性以及数据访问频率的过滤来滤除无效数据,确定有效数据,从而保证后续用于数据计算的数据有效性。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种数据过滤方法,其特征在于,所述方法包括:
获取面向第一用户的待筛选的目标数据;
确定每个待筛选的目标数据的访问日志;所述访问日志包括所述目标数据的播放时长、所述第一用户的用户ID和所述目标数据的目标对象ID的格式;
验证第一目标数据的访问日志中所述用户ID和所述目标对象ID的格式;
当验证通过时,确定所述第一目标数据的播放时长是否超过有效播放时间阈值;
当所述第一目标数据的播放时长不超过所述有效播放时间阈值时,对所述第一目标数据添加第一数据属性;所述第一数据属性用以表示所述第一目标数据为无效数据;
将所述第一目标数据从所述待筛选的目标数据中删除。
2.根据权利要求1所述的数据过滤方法,其特征在于,所述方法还包括:
当所述验证不通过时,对所述第一目标数据添加所述第一数据属性;
根据所述第一数据属性,将所述第一目标数据从所述待筛选的目标数据中删除。
3.根据权利要求1所述的数据过滤方法,其特征在于,所述访问日志还包括:访问所述目标数据的终端IP地址和访问动作的时间戳;在所述对所述第一目标数据添加第一数据属性之前,所述方法还包括:
统计同一终端IP地址对同一目标数据的访问动作的时间戳,确定第一目标数据的访问频率是否超过预定频率阈值;
当所述第一目标数据的访问频率超过预定频率阈值时,对所述第一目标数据添加所述第一数据属性。
4.根据权利要求3所述的数据过滤方法,其特征在于,当所述第一目标数据的访问频率不超过预定频率阈值时,将所述第一目标数据添加至有效数据集合。
5.根据权利要求1所述的数据过滤方法,其特征在于,所述验证所述用户ID和所述目标对象ID的格式具体为:
通过正则方式进行所述用户ID和所述目标对象ID的格式的数据校验。
6.根据权利要求1所述的数据过滤方法,其特征在于,所述方法还包括:
当所述第一目标数据的播放时长超过所述有效播放时间阈值时,将所述第一目标数据添加至有效数据集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710508532.XA CN107220383A (zh) | 2017-06-28 | 2017-06-28 | 数据过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710508532.XA CN107220383A (zh) | 2017-06-28 | 2017-06-28 | 数据过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107220383A true CN107220383A (zh) | 2017-09-29 |
Family
ID=59950820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710508532.XA Pending CN107220383A (zh) | 2017-06-28 | 2017-06-28 | 数据过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107220383A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107798134A (zh) * | 2017-11-22 | 2018-03-13 | 杨晓艳 | 一种数据过滤方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102769781A (zh) * | 2012-07-17 | 2012-11-07 | 青岛海信传媒网络技术有限公司 | 推荐电视节目的方法及装置 |
CN105718545A (zh) * | 2016-01-18 | 2016-06-29 | 合一网络技术(北京)有限公司 | 多媒体资源的推荐方法和装置 |
CN106021609A (zh) * | 2016-06-24 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种实现网站视频智能推荐的方法及装置 |
CN106503015A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的方法 |
-
2017
- 2017-06-28 CN CN201710508532.XA patent/CN107220383A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102769781A (zh) * | 2012-07-17 | 2012-11-07 | 青岛海信传媒网络技术有限公司 | 推荐电视节目的方法及装置 |
CN106503015A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的方法 |
CN105718545A (zh) * | 2016-01-18 | 2016-06-29 | 合一网络技术(北京)有限公司 | 多媒体资源的推荐方法和装置 |
CN106021609A (zh) * | 2016-06-24 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种实现网站视频智能推荐的方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107798134A (zh) * | 2017-11-22 | 2018-03-13 | 杨晓艳 | 一种数据过滤方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9305145B2 (en) | Site directed management of audio components of uploaded video files | |
CN107220382A (zh) | 数据分析方法 | |
US9553937B2 (en) | Collecting preference information | |
US10643250B2 (en) | Controlling effectiveness of online video advertisement campaign | |
CA3112126A1 (en) | Methods and apparatus to monitor media presentations | |
KR20150023339A (ko) | 미디어 프리젠테이션 모니터 방법 및 디바이스 | |
US20110231522A1 (en) | Distributed digital media metering & reporting system | |
CN105897671A (zh) | 防盗链方法及系统 | |
CN109982068A (zh) | 合成视频质量评估方法、装置、设备及介质 | |
CN113680074B (zh) | 业务信息的推送方法、装置、电子设备及可读介质 | |
CN107220383A (zh) | 数据过滤方法 | |
CN107239573A (zh) | 数据过滤方法 | |
KR102626741B1 (ko) | 사용자 활동 기반 상품 추천 방법 | |
CN106934708B (zh) | 事件记录方法和装置 | |
CN110648156A (zh) | 广告处理方法、装置和设备 | |
CN104506892B (zh) | 数据调整方法及装置 | |
US20110113102A1 (en) | Method and apparatus for integrating a participant into programming | |
CN107798134A (zh) | 一种数据过滤方法、装置、设备和存储介质 | |
CN108629610B (zh) | 推广信息曝光量的确定方法和装置 | |
CN107609926B (zh) | 一种面向多个渠道用户的数字资源交易系统及方法 | |
Nasution et al. | Investigating Social Media User Activity on Android Smartphone | |
CN112819434A (zh) | 一种数据内容审核方法和装置 | |
CN111145354B (zh) | 一种bim数据模型的标识方法及装置 | |
WO2023237665A1 (en) | System and method for calculating a distributor quality score | |
CN117521034A (zh) | 伪造设备的识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170929 |