CN112965969B - 统计数据的补录方法、装置、电子设备及存储介质 - Google Patents
统计数据的补录方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112965969B CN112965969B CN202110252180.2A CN202110252180A CN112965969B CN 112965969 B CN112965969 B CN 112965969B CN 202110252180 A CN202110252180 A CN 202110252180A CN 112965969 B CN112965969 B CN 112965969B
- Authority
- CN
- China
- Prior art keywords
- target content
- value
- content
- search record
- hot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000295 complement effect Effects 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000008859 change Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 230000009193 crawling Effects 0.000 claims description 6
- 230000008439 repair process Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012216 screening Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001502 supplementing effect Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010012335 Dependence Diseases 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种统计数据的补录方法、装置、电子设备及存储介质,该方法包括:获取目标内容,确定目标内容的数据缺失日期;获取数据缺失日期对应的热搜记录,根据目标内容、热搜记录和原始补录值,确定目标内容在数据缺失日期上的待补录值;其中,热搜记录为目标账户所属内容平台在所述数据缺失日期内的事件排名记录;根据待补录值对所述目标内容的统计数据进行补录,通过对目标内容和内容平台上对应于数据缺失日期的热搜记录的综合分析,获知事件热度对目标内容的影响情况,再结合原始补录值得到目标内容在数据缺失日期上的待补录值,做到考虑内容平台上事件突发的热度对内容统计数据的影响,使得统计数据更真实。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种统计数据的补录方法、装置、电子设备及存储介质。
背景技术
用户会在内容平台(如微博)上发布自己的所见所闻所想,即发布内容。内容以图片、文字或视频形式展现。发布的内容会由能够可见的其他用户进行转发、点赞、评论等操作。由此可知,用户发布的每一条内容都会基于上述的转发、点赞、评论等操作进行数据统计,统计数据会进行记录和保存,方便后续的业务需求。
由于内容平台的系统故障、软件漏洞等原因,可能会导致用户发布的内容在某些日期上统计数据的缺失,影响数据统计的业务需求。
发明内容
针对现有技术存在的问题,本发明提供一种统计数据的补录方法、装置、电子设备及存储介质。
本发明提供一种统计数据的补录方法,包括:
获取目标内容,确定所述目标内容的数据缺失日期,所述目标内容为目标账户发布且存在统计数据缺失的内容;
获取所述数据缺失日期对应的热搜记录,根据所述目标内容、所述热搜记录和原始补录值,确定所述目标内容在数据缺失日期上的待补录值;其中,所述热搜记录为所述目标账户所属内容平台在所述数据缺失日期内的事件排名记录;
根据所述待补录值对所述目标内容的统计数据进行补录。
根据本发明提供的一种统计数据的补录方法,所述根据所述目标内容、所述热搜记录和原始补录值得到所述目标内容在数据缺失日期上的待补录值,包括:
根据所述目标内容和所述热搜记录确定补录系数;
根据所述补录系数和原始补录值,确定所述目标内容在数据缺失日期上的待补录值。
根据本发明提供的一种统计数据的补录方法,所述热搜记录包括全时段热搜记录,相应地,所述根据目标内容和所述热搜记录确定补录系数,包括:
将所述目标内容在所述全时段热搜记录中进行内容匹配,确定位于所述全时段热搜记录中的匹配事件;
根据所述匹配事件在所述全时段热搜记录中的排名信息,确定补录系数。
根据本发明提供的一种统计数据的补录方法,所述根据所述匹配事件在所述全时段热搜记录中的排名信息,确定补录系数,包括:
根据所述匹配事件在所述全时段热搜记录中的排名信息和预设的排名范围与排名系数的对应关系,确定所述排名信息对应的排名系数;
根据所述排名信息和所述排名系数确定补录系数。
根据本发明提供的一种统计数据的补录方法,所述热搜记录还包括分时段热搜记录,所述分时段热搜记录为所述目标账户所属内容平台在所述数据缺失日期内各划分时段对应的事件排名记录,相应地,所述方法还包括:
在将所述目标内容在全时段热搜记录中进行内容匹配,未确定位于所述全时段热搜记录中的匹配事件,则根据所述目标内容、所述分时热搜记录和原始补录值,确定所述目标内容在数据缺失日期上的待补录值。
根据本发明提供的一种统计数据的补录方法,所述方法还包括全时段热搜记录的获取步骤,包括:
将每日的时间按预设时间间隔进行均匀划分,获得各分时间段,并在每个分时间段内对内容平台上的内容进行爬取,并将排名在前预设数目的事件及事件对应的热搜指数进行记录,得到对应的分时段热搜记录;
根据各分时间段对应的分时段热搜记录确定全时段热搜记录。
根据本发明提供的一种统计数据的补录方法,所述方法还包括原始补录值的获取步骤,包括:
获取数据缺失日期前第1日和前第N日内除目标内容的所有发布内容的当日统计数据;根据所述当日统计数据确定变化比率,根据前第1日内除目标内容的所有发布内容的当日统计数据和变化比率确定原始补录值。
根据本发明提供的一种统计数据的补录方法,所述方法还包括:
在确定所述目标内容存在连续两个以上的数据缺失日期,且在确定连续两个以上的数据缺失日期中前一个数据缺失日期对应的待补录值后,根据前一个数据缺失日期对应的待补录值和衰减值确定后一个数据缺失日期对应的待补录值。
本发明还提供一种统计数据的补录装置,包括:
筛查模块,用于获取目标内容,确定所述目标内容的数据缺失日期,所述目标内容为目标账户发布且存在统计数据缺失的内容;
确定模块,用于获取所述数据缺失日期对应的热搜记录,根据所述目标内容、所述热搜记录和原始补录值,确定所述目标内容在数据缺失日期上的待补录值;其中,所述热搜记录为所述目标账户所属内容平台在所述数据缺失日期内的事件排名记录;
补录模块,用于根据所述待补录值对所述目标内容的统计数据进行补录。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述统计数据的补录方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述统计数据的补录方法的步骤。
本发明提供的统计数据的补录方法、装置、电子设备及存储介质,通过对目标内容和内容平台上对应于数据缺失日期的热搜记录的综合分析,获知事件热度对目标内容的影响情况,再结合原始补录值得到目标内容在数据缺失日期上的待补录值,做到考虑内容平台上事件突发的热度对内容统计数据的影响,使得统计数据更真实。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的统计数据的补录方法的流程示意图;
图2是本发明提供的统计数据的补录装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3描述本发明提供的统计数据的补录方法、装置、电子设备及存储介质。
图1示出了本发明提供的统计数据的补录方法的流程示意图,参见图1,该方法包括以下步骤:
11、获取目标内容,确定目标内容的数据缺失日期,目标内容为目标账户发布且存在统计数据缺失的内容;
12、获取数据缺失日期对应的热搜记录,根据目标内容、热搜记录和原始补录值,确定目标内容在数据缺失日期上的待补录值;其中,热搜记录为目标账户所属内容平台在数据缺失日期内的事件排名记录;
13、根据待补录值对目标内容的统计数据进行补录。
针对步骤11-步骤13,需要说明的是,在本发明中,用户会在内容平台(如微博)上发布自己的所见所闻所想,即发布内容。内容以图片、文字或视频形式展现。发布的内容会由能够可见的其他用户进行转发、点赞、评论等操作。由此可知,用户发布的每一条内容都会基于上述的转发、点赞、评论等操作进行数据统计,统计数据会进行记录和保存,方便后续的业务需求。
表1为用户在内容平台A上的统计数据记录表
参见表1,可以得知:统计数据记录表中的阅读数、转发数、点赞数、评论数为发布内容的各项总数。
表2为发布内容在阅读数上的每日统计数据记录表
账号 | 发布内容 | 平台 | 阅读数 | 日期 |
大V | N1 | A | 123 | 20200802 |
大V | N1 | A | 456 | 20200803 |
大V | N1 | A | 789 | 20200804 |
大V | N1 | A | …… | …… |
参见表2,可以得知:用户发布的一条内容在发布日期之后,在每个统计项中对应于各日期上的统计数据。
在本发明中,由于内容平台的系统故障、软件漏洞等原因,可能会导致用户发布的内容在某些日期上统计数据的缺失,影响数据统计的业务需求。需要说明的是,统计数据的缺失是无法得到任何数据。而当天无人对内容进行阅读、转发、点赞和评论,其统计数据均为0,不属于数据缺失的情况。
针对用户所发布的各条内容,都对应存储有每日统计数据记录表。为此,可以通过对每日统计数据记录表的遍历搜寻,确定每条内容缺失统计数据的日期,即内容的数据缺失日期。
在本发明中,由于目前对内容的统计数据进行补录主要是基于历史数据进行预测得到一补录值,使用该补录值进行统计数据补录,该预测得到的补录值即为本发明所需的原始补录值。
在本发明中,用户发布的内容可能会关联到某些已知或未知的事件。为此,需要考虑全平台上事件突然带来的爆炸热度,该爆炸热度可能会对用户的内容的各项统计数据造成影响。故要获取所确定的数据缺失日期那一日全平台对所有事件的热搜记录。该热搜记录为目标账户所属内容平台在数据缺失日期内的事件排名记录。该事件排名记录通常会选取前N名的事件,例如前50名,前100名等。
然后将目标内容与热搜记录上的事件进行匹配,以判断目标内容与热搜记录上的哪个事件关联性更强,从而基于这种关联性确定相对应的数值,接着将该数值与原始补录值采用预设的计算方式得到目标内容在各统计项上位于数据缺失日期上的待补录值。例如阅读数、转发数、点赞数、评论数均有对应的原始补录值,经上述计算可得到对应的待补录值。
最后,根据待补录值对目标内容的统计数据进行补录。
本发明提供的统计数据的补录方法,通过对目标内容和内容平台上对应于数据缺失日期的热搜记录的综合分析,获知事件热度对目标内容的影响情况,再结合原始补录值得到目标内容在数据缺失日期上的待补录值,做到考虑内容平台上事件突发的热度对内容统计数据的影响,使得统计数据更真实。
在上述方法的进一步说明中,主要是对根据目标内容、热搜记录和原始补录值得到目标内容在数据缺失日期上的待补录值的处理过程进行解释说明,具体如下:
根据目标内容和热搜记录确定补录系数;
根据补录系数和原始补录值,确定目标内容在数据缺失日期上的待补录值。
对此,需要说明的是,在本发明中,将目标内容与热搜记录上的事件进行匹配,以判断目标内容与热搜记录上的哪个事件关联性更强,从而基于这种关联性确定相对应的补录系数,接着将该补录系数与原始补录值采用预设的计算方式得到目标内容在各统计项上位于数据缺失日期上的待补录值。
本发明进一步的方法,通过目标内容和热搜记录得到补录系数,以便对原始补录值进行纠正处理,得到更符合实际状况的待补录值,确保统计数据更真实。
在上述方法的进一步说明中,主要是对根据目标内容和热搜记录确定补录系数的处理过程进行解释说明,具体如下:
对于各事件的热搜排名,会在每天的不同时间段上发生数据变化。为此,热搜记录可以是各事件在一天内的总体热搜排名,即全时段热搜记录;也可以是各事件在一天内的各时间段内的热搜排名,即分时段热搜记录。
在本发明中,先根据目标内容和全时段热搜记录确定补录系数,如下:
将目标内容在全时段热搜记录中进行内容匹配,确定位于热搜记录中的匹配事件;
根据匹配事件在全时段热搜记录中的排名信息,确定补录系数。
对此,需要说明的是,在本发明中,由于内容可能是对某个热搜事件的看法,故目标内容中可能会存在对应于热搜事件的关键字词。将目标内容在全时段热搜记录上每一条热搜事件进行内容匹配,根据匹配结果在全时段热搜记录中筛选出一个更高匹配度的事件,视为匹配事件。此时,能够参考该匹配事件在全时段热搜记录中的排名情况,通过预设的计算规则确定补录系数。例如将匹配事件的排名值与预设的常数进行乘积得到数值作为补录系数。
本发明进一步的方法,由于全时段热搜记录中的事件的排名表征事件的总体热度,故在全时段热搜记录中确定与目标内容相匹配的事件,计算得出事件热度对目标内容在数据统计上的影响程度,得到更符合实际状况的补录系数,为后续获得待补录值提高有力依据。
在上述方法的进一步说明中,主要是对将目标内容在全时段热搜记录中进行内容匹配,确定位于全时段热搜记录中的匹配事件的处理过程进行解释说明,具体如下:
确定目标内容对应的标签;
将目标内容对应的标签在全时段热搜记录中进行匹配,得到目标内容与全时段热搜记录中各事件的匹配值,根据匹配值确定匹配事件;其中,全时段热搜记录中包括事件与标签的对应关系。
对此,需要说明的是,在本发明中,在内容平台上发布的内容会根据内容中的关键字词进行标签,同样的,全时段热搜记录中的各事件也配置对应的标签。还需要说明的是,目标内容的标签和事件的标签不限于一个。
例如:用户发布的内容为有关“演员H在某综艺上自信跳舞炸裂全场”的大段儿内容,提炼的标签为“演员H”、“某综艺Z”、“跳舞”。
全时段热搜记录中事件1对应的标签为“演员H”、“饭店”、“吸烟”。事件2对应的标签为“某综艺Z”、“跳舞”、“伴舞”、“美女”。
然后将目标内容对应的标签在全时段热搜记录中进行标签匹配,得到目标内容与全时段热搜记录中各事件的匹配值。
继续以上述实例说明,用户发布的内容与事件1能够匹配到的标签为“演员H”,与事件2能够匹配到的标签为“某综艺Z”、“跳舞”。由此根据匹配到标签的数目,再采用预设的计算规则能够求得目标内容与全时段热搜记录中各事件的匹配值。
例如,用户发布的内容对应的标签总数为3个,若有2个标签与热搜记录中的某个事件对应的标签成功匹配,则匹配值可为2/3。
在本发明中,可将最高匹配值对应的事件作为匹配事件。若有两个最高的匹配值,可将其中排行高一些的事件作为匹配事件。
本发明进一步的方法,从标签匹配出发,能够更直观更简便的确定目标内容与事件的关联程度,从而能够准确的确定匹配事件。
在上述方法的进一步说明中,主要是对根据匹配事件在全时段热搜记录中的排名信息,确定补录系数的处理过程的解释说明,具体如下:
根据匹配事件在全时段热搜记录中的排名信息和预设的排名范围与排名系数的对应关系,确定排名信息对应的排名系数;
根据排名信息和排名系数确定补录系数。
对此,需要说明的是,在本发明中,上述提及到的匹配值,用于从全时段热搜记录中筛选出合适的匹配事件,再确定匹配事件在全时段热搜记录中的排名信息,该排名信息就是排名编号。例如排名为10,则排名信息为10。
在本发明中,配置排名范围与排名系数的对应关系。例如:排名范围为1-5,则排名系数k=100,排名范围为6-10,则排名系数k=80,排名范围为11-15,则排名系数k=60,排名范围为16-20,则排名系数k=55。
然后根据排名信息和排名系数确定补录系数。例如补录系数=排名系数/排名。
本发明进一步的方法,能够使排名越低,排名系数也越低,从而使得补录系数与排名热度更贴近。
在上述方法的进一步说明中,主要是对全时段热搜记录的获取过程进行解释说明,具体如下:
将每日的时间按预设时间间隔进行均匀划分,获得各分时间段,并在每个分时间段内对内容平台上的内容进行爬取,并将排名在前预设数目的事件及事件对应的热搜指数进行记录,得到对应的分时段热搜记录;
根据各分时间段对应的分时段热搜记录确定全时段热搜记录。
对此,需要说明的是,在本发明中,以具体实例对上述步骤进行解释说明,由于热搜每隔10分钟会根据有效用户的搜索更新,故每隔10分钟进行一次爬取,将爬取的前50条热搜存入对应的分时段热搜记录中。该分时段热搜记录中包括分时段编号、事件名、排名编号、事件标签和热搜指数。这样一日24小时就会形成144次爬取,生成144个分时段热搜记录,分时段编号最大为144。
接着,根据这144个分时段热搜记录获得全时段热搜记录。根据分时段编号进行遍历,首先取出当日分时段编号=1的分时段热搜记录上的所有热搜事件,然后取出分时段编号=2的分时段热搜记录上的所有热搜事件,两者进行对比,事件名和事件标签一致的,将两个事件合并成一条,将热搜指数进行累加;然后将这两个分时段热搜记录的内容根据热搜指数进行一个降序排列,取排列前50的进行保留;依次按照上述操作规则将这个保留的前50记录和分时段编号=3的分时段热搜记录进行对比,重复以上操作,循环到分时段编号=144,这样最终将这一日的分时段热搜记录进行处理,得到当日排列前50的全时段热搜记录。
本发明进一步的方法,能够考虑每日不同分时间段的热搜变化,将不同分时间段的热搜变化整合在一起,使得分时段热搜记录更符合每日的实际状况,才能使全时段热搜记录更准确。
在上述方法的进一步说明中,主要是对将目标内容在全时段热搜记录中进行内容匹配,未确定位于全时段热搜记录中的匹配事件的情况下,确定待补录值的过程进行解释说明,具体如下:
获取数据缺失日期对应的分时段热搜记录;
根据目标内容、分时段热搜记录和原始补录值,确定目标内容在数据缺失日期上的待补录值。
对此,需要说明的是,在本发明中,根据目标内容和分时段热搜记录进行匹配的过程与上述提及的根据目标内容和全时段热搜记录进行匹配的过程相同,在此不再赘述。
在本发明中,主要是将目标内容和分时段热搜记录进行分别匹配,得到匹配事件,但由于该匹配事件在全时段热搜记录中未进入前预设数目之内,为此,针对该匹配事件的补录系数如下计算:
将该条匹配事件在分时段热搜记录中的累计的热搜指数和全时段内前预设数目的事件的平均热搜指数进行比较,计算补录系数。
例如:
P=(n/((v1+v2+…+v50)/50))*k。
其中P为补录系数,n=匹配事件的累计的热搜指数,v1-v50前50条热搜指数,k是放大系数。根据经验,放大系数设为80。
在上述方法的进一步说明中,主要是对原始补录值的获取过程进行解释说明,具体如下:
获取数据缺失日期前第1日和前第N日内除目标内容的所有发布内容的当日统计数据;根据所述当日统计数据确定变化比率,根据前第1日内除目标内容的所有发布内容的当日统计数据和变化比率确定原始补录值。
对此,需要说明的是,在本发明中,下面以具体实例对上述的前第1日和前第N日内除目标内容的所有发布内容的当日统计数据进行解释说明,具体如下:
例如数据缺失日期为8月27日。那么,前第1日为8月26日。假如N为6,则前第N日为8月21日。
假设目标内容为8月1日所发布。截止于8月21日晚上24点,用户在账号下共发布了10条内容。那么,前第1日内除目标内容的所有发布内容的当日统计数据,相当于除去目标内容的其他9条内容在8月21日当天的统计数据。截止于8月26日晚上24点,用户在账号下共发布了15条内容,即8月22日-8月26日又发布了5条内容。那么,前第N日内除目标内容的所有发布内容的当日统计数据,相当于除去目标内容的其他14条内容在8月26日当天的统计数据。
然后,根据除去目标内容的其他14条内容在8月26日当天的统计数据和除去目标内容的其他9条内容在8月21日当天的统计数据确定8月21日到8月26日这几天的变化比率。最后除去目标内容的其他14条内容在8月26日当天的统计数据和变化比率确定8月27日的原始补录值。
在进一步的说明中,采用以下计算公式对原始补录值进行确定,具体如下:
Value={(前(1)总/a)/(前(N)总/b)/(N-1)}*前(1)总。
其中,Value为原始补录值,前(1)总为前第1日内除目标内容的所有发布内容的当日统计数据,前(N)总为前第N日内除目标内容的所有发布内容的当日统计数据,a为前第1日内除目标内容的发布内容数目,b为前第N日内除目标内容的发布内容数目。
继续以上述实例进行解释说明,以阅读量为例,除去目标内容的其他9条内容在8月21日当天的阅读量为810。则前(N)总/a=前(6)总/9=810/9=90。除去目标内容的其他14条内容在8月26日当天的阅读量为1400,则前(1)总/a=1400/14=100。则Value=90/100/(6-1)*1400=630。
另外,需要说明的是,内容的统计项较多,为此,上述提及的当日统计数据针对不同的统计项存在对应的统计数据。
在本发明中,由于前第1日和前第2日与数据缺失日期最接近,此时依据这两日得到的原补录值最契合实际情况,为此,N取2最优选。
在上述方法的进一步说明中,主要是对在确定目标内容存在连续两个以上的数据缺失日期的情况下,获取待补录值的解释说明,具体如下:
当确定目标内容存在连续两个以上的数据缺失日期。例如目标内容在8月27日、28日、29日和30日都缺失统计数据。
在该情况下,8月27日的待补录值依据上述发明中的确定步骤进行确定。接下来8月28日的待补录值要依据以下方式进行确定:
由于连续两个以上的数据缺失日期中首个数据缺失日期以上述基于热搜记录所确定,而对于热搜事件,会随着热度衰减,使得热搜记录的排名有所下降。为此,若连续两个以上的数据缺失日期的待补录值都按照上述确定步骤进行确定,势必会造成补录值失真。
为此,在确定连续两个以上的数据缺失日期中前一个数据缺失日期对应的待补录值后,根据前一个数据缺失日期对应的待补录值和衰减值确定后一个数据缺失日期对应的待补录值。
在本发明中,衰减值的确定过程如下:
配置一衰减曲线关系式,曲线系数c=log(y0/y1)/m。
其中,y0为初始值,取1,y1是预设衰减过程中的最后一值,m是衰减过程中经历的天数。
例如热搜事件的第1天,y0为1,衰减过程是7天,7天后衰减到0.1,则y1为0.1。此时b=log(1/0.1)/7。
在本发明中,衰减值为y=y0*e(-b*(t+1)),t是天数,e是常数,由此,经上述b的取值过程,可以得到衰减值。
然后,后一个数据缺失日期对应的待补录值=前一个数据缺失日期对应的待补录值*y。
本发明进一步的方法,考虑到待补录值基于热搜记录所获得,对于连续日期的数据缺失情况,需要以热度衰减曲线确定后续日期的待补录值,保证各日期补录数据的相对真实性。
下面对本发明提供的统计数据的补录装置进行描述,下文描述的防沉迷装置与上文描述的统计数据的补录方法可相互对应参照。
图2示出了本发明提供的统计数据的补录装置的结构示意图,参见图2,该装置包括筛查模块21、确定模块22和补录模块23,其中:
筛查模块21,用于获取目标内容,确定所述目标内容的数据缺失日期,所述目标内容为目标账户发布且存在统计数据缺失的内容;
确定模块22,用于获取所述数据缺失日期对应的热搜记录,根据所述目标内容、所述热搜记录和原始补录值,确定所述目标内容在数据缺失日期上的待补录值;其中,所述热搜记录为所述目标账户所属内容平台在所述数据缺失日期内的事件排名记录;
补录模块23,用于根据所述待补录值对所述目标内容的统计数据进行补录。
在上述装置的进一步说明中,所述确定模块在根据所述目标内容、所述热搜记录和原始补录值得到所述目标内容在数据缺失日期上的待补录值的处理过程中,具体用于:
根据所述目标内容和所述热搜记录确定补录系数;
根据所述补录系数和原始补录值,确定所述目标内容在数据缺失日期上的待补录值。
在上述装置的进一步说明中,所述热搜记录包括全时段热搜记录,相应地,所述确定模块在根据目标内容和所述热搜记录确定补录系数的处理过程中,具体用于:
将所述目标内容在所述全时段热搜记录中进行内容匹配,确定位于所述全时段热搜记录中的匹配事件;
根据所述匹配事件在所述全时段热搜记录中的排名信息,确定补录系数。
在上述装置的进一步说明中,所述确定模块在将所述目标内容在所述全时段热搜记录中进行内容匹配,确定位于所述全时段热搜记录中的匹配事件的处理过程中,具体用于:
确定所述目标内容对应的标签;
将所述目标内容对应的标签在所述全时段热搜记录中进行匹配,得到所述目标内容与全时段热搜记录中各事件的匹配值,根据所述匹配值确定所述匹配事件;其中,所述全时段热搜记录中包括事件与标签的对应关系。
在上述装置的进一步说明中,所述确定模块在根据所述匹配事件在所述全时段热搜记录中的排名信息,确定补录系数的处理过程中,具体用于:
根据所述匹配事件在所述全时段热搜记录中的排名信息和预设的排名范围与排名系数的对应关系,确定所述排名信息对应的排名系数;
根据所述排名信息和所述排名系数确定补录系数。
在上述装置的进一步说明中,所述热搜记录还包括分时段热搜记录,所述分时段热搜记录为所述目标账户所属内容平台在所述数据缺失日期内各划分时段对应的事件排名记录,所述确定模块还用于:在将所述目标内容在全时段热搜记录中进行内容匹配,未确定位于所述全时段热搜记录中的匹配事件,则根据所述目标内容、所述分时热搜记录和原始补录值,确定所述目标内容在数据缺失日期上的待补录值。
在上述装置的进一步说明中,所述装置还包括第一获取模块,用于执行全时段热搜记录的获取步骤,包括:
将每日的时间按预设时间间隔进行均匀划分,获得各分时间段,并在每个分时间段内对内容平台上的内容进行爬取,并将排名在前预设数目的事件及事件对应的热搜指数进行记录,得到对应的分时段热搜记录;
根据各分时间段对应的分时段热搜记录确定全时段热搜记录。
在上述装置的进一步说明中,所述装置还包括第二获取模块,用于执行原始补录值的获取步骤,包括:
获取数据缺失日期前第1日和前第N日内除目标内容的所有发布内容的当日统计数据;根据所述当日统计数据确定变化比率,根据前第1日内除目标内容的所有发布内容的当日统计数据和变化比率确定原始补录值。
在上述装置的进一步说明中,所述确定模块还用于:在确定所述目标内容存在连续两个以上的数据缺失日期,且在确定连续两个以上的数据缺失日期中前一个数据缺失日期对应的待补录值后,根据前一个数据缺失日期对应的待补录值和衰减值确定后一个数据缺失日期对应的待补录值。
由于本发明实施例所述装置与上述实施例所述方法的原理相同,对于更加详细的解释内容在此不再赘述。
需要说明的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
本发明提供的统计数据的补录装置,通过对目标内容和内容平台上对应于数据缺失日期的热搜记录的综合分析,获知事件热度对目标内容的影响情况,再结合原始补录值得到目标内容在数据缺失日期上的待补录值,做到考虑内容平台上事件突发的热度对内容统计数据的影响,使得统计数据更真实。
图3示出了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)31、通信接口(Communications Interface)32、存储器(memory)33和通信总线34,其中,处理器31,通信接口32,存储器33通过通信总线34完成相互间的通信。处理器31可以调用存储器33中的逻辑指令,以执行统计数据的补录方法,该方法包括:获取目标内容,确定目标内容的数据缺失日期,目标内容为目标账户发布且存在统计数据缺失的内容;获取数据缺失日期对应的热搜记录,根据目标内容、热搜记录和原始补录值,确定目标内容在数据缺失日期上的待补录值;其中,热搜记录为目标账户所属内容平台在数据缺失日期内的事件排名记录;根据待补录值对目标内容的统计数据进行补录。
此外,上述的存储器33中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的统计数据的补录方法,该方法包括:获取目标内容,确定目标内容的数据缺失日期,目标内容为目标账户发布且存在统计数据缺失的内容;获取数据缺失日期对应的热搜记录,根据目标内容、热搜记录和原始补录值,确定目标内容在数据缺失日期上的待补录值;其中,热搜记录为目标账户所属内容平台在数据缺失日期内的事件排名记录;根据待补录值对目标内容的统计数据进行补录。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的统计数据的补录方法,该方法包括:获取目标内容,确定目标内容的数据缺失日期,目标内容为目标账户发布且存在统计数据缺失的内容;获取数据缺失日期对应的热搜记录,根据目标内容、热搜记录和原始补录值,确定目标内容在数据缺失日期上的待补录值;其中,热搜记录为目标账户所属内容平台在数据缺失日期内的事件排名记录;根据待补录值对目标内容的统计数据进行补录。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种统计数据的补录方法,其特征在于,包括:
获取目标内容,确定所述目标内容的数据缺失日期,所述目标内容为目标账户发布且存在统计数据缺失的内容;
获取所述数据缺失日期对应的热搜记录,根据所述目标内容、所述热搜记录和原始补录值,确定所述目标内容在数据缺失日期上的待补录值;其中,所述热搜记录为所述目标账户所属内容平台在所述数据缺失日期内的事件排名记录;所述原始补录值是基于历史数据进行预测得到的补录值;
根据所述待补录值对所述目标内容的统计数据进行补录;
所述根据所述目标内容、所述热搜记录和原始补录值得到所述目标内容在数据缺失日期上的待补录值,包括:
根据所述目标内容和所述热搜记录确定补录系数;
根据所述补录系数和原始补录值,确定所述目标内容在数据缺失日期上的待补录值;
所述热搜记录包括全时段热搜记录,相应地,所述根据所述目标内容和所述热搜记录确定补录系数,包括:
将所述目标内容在所述全时段热搜记录中进行内容匹配,确定位于所述全时段热搜记录中的匹配事件;
根据所述匹配事件在所述全时段热搜记录中的排名信息,确定补录系数。
2.根据权利要求1所述的统计数据的补录方法,其特征在于,所述根据所述匹配事件在所述全时段热搜记录中的排名信息,确定补录系数,包括:
根据所述匹配事件在所述全时段热搜记录中的排名信息和预设的排名范围与排名系数的对应关系,确定所述排名信息对应的排名系数;
根据所述排名信息和所述排名系数确定补录系数。
3.根据权利要求1所述的统计数据的补录方法,其特征在于,所述热搜记录还包括分时段热搜记录,所述分时段热搜记录为所述目标账户所属内容平台在所述数据缺失日期内各划分时段对应的事件排名记录,相应地,所述方法还包括:
在将所述目标内容在全时段热搜记录中进行内容匹配,未确定位于所述全时段热搜记录中的匹配事件,则根据所述目标内容、所述分时段热搜记录和原始补录值,确定所述目标内容在数据缺失日期上的待补录值。
4.根据权利要求1所述的统计数据的补录方法,其特征在于,所述方法还包括全时段热搜记录的获取步骤,包括:
将每日的时间按预设时间间隔进行均匀划分,获得各分时间段,并在每个分时间段内对内容平台上的内容进行爬取,并将排名在前预设数目的事件及事件对应的热搜指数进行记录,得到对应的分时段热搜记录;
根据各分时间段对应的分时段热搜记录确定全时段热搜记录。
5.根据权利要求1所述的统计数据的补录方法,其特征在于,所述方法还包括原始补录值的获取步骤,包括:
获取数据缺失日期前第1日和前第N日内除目标内容的所有发布内容的当日统计数据;根据所述当日统计数据确定变化比率,根据前第1日内除目标内容的所有发布内容的当日统计数据和变化比率确定原始补录值。
6.根据权利要求1所述的统计数据的补录方法,其特征在于,所述方法还包括:在确定所述目标内容存在连续两个以上的数据缺失日期,且在确定连续两个以上的数据缺失日期中前一个数据缺失日期对应的待补录值后,根据前一个数据缺失日期对应的待补录值和衰减值确定后一个数据缺失日期对应的待补录值。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述统计数据的补录方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述统计数据的补录方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110252180.2A CN112965969B (zh) | 2021-03-08 | 2021-03-08 | 统计数据的补录方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110252180.2A CN112965969B (zh) | 2021-03-08 | 2021-03-08 | 统计数据的补录方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112965969A CN112965969A (zh) | 2021-06-15 |
CN112965969B true CN112965969B (zh) | 2024-05-07 |
Family
ID=76277040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110252180.2A Active CN112965969B (zh) | 2021-03-08 | 2021-03-08 | 统计数据的补录方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112965969B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015128536A1 (en) * | 2014-02-26 | 2015-09-03 | Verto Analytics Oy | Measurement of multi-screen internet user profiles, transactional behaviors and structure of user population through a hybrid census and user based measurement methodology |
CN109445972A (zh) * | 2018-09-21 | 2019-03-08 | 深圳供电局有限公司 | 数据修复方法、装置、设备和存储介质 |
CN111143344A (zh) * | 2019-12-31 | 2020-05-12 | 新奥数能科技有限公司 | 一种用于时间序列数据缺失的补全方法及装置 |
CN112235636A (zh) * | 2020-09-07 | 2021-01-15 | 有米科技股份有限公司 | 带货视频浏览价值属性的计算方法及装置 |
-
2021
- 2021-03-08 CN CN202110252180.2A patent/CN112965969B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015128536A1 (en) * | 2014-02-26 | 2015-09-03 | Verto Analytics Oy | Measurement of multi-screen internet user profiles, transactional behaviors and structure of user population through a hybrid census and user based measurement methodology |
CN109445972A (zh) * | 2018-09-21 | 2019-03-08 | 深圳供电局有限公司 | 数据修复方法、装置、设备和存储介质 |
CN111143344A (zh) * | 2019-12-31 | 2020-05-12 | 新奥数能科技有限公司 | 一种用于时间序列数据缺失的补全方法及装置 |
CN112235636A (zh) * | 2020-09-07 | 2021-01-15 | 有米科技股份有限公司 | 带货视频浏览价值属性的计算方法及装置 |
Non-Patent Citations (1)
Title |
---|
应用矩阵填充的微博预测模型;林育曼;文海宁;饶浩;;福建师范大学学报(自然科学版)(第05期);18-22+83 * |
Also Published As
Publication number | Publication date |
---|---|
CN112965969A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11841879B2 (en) | Content discovery systems and methods | |
CN111291015B (zh) | 一种用户行为异常检测方法及装置 | |
US10210214B2 (en) | Scalable trend detection in a personalized search context | |
CN110334356A (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
CN112613938B (zh) | 模型训练方法、装置及计算机设备 | |
CN107977678A (zh) | 用于输出信息的方法和装置 | |
CN109325524A (zh) | 事件追踪与变化阶段划分方法、系统及相关设备 | |
CN118378053B (zh) | 基于数据挖掘的用户数据分析方法 | |
CN113326434A (zh) | 一种信息推荐方法、设备及存储介质 | |
CN112184300A (zh) | 一种达人匹配方法、介质、系统和设备 | |
US20160188676A1 (en) | Collaboration system for network management | |
CN112965969B (zh) | 统计数据的补录方法、装置、电子设备及存储介质 | |
CN111523048B (zh) | 社交网络中好友的推荐方法、装置、存储介质及终端 | |
KR101568800B1 (ko) | 실시간 이슈 검색어 선별 방법 및 시스템 | |
KR102078541B1 (ko) | 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체 | |
CN116431895A (zh) | 安全生产知识个性化推荐方法及系统 | |
US10628462B2 (en) | Propagating a status among related events | |
CN115640486A (zh) | 基于多源数据融合的网络新闻媒体影响力评估方法及装置 | |
Filipiak et al. | Quantitative analysis of art market using ontologies, named entity recognition and machine learning: A case study | |
JP5292336B2 (ja) | 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム | |
JP6135432B2 (ja) | 顧客分析プログラム、方法及び装置 | |
CN110309312B (zh) | 一种关联事件获取方法及装置 | |
CN112612996B (zh) | 一种抽样时间粒度选取方法、装置、电子设备及存储介质 | |
CN118132818B (zh) | 基于意象差异的旅游区域资源评估方法 | |
US11908023B1 (en) | Method and system for generating user interfaces to prompt users to perform an activity in a software application based on transaction time analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |