CN113254772B - 基于大数据的信息推送方法 - Google Patents

基于大数据的信息推送方法 Download PDF

Info

Publication number
CN113254772B
CN113254772B CN202110597047.0A CN202110597047A CN113254772B CN 113254772 B CN113254772 B CN 113254772B CN 202110597047 A CN202110597047 A CN 202110597047A CN 113254772 B CN113254772 B CN 113254772B
Authority
CN
China
Prior art keywords
data
real
characters
information
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110597047.0A
Other languages
English (en)
Other versions
CN113254772A (zh
Inventor
赵建云
缪茂争
魏士超
缪佳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yuanqiao Information Technology Co.,Ltd.
Original Assignee
Shandong Yuanqiao Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yuanqiao Information Technology Co ltd filed Critical Shandong Yuanqiao Information Technology Co ltd
Priority to CN202110597047.0A priority Critical patent/CN113254772B/zh
Publication of CN113254772A publication Critical patent/CN113254772A/zh
Application granted granted Critical
Publication of CN113254772B publication Critical patent/CN113254772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本发明涉及一种基于大数据的信息推送方法,该方法包括采集用户的历史数据,基于历史数据设置用户画像,基于用户画像形成第一推送列表,所述第一推送列表中包含至少两条信息;接收用户输入的实时数据,比较实时数据与历史数据的相似度,根据每条历史数据的所述相似度确定实时数据的差异度,根据所述差异度从所述第一推送列表中提取其中的目标信息;将所述目标信息发给所述用户;目标信息的选择是基于实时数据和历史数据的比较结果,目标信息的选择是综合实时数据和历史数据两个方面,使得目标信息的选取更能体现用户的当前现状以及历史用户画像,大大降低了信息推送的信息延迟性,提高目标信息选择的精准度。

Description

基于大数据的信息推送方法
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种基于大数据的信息推送方法。
背景技术
随着互联网与信息技术的发展,用户获取信息的方式发生了巨大的变化。互联网上的信息量呈现出爆炸式增长,用户在海量信息中获取信息有一定的困难,因此,信息推送应运而生。信息推送能够将用户所需的信息直接推送到用户手中,缓解了信息过载。
根据用户信息需求的显露方式不同,用户信息需求的显露方式分为用户信息需求的显示表达与隐式透露,因此将信息推送模式归纳为订阅式信息推送模式和迎合式信息推送模式。订阅式信息推送对应用户信息需求的显式表达。迎合式信息推送对应用户信息需求的隐式透露,隐式透露是用户浏览、点赞、发帖评论等行为间接透露出来的用户信息兴趣与阅读偏好。迎合式信息推送模式,依赖对已知身份用户的上述行为的持续不断跟踪。迎合式推送模式的核心思想是基于用户数据的获取,通过算法推荐为用户推送所需的信息,满足用户信息需求的个性化,但是用户兴趣偏好会随着时间推移发生变化,此时信息推送平台中对于用户历史数据的收集会存在一定的延迟,因此无法及时满足用户更新的信息需求。
发明内容
为此,本发明提供一种基于大数据的信息推送方法,可以解决根据历史数据进行信息推送信息滞后的问题。
为实现上述目的,本发明提供一种基于大数据的信息推送方法,包括:采集用户的历史数据,基于历史数据设置用户画像,基于用户画像形成第一推送列表,所述第一推送列表中包含至少两条信息;
接收用户输入的实时数据,比较实时数据与历史数据的相似度,根据每条历史数据的所述相似度确定实时数据的差异度,根据所述差异度从所述第一推送列表中提取其中的目标信息;
将所述目标信息发给所述用户;
所述比较实时数据与历史数据的相似度包括:历史数据包括N1,N2,N3…Nn多条信息,每条信息的长度分别为L1,L2,L3…Ln, 实时数据的长度设置为实时数据的长度ln,
将每条信息的长度分别与实时数据的长度进行比较,若Li<实时数据的长度ln,则表示该条信息内不包含实时数据,属于第一相似度;
若Li≥实时数据的长度ln,则将满足长度要求的历史数据建立历史信息矩阵M(M1,M2…Mk),其中k<n,对于历史信息矩阵中的历史数据进行判断时,从历史信息Mi中的第1个字符开始,不间断选择n个字符,将n个字符与实时数据的字符分别进行比较,若n个字符中与实时数据的字符重合率小于95%则表示历史信息Mi中包含实时数据,表示该实时数据与历史数据有细微差异,属于第二相似度;
从历史信息Mi中的第2个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
从历史信息Mi中的第k个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
若n个字符中与实时数据的字符重合率大于等于95%则表示历史信息Mi中包含实时数据,表示该实时数据与历史数据无差异,属于第三相似度;
从历史信息Mi中的第2个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度;
从历史信息Mi中的第k个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度。
进一步地,在确定历史信息内是否包含实时数据时,还包括:从历史信息Mi中的倒数第一个字符,从后往前选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
从历史信息Mi中的倒数第二个字符,从后往前选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
从历史信息Mi中的第k个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
在确定历史信息内是否包含实时数据时,还包括:从历史信息Mi中的倒数第一个字符,从后往前选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度;
从历史信息Mi中的倒数第二个字符,从后往前选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度;
从历史信息Mi中的第k个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度。
进一步地,在比较的过程中,若历史信息Mi中进行k次比较之后,其中有0.2×k次的比较结果是历史信息中包含实时数据,此时判定该历史信息Mi中不包含实时数据的字符。
进一步地,若对于历史信息Mi中选择的n个字符与实时数据的字符进行比较时,若n个字符中与实时数据的字符重合率小于等于95%,则找到出现差异的第一个字符位,从第一个差异位开始重新选择n个字符,将该n个字符与实时数据的字符进行比较,若重合率高于95%,则表示该历史信息内包含实时数据,若小于等于95%则需要进一步判断。
进一步地,所述根据所述差异度从所述第一推送列表中提取其中的目标信息包括:将第一推送列表中的信息进行排序,且设置第一推送优先级、第二推送优先级和第三推送优先级,且每一推送优先级内至少包括一条信息,当实时数据与历史数据库进行比较,若确定实时数据属于第一差异度,则从第三推送优先级中选择排在第一位的目标信息推送给用户;
若确定实时数据属于第二差异度,则从第二推送优先级中选择排在第一位的目标信息推送给用户;
若确定实时数据属于第三差异度,则从第一推送优先级中选择排在第一位的目标信息推送给用户。
进一步地,第一差异度的计算公式可以采用与实时数据为第一相似度的数据的数量/n,其中n为历史数据的总数;
第二差异度的计算公式可以采用与实时数据为第二相似度的数据的数量/n,其中n为历史数据的总数;
第三差异度的计算公式可以采用与实时数据为第三相似度的数据的数量/n,其中n为历史数据的总数。
进一步地,对于数据的相似度采用字节长度、字符信息确定两个数据的相似度,若是字节长度相同,则可能是相似数据,若字节长度不同,则不可能为相似数据,当字节长度相同时,则确定两个数据的字符信息是否相同,若字符信息也相同,则需要进一步比较数据块,以确定重合度。
进一步地,对于历史数据中的任意一条数据,该数据包括多个数据块,在中央处理器内还设置有数据块矩阵D(D1,D2,D3,D4,…,Dn),其中D1表示第一数据块,D2表示第二数据块,D3表示第三数据块,D4表示第四数据块,Dn表示第n数据块,其中,第一数据块、第二数据块、第三数据块、第四数据块和第五数据块依次首位连接形成数据;
选择第i数据块Di,比较选中的数据块与其他数据块的重合度,若除去数据块Di之后的数据中存在与所述数据块Di相同的数据,则将数据块Di删除,将删除之后的数据块组合成新的历史数据后,再与实时数据进行比较。
进一步地,在进行历史数据和实时数据进行比较之前做剔除重复数据,在对任意历史数据进行筛选之前,还要确定与其进行比较的数据块,在中央处理器内还设置有数据块冗余度矩阵R(R1,R2,R3,R4),其中,R1表示第一冗余度,R2表示第二冗余度,R3表示第三冗余度,R4表示第四冗余度,且R1大于R2,R2大于R3,R3大于R4;
在历史数据数据库内,确定除去当前数据块之后的其他数据中的任意数据与当前数据的冗余度R; 若剩下的数据与当前数据块的冗余度R≥第一冗余度R1,则与当前数据块进行相似性比较数据中仍然存在重复数据,还需要进行至少5次筛选剔除;
若第一冗余度R1>与当前数据的冗余度R≥第二冗余度R2,则与当前数据块进行相似性比较数据中仍然存在重复数据,还需要进行至少3次筛选剔除;
若第二冗余度R2>与当前数据的冗余度R≥第三冗余度R3,则与当前数据块进行相似性比较数据中仍然存在重复数据,还需要进行至少2次筛选剔除;
若第三冗余度R3>与当前数据的冗余度R≥第四冗余度R4,则与当前数据块进行相似性比较数据中仍然存在重复数据,还需要进行至少1次筛选剔除;
若与当前数据的冗余度R<第四冗余度R4,则无需与所述当前数据进行相似性比较。
进一步地,获取历史数据的时间戳,根据时间戳与当前时间的间隔时长分别设置第一修正系数k1、第二修正系数k2和第三修正系数k3,用以对在根据相似度确定差异度的过程中,对相似度进行修正,以提高差异度计算的准确性。
与现有技术相比,本发明的有益效果在于,通过在接收到实时数据后,将实时数据与用户的历史数据进行一一对比,确定实时数据与历史数据的相似度,而相似度的确定是基于数据重合率的大小,使得数据重合度的确定更为精确,进而根据相似度确定的差异度选择推送列表中的目标信息,使得对于目标信息的选择更为精准,尤其,该目标信息的选择是基于实时数据和历史数据的比较结果,换言之,目标信息的选择是综合实时数据和历史数据两个方面,使得目标信息的选取更能体现用户的当前现状以及历史用户画像,大大降低了信息推送的信息延迟性,提高目标信息选择的精准度。
尤其,通过在对历史数据进行数据处理时,将每条历史数据和实时数据字符进行比较,确定每条历史数据与实时数据的重合率进而确定相似度,遍历历每一条历史数据,使得根据每条历史数据的相似度确定该实时信息的差异度,确定该差异度属于第一差异度、第二差异度或第三差异度,进而选择该实时信息对应的目标信息,提高目标信息推送的精准度。
尤其,通过字节长度确定可能包含实时数据字符后,还需要根据比较的结果确定是否真的包含该实时数据字符,使得对数据的筛选比较更为精准,提高比较精度,进而提高相似度和差异度的准确度,使得可以精准定位目标信息,使得对信息的推送更为精确,提高推送的精准度。
尤其,根据差异度的不同选择的目标信息也不同,进而实现在进行信息推送时可以基于实时信息进行推送,增加实时信息对目标信息的影响力,提高目标信息推送的准确性。
尤其,通过对历史数据中的数据块进行重复数据筛选,去掉重复数据,以降低数据比较过程中进行数据处理的数据量,提高数据处理速度,本发明实施例通过剔除重复数据后进行数据比较,减少数据处理量,提高数据处理效率。
尤其,通过对数据的冗余度进行比较,确定还需要对数据进行处理的次数,提高对历史数据的处理精度,减少历史数据与实时数据比较的精准性,减少处理器在数据比较阶段进行数据处理的数量,提高信息处理速度,便于快速获取推送的目标信息,提高推送效率。
附图说明
图1为本发明实施例提供的基于大数据的信息推送方法的流程示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
请参阅图1所示,本发明实施例提供的基于大数据的信息推送方法可以应用于电商领域,可以应用于图书领域,但是并不限于上述领域。本发明实施例提供的基于大数据的信息推送方法包括:
步骤S100:采集用户的历史数据,基于历史数据设置用户画像,基于用户画像形成第一推送列表,所述第一推送列表中包含至少两条信息;
步骤S200:接收用户输入的实时数据,比较实时数据与历史数据的相似度,根据每条历史数据的所述相似度确定实时数据的差异度,根据所述差异度从所述第一推送列表中提取其中的目标信息;
步骤S300: 将所述目标信息发给所述用户。
具体而言,本发明实施例中的基于大数据的信息推送方法,历史数据可以是用户的消费记录,用户的消费记录包括用户购买时间,购买物品,所购物品的价格和购买频次等。而本发明实施例中的用户可以是用户的终端信息还可以是用户的账户信息,而将推送信息发给用户时,可以将该推送信息发送给终端,还可以在用户登录相应账户时推送至用户的账号上。
具体而言,在步骤S200中,比较实时数据与历史数据的相似度包括:历史数据包括N1,N2,N3…Nn多条信息,每条信息的长度分别为L1,L2,L3…Ln, 实时数据的长度设置为实时数据的长度ln,
将每条信息的长度分别与实时数据的长度进行比较,若Li<实时数据的长度ln,则表示该条信息内不包含实时数据,属于第一相似度;
若Li≥实时数据的长度ln,则将满足长度要求的历史数据建立历史信息矩阵M(M1,M2…Mk),其中k<n,对于历史信息矩阵中的历史数据进行判断时,从历史信息Mi中的第1个字符开始,不间断选择n个字符,将n个字符与实时数据的字符分别进行比较,若n个字符中与实时数据的字符重合率小于95%则表示历史信息Mi中包含实时数据,表示该实时数据与历史数据有细微差异,属于第二相似度;
从历史信息Mi中的第2个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
从历史信息Mi中的第k个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
若n个字符中与实时数据的字符重合率大于等于95%则表示历史信息Mi中包含实时数据,表示该实时数据与历史数据无差异,属于第三相似度;
从历史信息Mi中的第2个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度;
从历史信息Mi中的第k个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度。
具体而言,本发明实施例提供的基于大数据的信息推送方法,在接收到实时数据后,将实时数据与用户的历史数据进行一一对比,确定实时数据与历史数据的相似度,而相似度的确定是基于数据重合率的大小,使得数据重合度的确定更为精确,进而根据相似度确定的差异度选择推送列表中的目标信息,使得对于目标信息的选择更为精准,尤其,该目标信息的选择是基于实时数据和历史数据的比较结果,换言之,目标信息的选择是综合实时数据和历史数据两个方面,使得目标信息的选取更能体现用户的当前现状以及历史用户画像,大大降低了信息推送的信息延迟性,提高目标信息选择的精准度。
具体而言,在确定历史信息内是否包含实时数据时,还包括:从历史信息Mi中的倒数第一个字符,从后往前选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
从历史信息Mi中的倒数第二个字符,从后往前选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
从历史信息Mi中的第k个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
在确定历史信息内是否包含实时数据时,还包括:从历史信息Mi中的倒数第一个字符,从后往前选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度;
从历史信息Mi中的倒数第二个字符,从后往前选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度;
从历史信息Mi中的第k个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度。
具体而言,本发明实施例提供的基于大数据的信息推送方法在对历史数据进行数据处理时,将每条历史数据和实时数据字符进行比较,确定每条历史数据与实时数据的重合率进而确定相似度,遍历历每一条历史数据,使得根据每条历史数据的相似度确定该实时信息的差异度,确定该差异度属于第一差异度、第二差异度或第三差异度,进而选择该实时信息对应的目标信息,提高目标信息推送的精准度。
具体而言,在比较的过程中,若历史信息Mi中进行k次比较之后,其中有0.2×k次的比较结果是历史信息中包含实时数据,此时判定该历史信息Mi中不包含实时数据的字符。
具体而言,在通过字节长度确定可能包含实时数据字符后,还需要根据比较的结果确定是否真的包含该实时数据字符,使得对数据的筛选比较更为精准,提高比较精度,进而提高相似度和差异度的准确度,使得可以精准定位目标信息,使得对信息的推送更为精确,提高推送的精准度。
具体而言,若对于历史信息Mi中选择的n个字符与实时数据的字符进行比较时,若n个字符中与实时数据的字符重合率小于等于95%,则找到出现差异的第一个字符位,从第一个差异位开始重新选择n个字符,将该n个字符与实时数据的字符进行比较,若重合率高于95%,则表示该历史信息内包含实时数据,若小于等于95%则需要进一步判断。
具体而言,通过对历史信息Mi中选择的n个字符与实时数据的字符存在差异的第一个字符开始重新选择n个字符继续比较,该n个字符与实时数据的字符进行比较,若重合率高于95%,则表示该历史信息内包含实时数据,进一步提高对历史信息内是否包含实时数据判断的准确性,提高判断的合理性和全面性。
具体而言,所述根据所述差异度从所述第一推送列表中提取其中的目标信息包括:将第一推送列表中的信息进行排序,且设置第一推送优先级、第二推送优先级和第三推送优先级,且每一推送优先级内至少包括一条信息,当实时数据与历史数据库进行比较,若确定实时数据属于第一差异度,则从第三推送优先级中选择排在第一位的目标信息推送给用户;
若确定实时数据属于第二差异度,则从第二推送优先级中选择排在第一位的目标信息推送给用户;
若确定实时数据属于第三差异度,则从第一推送优先级中选择排在第一位的目标信息推送给用户。
具体而言,第一差异度的计算公式可以采用与实时数据为第一相似度的数据的数量/n,其中n为历史数据的总数;
第二差异度的计算公式可以采用与实时数据为第二相似度的数据的数量/n,其中n为历史数据的总数;
第三差异度的计算公式可以采用与实时数据为第三相似度的数据的数量/n,其中n为历史数据的总数。
具体而言,本发明实施例提供的基于大数据的信息推送方法根据差异度的不同选择的目标信息也不同,进而实现在进行信息推送时可以基于实时信息进行推送,增加实时信息对目标信息的影响力,提高目标信息推送的准确性。
具体而言,对于数据的相似度采用字节长度、字符信息确定两个数据的相似度,若是字节长度相同,则可能是相似数据,若字节长度不同,则不可能为相似数据,当字节长度相同时,则确定两个数据的字符信息是否相同,若字符信息也相同,则需要进一步比较数据块,以确定重合度,提高相似度确定的精准度。
具体而言,对于历史数据中的任意一条数据,该数据包括多个数据块,在中央处理器内还设置有数据块矩阵D(D1,D2,D3,D4,…,Dn),其中D1表示第一数据块,D2表示第二数据块,D3表示第三数据块,D4表示第四数据块,Dn表示第n数据块,其中,第一数据块、第二数据块、第三数据块、第四数据块和第五数据块依次首位连接形成数据;
选择第i数据块Di,比较该选中的数据块与其他数据块的重合度,若除去数据块Di之后的数据中存在与所述数据块Di相同的数据,则将数据块Di删除,将删除之后的数据块组合成新的历史数据后,再与实时数据进行比较。
具体而言,本发明实施例提供的基于大数据的信息推送方法通过对历史数据中的数据块进行重复数据筛选,去掉重复数据,以降低数据比较过程中进行数据处理的数据量,提高数据处理速度,本发明实施例通过剔除重复数据后进行数据比较,减少数据处理量,提高数据处理效率。
具体而言,在进行历史数据和实时数据进行比较之前做剔除重复数据,在对任意历史数据进行筛选之前,还要确定与其进行比较的数据块,在中央处理器内还设置有数据块冗余度矩阵R(R1,R2,R3,R4),其中,R1表示第一冗余度,R2表示第二冗余度,R3表示第三冗余度,R4表示第四冗余度,且R1大于R2,R2大于R3,R3大于R4;
在历史数据数据库内,确定除去当前数据块之后的其他数据中的任意数据与当前数据的冗余度R; 若剩下的数据与当前数据块的冗余度R≥第一冗余度R1,则与当前数据块进行相似性比较数据中仍然存在重复数据,还需要进行至少5次筛选剔除;
若第一冗余度R1>与当前数据的冗余度R≥第二冗余度R2,则与当前数据块进行相似性比较数据中仍然存在重复数据,还需要进行至少3次筛选剔除;
若第二冗余度R2>与当前数据的冗余度R≥第三冗余度R3,则与当前数据块进行相似性比较数据中仍然存在重复数据,还需要进行至少2次筛选剔除;
若第三冗余度R3>与当前数据的冗余度R≥第四冗余度R4,则与当前数据块进行相似性比较数据中仍然存在重复数据,还需要进行至少1次筛选剔除;
若与当前数据的冗余度R<第四冗余度R4,则无需与所述当前数据进行相似性比较。
具体而言,本发明实施例提供的基于大数据的信息推送方法通过对数据的冗余度进行比较,确定还需要对数据进行处理的次数,提高对历史数据的处理精度,减少历史数据与实时数据比较的精准性,减少处理器在数据比较阶段进行数据处理的数量,提高信息处理速度,便于快速获取推送的目标信息,提高推送效率。
具体而言,获取历史数据的时间戳,根据时间戳与当前时间的间隔时长分别设置第一修正系数k1、第二修正系数k2和第三修正系数k3,用以对在根据相似度确定差异度的过程中,对相似度进行修正,以提高差异度计算的准确性。
具体而言,本发明实施例中通过在进行第一差异度、第二差异度和第三差异度的计算过程中,分别利用第一修正系数k1、第二修正系数k2和第三修正系数k3进行修正,提高差异度计算的准确性,进而提高目标信息推送的精准度,若是历史数据中的陈旧信息较多,对数据的差异度的计算会有影响,因此通过设置时间节点,若时间节点前的历史信息较多,则采用第一修正系数对与实时数据为第一相似度的数据的数量进行修正,采用第二修正系数对与实时数据为第二相似度的数据的数量进行修正,采用第三修正系数对与实时数据为第三相似度的数据的数量进行修正。
本发明实施例通过确定历史信息中的数据有效性,提高差异度计算的精准度,进而提高目标信息选择的精确性。
具体而言,还包括获取用户的登录时间,确定最优推送时间,在最优推送时间内将目标信息推送给用户。
具体而言,本发明实施例通过对推送时间的优化,若用户登录后就推送会增加信息推送的盲目性,若在午夜时分,用户登录后可能不会逗留太多时间,甚至会出现登录就退出的情形,若此时推送信息,用户可能无法接受,给用户的影响较小,使得信息推送对用户的黏性不产生作用,本发明实施例通过对登录时间筛选,选择用户的逗留时间较长,或是心态放松时再进行推送,提高目标信息对用户的影响力,进而提高用户黏度,提高信息推送的目的性及高效性。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于大数据的信息推送方法,其特征在于,包括:
采集用户的历史数据,基于历史数据设置用户画像,基于用户画像形成第一推送列表,所述第一推送列表中包含至少两条信息;
接收用户输入的实时数据,比较实时数据与历史数据的相似度,根据每条历史数据的所述相似度确定实时数据的差异度,根据所述差异度从所述第一推送列表中提取其中的目标信息;
将所述目标信息发给所述用户;
所述比较实时数据与历史数据的相似度包括:历史数据包括N1,N2,N3…Nn多条信息,每条信息的长度分别为L1,L2,L3…Ln, 实时数据的长度设置为实时数据的长度ln,
将每条信息的长度分别与实时数据的长度进行比较,若Li<实时数据的长度ln,则表示该条信息内不包含实时数据,属于第一相似度;
若Li≥实时数据的长度ln,则将满足长度要求的历史数据建立历史信息矩阵M(M1,M2…Mk),其中k<n,对于历史信息矩阵中的历史数据进行判断时,从历史信息Mi中的第1个字符开始,不间断选择n个字符,将n个字符与实时数据的字符分别进行比较,若n个字符中与实时数据的字符重合率小于95%则表示历史信息Mi中包含实时数据,表示该实时数据与历史数据有细微差异,属于第二相似度;
从历史信息Mi中的第2个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
从历史信息Mi中的第k个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
若n个字符中与实时数据的字符重合率大于等于95%则表示历史信息Mi中包含实时数据,表示该实时数据与历史数据无差异,属于第三相似度;
从历史信息Mi中的第2个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度;
从历史信息Mi中的第k个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度。
2.根据权利要求1所述的基于大数据的信息推送方法,其特征在于,
在确定历史信息内是否包含实时数据时,还包括:从历史信息Mi中的倒数第一个字符,从后往前选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
从历史信息Mi中的倒数第二个字符,从后往前选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
从历史信息Mi中的第k个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率小于95%则属于第二相似度;
在确定历史信息内是否包含实时数据时,还包括:从历史信息Mi中的倒数第一个字符,从后往前选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度;
从历史信息Mi中的倒数第二个字符,从后往前选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度;
从历史信息Mi中的第k个字符开始,选择n个字符,将n个字符与实时数据的字符进行比较,若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度。
3.根据权利要求2所述的基于大数据的信息推送方法,其特征在于,在比较的过程中,若历史信息Mi中进行k次比较之后,其中有0.2×k次的比较结果是历史信息中包含实时数据,此时判定该历史信息Mi中不包含实时数据的字符。
4.根据权利要求1所述的基于大数据的信息推送方法,其特征在于,
所述根据所述差异度从所述第一推送列表中提取其中的目标信息包括:将第一推送列表中的信息进行排序,且设置第一推送优先级、第二推送优先级和第三推送优先级,且每一推送优先级内至少包括一条信息,当实时数据与历史数据库进行比较,若确定实时数据属于第一差异度,则从第三推送优先级中选择排在第一位的目标信息推送给用户;
若确定实时数据属于第二差异度,则从第二推送优先级中选择排在第一位的目标信息推送给用户;
若确定实时数据属于第三差异度,则从第一推送优先级中选择排在第一位的目标信息推送给用户。
5.根据权利要求4所述的基于大数据的信息推送方法,其特征在于,第一差异度的计算公式可以采用与实时数据为第一相似度的数据的数量/n,其中n为历史数据的总数;
第二差异度的计算公式可以采用与实时数据为第二相似度的数据的数量/n,其中n为历史数据的总数;
第三差异度的计算公式可以采用与实时数据为第三相似度的数据的数量/n,其中n为历史数据的总数。
6.根据权利要求5所述的基于大数据的信息推送方法,其特征在于,对于数据的相似度采用字节长度、字符信息确定两个数据的相似度,若是字节长度相同,则可能是相似数据,若字节长度不同,则不可能为相似数据,当字节长度相同时,则确定两个数据的字符信息是否相同,若字符信息也相同,则需要进一步比较数据块,以确定重合度。
7.根据权利要求6所述的基于大数据的信息推送方法,其特征在于,
对于历史数据中的任意一条数据,该数据包括多个数据块,在中央处理器内还设置有数据块矩阵D(D1,D2,D3,D4,…,Dn),其中D1表示第一数据块,D2表示第二数据块,D3表示第三数据块,D4表示第四数据块,Dn表示第n数据块,其中,第一数据块、第二数据块、第三数据块、第四数据块和第五数据块依次首位连接形成数据;
选择第i数据块Di,比较选中的数据块与其他数据块的重合度,若除去数据块Di之后的数据中存在与所述数据块Di相同的数据,则将数据块Di删除,将删除之后的数据块组合成新的历史数据后,再与实时数据进行比较。
8.根据权利要求7所述的基于大数据的信息推送方法,其特征在于,
在进行历史数据和实时数据进行比较之前做剔除重复数据,在对任意历史数据进行筛选之前,还要确定与其进行比较的数据块,在中央处理器内还设置有数据块冗余度矩阵R(R1,R2,R3,R4),其中,R1表示第一冗余度,R2表示第二冗余度,R3表示第三冗余度,R4表示第四冗余度,且R1大于R2,R2大于R3,R3大于R4;
在历史数据数据库内,确定除去当前数据块之后的其他数据中的任意数据与当前数据的冗余度R; 若剩下的数据与当前数据块的冗余度R≥第一冗余度R1,则与当前数据块进行相似性比较数据中仍然存在重复数据,还需要进行至少5次筛选剔除;
若第一冗余度R1>与当前数据的冗余度R≥第二冗余度R2,则与当前数据块进行相似性比较数据中仍然存在重复数据,还需要进行至少3次筛选剔除;
若第二冗余度R2>与当前数据的冗余度R≥第三冗余度R3,则与当前数据块进行相似性比较数据中仍然存在重复数据,还需要进行至少2次筛选剔除;
若第三冗余度R3>与当前数据的冗余度R≥第四冗余度R4,则与当前数据块进行相似性比较数据中仍然存在重复数据,还需要进行至少1次筛选剔除;
若与当前数据的冗余度R<第四冗余度R4,则无需与所述当前数据进行相似性比较。
9.根据权利要求8所述的基于大数据的信息推送方法,其特征在于,获取历史数据的时间戳,根据时间戳与当前时间的间隔时长分别设置第一修正系数k1、第二修正系数k2和第三修正系数k3,用以对在根据相似度确定差异度的过程中,对相似度进行修正,以提高差异度计算的准确性。
CN202110597047.0A 2021-05-31 2021-05-31 基于大数据的信息推送方法 Active CN113254772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110597047.0A CN113254772B (zh) 2021-05-31 2021-05-31 基于大数据的信息推送方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110597047.0A CN113254772B (zh) 2021-05-31 2021-05-31 基于大数据的信息推送方法

Publications (2)

Publication Number Publication Date
CN113254772A CN113254772A (zh) 2021-08-13
CN113254772B true CN113254772B (zh) 2022-01-11

Family

ID=77183503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110597047.0A Active CN113254772B (zh) 2021-05-31 2021-05-31 基于大数据的信息推送方法

Country Status (1)

Country Link
CN (1) CN113254772B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090894A (zh) * 2013-12-18 2014-10-08 深圳市腾讯计算机系统有限公司 在线并行计算推荐信息的方法、装置及服务器
CN105989005A (zh) * 2015-01-27 2016-10-05 中国移动通信集团公司 一种信息的推送方法及装置
CN106250550A (zh) * 2016-08-12 2016-12-21 智者四海(北京)技术有限公司 一种实时关联新闻推荐内容的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140372150A1 (en) * 2013-06-14 2014-12-18 Hartford Fire Insurance Company System and method for administering business insurance transactions using crowd sourced purchasing and risk data
US10942980B2 (en) * 2018-09-10 2021-03-09 Sap Se Real-time matching of users and applications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090894A (zh) * 2013-12-18 2014-10-08 深圳市腾讯计算机系统有限公司 在线并行计算推荐信息的方法、装置及服务器
CN105989005A (zh) * 2015-01-27 2016-10-05 中国移动通信集团公司 一种信息的推送方法及装置
CN106250550A (zh) * 2016-08-12 2016-12-21 智者四海(北京)技术有限公司 一种实时关联新闻推荐内容的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Towards Real-Time Information Processing of Sensor Network Data using Computationally Efficient Multi-output Gaussian Processes;M. A. Osborne,S. J. Roberts;《2008 International Conference on Information Processing in Sensor Networks》;20080422;全文 *

Also Published As

Publication number Publication date
CN113254772A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN100447735C (zh) 利用协作过滤和万维网蜘蛛式搜索推荐搜索项
CN106156878B (zh) 广告点击率矫正方法及装置
US7831474B2 (en) System and method for associating an unvalued search term with a valued search term
CN101673385A (zh) 消费预估方法和装置
CN102667761A (zh) 可扩展的集群数据库
CN108647357B (zh) 数据查询的方法及装置
CN103389974A (zh) 进行信息搜索的方法及服务器
CN102110098A (zh) 网络信息推荐方法及系统
CN103309894A (zh) 基于用户属性的搜索实现方法及系统
CN113254772B (zh) 基于大数据的信息推送方法
CN101464883A (zh) 内容检索设备和方法
CN103020083A (zh) 需求识别模板的自动挖掘方法、需求识别方法及对应装置
CN105405051A (zh) 金融事件预测方法和装置
CN110690987B (zh) 账号信息管理方法、装置及设备
CN108228565A (zh) 一种商品信息关键词的识别方法
CN111160975A (zh) 一种目标用户确定方法、装置、设备及计算机存储介质
CN108710620B (zh) 一种基于用户的k-最近邻算法的图书推荐方法
CN114817730B (zh) 一种大数据情境下的资讯活动信息推荐系统及方法
CN114912668A (zh) 基金价格预测系统及应用
CN107622454A (zh) 一种基于微服务的机会管理方法
CN110717646A (zh) 一种银行需求后评价的实现方法及系统
CN111079035A (zh) 基于动态图谱链接分析的领域搜索排序方法
CN111026863A (zh) 客户行为预测方法、装置、设备及介质
JP2000348039A (ja) 情報提供方式及びその方式を用いた情報提供装置
CN117057667B (zh) 一种基于物联网的科技成果统计分析管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zhao Jianyun

Inventor after: Miao Maozheng

Inventor after: Wei Shichao

Inventor after: Miao Jialin

Inventor before: Miao Maozheng

Inventor before: Wei Shichao

Inventor before: Miao Jialin

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
TA01 Transfer of patent application right

Effective date of registration: 20211229

Address after: No. 1301, floor 13, building a7-5, Hanyu Golden Valley, No. 7000, Jingshi Road, Jinan area, China (Shandong) pilot Free Trade Zone, Jinan City, Shandong Province

Applicant after: Shandong Yuanqiao Information Technology Co.,Ltd.

Address before: 325000 floor 8-3, building 3, shuijingyuan, Xincheng Avenue, Lucheng District, Wenzhou City, Zhejiang Province

Applicant before: Wenzhou Network Technology Co.,Ltd.

TA01 Transfer of patent application right