CN113254772B

CN113254772B - 基于大数据的信息推送方法

Info

Publication number: CN113254772B
Application number: CN202110597047.0A
Authority: CN
Inventors: 赵建云; 缪茂争; 魏士超; 缪佳琳
Original assignee: Shandong Yuanqiao Information Technology Co ltd
Current assignee: Shandong Yuanqiao Information Technology Co.,Ltd.
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-01-11
Anticipated expiration: 2041-05-31
Also published as: CN113254772A

Abstract

本发明涉及一种基于大数据的信息推送方法，该方法包括采集用户的历史数据，基于历史数据设置用户画像，基于用户画像形成第一推送列表，所述第一推送列表中包含至少两条信息；接收用户输入的实时数据，比较实时数据与历史数据的相似度，根据每条历史数据的所述相似度确定实时数据的差异度，根据所述差异度从所述第一推送列表中提取其中的目标信息；将所述目标信息发给所述用户；目标信息的选择是基于实时数据和历史数据的比较结果，目标信息的选择是综合实时数据和历史数据两个方面，使得目标信息的选取更能体现用户的当前现状以及历史用户画像，大大降低了信息推送的信息延迟性，提高目标信息选择的精准度。

Description

基于大数据的信息推送方法

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种基于大数据的信息推送方法。

背景技术

随着互联网与信息技术的发展，用户获取信息的方式发生了巨大的变化。互联网上的信息量呈现出爆炸式增长，用户在海量信息中获取信息有一定的困难，因此，信息推送应运而生。信息推送能够将用户所需的信息直接推送到用户手中，缓解了信息过载。

根据用户信息需求的显露方式不同，用户信息需求的显露方式分为用户信息需求的显示表达与隐式透露，因此将信息推送模式归纳为订阅式信息推送模式和迎合式信息推送模式。订阅式信息推送对应用户信息需求的显式表达。迎合式信息推送对应用户信息需求的隐式透露，隐式透露是用户浏览、点赞、发帖评论等行为间接透露出来的用户信息兴趣与阅读偏好。迎合式信息推送模式，依赖对已知身份用户的上述行为的持续不断跟踪。迎合式推送模式的核心思想是基于用户数据的获取，通过算法推荐为用户推送所需的信息，满足用户信息需求的个性化，但是用户兴趣偏好会随着时间推移发生变化，此时信息推送平台中对于用户历史数据的收集会存在一定的延迟，因此无法及时满足用户更新的信息需求。

发明内容

为此，本发明提供一种基于大数据的信息推送方法，可以解决根据历史数据进行信息推送信息滞后的问题。

为实现上述目的，本发明提供一种基于大数据的信息推送方法，包括：采集用户的历史数据，基于历史数据设置用户画像，基于用户画像形成第一推送列表，所述第一推送列表中包含至少两条信息；

接收用户输入的实时数据，比较实时数据与历史数据的相似度，根据每条历史数据的所述相似度确定实时数据的差异度，根据所述差异度从所述第一推送列表中提取其中的目标信息；

将所述目标信息发给所述用户；

所述比较实时数据与历史数据的相似度包括：历史数据包括N1,N2,N3…Nn多条信息，每条信息的长度分别为L1,L2,L3…Ln, 实时数据的长度设置为实时数据的长度ln，

将每条信息的长度分别与实时数据的长度进行比较，若Li<实时数据的长度ln，则表示该条信息内不包含实时数据，属于第一相似度；

若Li≥实时数据的长度ln，则将满足长度要求的历史数据建立历史信息矩阵M（M1,M2…Mk），其中k<n，对于历史信息矩阵中的历史数据进行判断时，从历史信息Mi中的第1个字符开始，不间断选择n个字符，将n个字符与实时数据的字符分别进行比较，若n个字符中与实时数据的字符重合率小于95%则表示历史信息Mi中包含实时数据，表示该实时数据与历史数据有细微差异，属于第二相似度；

从历史信息Mi中的第2个字符开始，选择n个字符，将n个字符与实时数据的字符进行比较，若n个字符中与实时数据的字符重合率小于95%则属于第二相似度；

从历史信息Mi中的第k个字符开始，选择n个字符，将n个字符与实时数据的字符进行比较，若n个字符中与实时数据的字符重合率小于95%则属于第二相似度；

若n个字符中与实时数据的字符重合率大于等于95%则表示历史信息Mi中包含实时数据，表示该实时数据与历史数据无差异，属于第三相似度；

从历史信息Mi中的第2个字符开始，选择n个字符，将n个字符与实时数据的字符进行比较，若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度；

从历史信息Mi中的第k个字符开始，选择n个字符，将n个字符与实时数据的字符进行比较，若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度。

进一步地，在确定历史信息内是否包含实时数据时，还包括：从历史信息Mi中的倒数第一个字符，从后往前选择n个字符，将n个字符与实时数据的字符进行比较，若n个字符中与实时数据的字符重合率小于95%则属于第二相似度；

从历史信息Mi中的倒数第二个字符，从后往前选择n个字符，将n个字符与实时数据的字符进行比较，若n个字符中与实时数据的字符重合率小于95%则属于第二相似度；

在确定历史信息内是否包含实时数据时，还包括：从历史信息Mi中的倒数第一个字符，从后往前选择n个字符，将n个字符与实时数据的字符进行比较，若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度；

从历史信息Mi中的倒数第二个字符，从后往前选择n个字符，将n个字符与实时数据的字符进行比较，若n个字符中与实时数据的字符重合率大于等于95%则属于第三相似度；

进一步地，在比较的过程中，若历史信息Mi中进行k次比较之后，其中有0.2×k次的比较结果是历史信息中包含实时数据，此时判定该历史信息Mi中不包含实时数据的字符。

进一步地，若对于历史信息Mi中选择的n个字符与实时数据的字符进行比较时，若n个字符中与实时数据的字符重合率小于等于95%，则找到出现差异的第一个字符位，从第一个差异位开始重新选择n个字符，将该n个字符与实时数据的字符进行比较，若重合率高于95%，则表示该历史信息内包含实时数据，若小于等于95%则需要进一步判断。

进一步地，所述根据所述差异度从所述第一推送列表中提取其中的目标信息包括：将第一推送列表中的信息进行排序，且设置第一推送优先级、第二推送优先级和第三推送优先级，且每一推送优先级内至少包括一条信息，当实时数据与历史数据库进行比较，若确定实时数据属于第一差异度，则从第三推送优先级中选择排在第一位的目标信息推送给用户；

若确定实时数据属于第二差异度，则从第二推送优先级中选择排在第一位的目标信息推送给用户；

若确定实时数据属于第三差异度，则从第一推送优先级中选择排在第一位的目标信息推送给用户。

进一步地，第一差异度的计算公式可以采用与实时数据为第一相似度的数据的数量/n,其中n为历史数据的总数;

第二差异度的计算公式可以采用与实时数据为第二相似度的数据的数量/n,其中n为历史数据的总数;

第三差异度的计算公式可以采用与实时数据为第三相似度的数据的数量/n,其中n为历史数据的总数。

进一步地，对于数据的相似度采用字节长度、字符信息确定两个数据的相似度，若是字节长度相同，则可能是相似数据，若字节长度不同，则不可能为相似数据，当字节长度相同时，则确定两个数据的字符信息是否相同，若字符信息也相同，则需要进一步比较数据块，以确定重合度。

进一步地，对于历史数据中的任意一条数据，该数据包括多个数据块，在中央处理器内还设置有数据块矩阵D(D1，D2，D3，D4，…，Dn)，其中D1表示第一数据块，D2表示第二数据块，D3表示第三数据块，D4表示第四数据块，Dn表示第n数据块，其中，第一数据块、第二数据块、第三数据块、第四数据块和第五数据块依次首位连接形成数据；

选择第i数据块Di,比较选中的数据块与其他数据块的重合度，若除去数据块Di之后的数据中存在与所述数据块Di相同的数据，则将数据块Di删除，将删除之后的数据块组合成新的历史数据后，再与实时数据进行比较。

进一步地，在进行历史数据和实时数据进行比较之前做剔除重复数据，在对任意历史数据进行筛选之前，还要确定与其进行比较的数据块，在中央处理器内还设置有数据块冗余度矩阵R（R1，R2，R3，R4），其中，R1表示第一冗余度，R2表示第二冗余度，R3表示第三冗余度，R4表示第四冗余度，且R1大于R2，R2大于R3，R3大于R4；

在历史数据数据库内，确定除去当前数据块之后的其他数据中的任意数据与当前数据的冗余度R; 若剩下的数据与当前数据块的冗余度R≥第一冗余度R1，则与当前数据块进行相似性比较数据中仍然存在重复数据，还需要进行至少5次筛选剔除；

若第一冗余度R1>与当前数据的冗余度R≥第二冗余度R2，则与当前数据块进行相似性比较数据中仍然存在重复数据，还需要进行至少3次筛选剔除；

若第二冗余度R2>与当前数据的冗余度R≥第三冗余度R3，则与当前数据块进行相似性比较数据中仍然存在重复数据，还需要进行至少2次筛选剔除；

若第三冗余度R3>与当前数据的冗余度R≥第四冗余度R4，则与当前数据块进行相似性比较数据中仍然存在重复数据，还需要进行至少1次筛选剔除；

若与当前数据的冗余度R<第四冗余度R4，则无需与所述当前数据进行相似性比较。

进一步地，获取历史数据的时间戳，根据时间戳与当前时间的间隔时长分别设置第一修正系数k1、第二修正系数k2和第三修正系数k3，用以对在根据相似度确定差异度的过程中，对相似度进行修正，以提高差异度计算的准确性。

与现有技术相比，本发明的有益效果在于，通过在接收到实时数据后，将实时数据与用户的历史数据进行一一对比，确定实时数据与历史数据的相似度，而相似度的确定是基于数据重合率的大小，使得数据重合度的确定更为精确，进而根据相似度确定的差异度选择推送列表中的目标信息，使得对于目标信息的选择更为精准，尤其，该目标信息的选择是基于实时数据和历史数据的比较结果，换言之，目标信息的选择是综合实时数据和历史数据两个方面，使得目标信息的选取更能体现用户的当前现状以及历史用户画像，大大降低了信息推送的信息延迟性，提高目标信息选择的精准度。

尤其，通过在对历史数据进行数据处理时，将每条历史数据和实时数据字符进行比较，确定每条历史数据与实时数据的重合率进而确定相似度，遍历历每一条历史数据，使得根据每条历史数据的相似度确定该实时信息的差异度，确定该差异度属于第一差异度、第二差异度或第三差异度，进而选择该实时信息对应的目标信息，提高目标信息推送的精准度。

尤其，通过字节长度确定可能包含实时数据字符后,还需要根据比较的结果确定是否真的包含该实时数据字符,使得对数据的筛选比较更为精准,提高比较精度,进而提高相似度和差异度的准确度,使得可以精准定位目标信息,使得对信息的推送更为精确,提高推送的精准度。

尤其，根据差异度的不同选择的目标信息也不同，进而实现在进行信息推送时可以基于实时信息进行推送，增加实时信息对目标信息的影响力，提高目标信息推送的准确性。

尤其，通过对历史数据中的数据块进行重复数据筛选，去掉重复数据，以降低数据比较过程中进行数据处理的数据量，提高数据处理速度，本发明实施例通过剔除重复数据后进行数据比较，减少数据处理量，提高数据处理效率。

尤其，通过对数据的冗余度进行比较，确定还需要对数据进行处理的次数，提高对历史数据的处理精度，减少历史数据与实时数据比较的精准性，减少处理器在数据比较阶段进行数据处理的数量，提高信息处理速度，便于快速获取推送的目标信息，提高推送效率。

附图说明

图1为本发明实施例提供的基于大数据的信息推送方法的流程示意图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

请参阅图1所示，本发明实施例提供的基于大数据的信息推送方法可以应用于电商领域，可以应用于图书领域，但是并不限于上述领域。本发明实施例提供的基于大数据的信息推送方法包括：

步骤S100:采集用户的历史数据，基于历史数据设置用户画像，基于用户画像形成第一推送列表，所述第一推送列表中包含至少两条信息；

步骤S200:接收用户输入的实时数据，比较实时数据与历史数据的相似度，根据每条历史数据的所述相似度确定实时数据的差异度，根据所述差异度从所述第一推送列表中提取其中的目标信息；

步骤S300: 将所述目标信息发给所述用户。

具体而言，本发明实施例中的基于大数据的信息推送方法，历史数据可以是用户的消费记录，用户的消费记录包括用户购买时间，购买物品，所购物品的价格和购买频次等。而本发明实施例中的用户可以是用户的终端信息还可以是用户的账户信息，而将推送信息发给用户时，可以将该推送信息发送给终端，还可以在用户登录相应账户时推送至用户的账号上。

具体而言，在步骤S200中，比较实时数据与历史数据的相似度包括：历史数据包括N1,N2,N3…Nn多条信息，每条信息的长度分别为L1,L2,L3…Ln, 实时数据的长度设置为实时数据的长度ln，

具体而言，本发明实施例提供的基于大数据的信息推送方法，在接收到实时数据后，将实时数据与用户的历史数据进行一一对比，确定实时数据与历史数据的相似度，而相似度的确定是基于数据重合率的大小，使得数据重合度的确定更为精确，进而根据相似度确定的差异度选择推送列表中的目标信息，使得对于目标信息的选择更为精准，尤其，该目标信息的选择是基于实时数据和历史数据的比较结果，换言之，目标信息的选择是综合实时数据和历史数据两个方面，使得目标信息的选取更能体现用户的当前现状以及历史用户画像，大大降低了信息推送的信息延迟性，提高目标信息选择的精准度。

具体而言，在确定历史信息内是否包含实时数据时，还包括：从历史信息Mi中的倒数第一个字符，从后往前选择n个字符，将n个字符与实时数据的字符进行比较，若n个字符中与实时数据的字符重合率小于95%则属于第二相似度；

具体而言，本发明实施例提供的基于大数据的信息推送方法在对历史数据进行数据处理时，将每条历史数据和实时数据字符进行比较，确定每条历史数据与实时数据的重合率进而确定相似度，遍历历每一条历史数据，使得根据每条历史数据的相似度确定该实时信息的差异度，确定该差异度属于第一差异度、第二差异度或第三差异度，进而选择该实时信息对应的目标信息，提高目标信息推送的精准度。

具体而言，在比较的过程中，若历史信息Mi中进行k次比较之后，其中有0.2×k次的比较结果是历史信息中包含实时数据，此时判定该历史信息Mi中不包含实时数据的字符。

具体而言，在通过字节长度确定可能包含实时数据字符后,还需要根据比较的结果确定是否真的包含该实时数据字符,使得对数据的筛选比较更为精准,提高比较精度,进而提高相似度和差异度的准确度,使得可以精准定位目标信息,使得对信息的推送更为精确,提高推送的精准度。

具体而言，若对于历史信息Mi中选择的n个字符与实时数据的字符进行比较时，若n个字符中与实时数据的字符重合率小于等于95%，则找到出现差异的第一个字符位，从第一个差异位开始重新选择n个字符，将该n个字符与实时数据的字符进行比较，若重合率高于95%，则表示该历史信息内包含实时数据，若小于等于95%则需要进一步判断。

具体而言，通过对历史信息Mi中选择的n个字符与实时数据的字符存在差异的第一个字符开始重新选择n个字符继续比较，该n个字符与实时数据的字符进行比较，若重合率高于95%，则表示该历史信息内包含实时数据，进一步提高对历史信息内是否包含实时数据判断的准确性，提高判断的合理性和全面性。

具体而言，所述根据所述差异度从所述第一推送列表中提取其中的目标信息包括：将第一推送列表中的信息进行排序，且设置第一推送优先级、第二推送优先级和第三推送优先级，且每一推送优先级内至少包括一条信息，当实时数据与历史数据库进行比较，若确定实时数据属于第一差异度，则从第三推送优先级中选择排在第一位的目标信息推送给用户；

具体而言，第一差异度的计算公式可以采用与实时数据为第一相似度的数据的数量/n,其中n为历史数据的总数;

具体而言，本发明实施例提供的基于大数据的信息推送方法根据差异度的不同选择的目标信息也不同，进而实现在进行信息推送时可以基于实时信息进行推送，增加实时信息对目标信息的影响力，提高目标信息推送的准确性。

具体而言，对于数据的相似度采用字节长度、字符信息确定两个数据的相似度，若是字节长度相同，则可能是相似数据，若字节长度不同，则不可能为相似数据，当字节长度相同时，则确定两个数据的字符信息是否相同，若字符信息也相同，则需要进一步比较数据块，以确定重合度，提高相似度确定的精准度。

具体而言，对于历史数据中的任意一条数据，该数据包括多个数据块，在中央处理器内还设置有数据块矩阵D(D1，D2，D3，D4，…，Dn)，其中D1表示第一数据块，D2表示第二数据块，D3表示第三数据块，D4表示第四数据块，Dn表示第n数据块，其中，第一数据块、第二数据块、第三数据块、第四数据块和第五数据块依次首位连接形成数据；

选择第i数据块Di,比较该选中的数据块与其他数据块的重合度，若除去数据块Di之后的数据中存在与所述数据块Di相同的数据，则将数据块Di删除，将删除之后的数据块组合成新的历史数据后，再与实时数据进行比较。

具体而言，本发明实施例提供的基于大数据的信息推送方法通过对历史数据中的数据块进行重复数据筛选，去掉重复数据，以降低数据比较过程中进行数据处理的数据量，提高数据处理速度，本发明实施例通过剔除重复数据后进行数据比较，减少数据处理量，提高数据处理效率。

具体而言，在进行历史数据和实时数据进行比较之前做剔除重复数据，在对任意历史数据进行筛选之前，还要确定与其进行比较的数据块，在中央处理器内还设置有数据块冗余度矩阵R（R1，R2，R3，R4），其中，R1表示第一冗余度，R2表示第二冗余度，R3表示第三冗余度，R4表示第四冗余度，且R1大于R2，R2大于R3，R3大于R4；

具体而言，本发明实施例提供的基于大数据的信息推送方法通过对数据的冗余度进行比较，确定还需要对数据进行处理的次数，提高对历史数据的处理精度，减少历史数据与实时数据比较的精准性，减少处理器在数据比较阶段进行数据处理的数量，提高信息处理速度，便于快速获取推送的目标信息，提高推送效率。

具体而言，获取历史数据的时间戳，根据时间戳与当前时间的间隔时长分别设置第一修正系数k1、第二修正系数k2和第三修正系数k3，用以对在根据相似度确定差异度的过程中，对相似度进行修正，以提高差异度计算的准确性。

具体而言，本发明实施例中通过在进行第一差异度、第二差异度和第三差异度的计算过程中，分别利用第一修正系数k1、第二修正系数k2和第三修正系数k3进行修正，提高差异度计算的准确性，进而提高目标信息推送的精准度，若是历史数据中的陈旧信息较多，对数据的差异度的计算会有影响，因此通过设置时间节点，若时间节点前的历史信息较多，则采用第一修正系数对与实时数据为第一相似度的数据的数量进行修正，采用第二修正系数对与实时数据为第二相似度的数据的数量进行修正，采用第三修正系数对与实时数据为第三相似度的数据的数量进行修正。

本发明实施例通过确定历史信息中的数据有效性，提高差异度计算的精准度，进而提高目标信息选择的精确性。

具体而言，还包括获取用户的登录时间，确定最优推送时间，在最优推送时间内将目标信息推送给用户。

具体而言，本发明实施例通过对推送时间的优化，若用户登录后就推送会增加信息推送的盲目性，若在午夜时分，用户登录后可能不会逗留太多时间，甚至会出现登录就退出的情形，若此时推送信息，用户可能无法接受，给用户的影响较小，使得信息推送对用户的黏性不产生作用，本发明实施例通过对登录时间筛选，选择用户的逗留时间较长，或是心态放松时再进行推送，提高目标信息对用户的影响力，进而提高用户黏度，提高信息推送的目的性及高效性。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的信息推送方法，其特征在于，包括：

采集用户的历史数据，基于历史数据设置用户画像，基于用户画像形成第一推送列表，所述第一推送列表中包含至少两条信息；

将所述目标信息发给所述用户；

2.根据权利要求1所述的基于大数据的信息推送方法，其特征在于，

在确定历史信息内是否包含实时数据时，还包括：从历史信息Mi中的倒数第一个字符，从后往前选择n个字符，将n个字符与实时数据的字符进行比较，若n个字符中与实时数据的字符重合率小于95%则属于第二相似度；

3.根据权利要求2所述的基于大数据的信息推送方法，其特征在于，在比较的过程中，若历史信息Mi中进行k次比较之后，其中有0.2×k次的比较结果是历史信息中包含实时数据，此时判定该历史信息Mi中不包含实时数据的字符。

4.根据权利要求1所述的基于大数据的信息推送方法，其特征在于，

所述根据所述差异度从所述第一推送列表中提取其中的目标信息包括：将第一推送列表中的信息进行排序，且设置第一推送优先级、第二推送优先级和第三推送优先级，且每一推送优先级内至少包括一条信息，当实时数据与历史数据库进行比较，若确定实时数据属于第一差异度，则从第三推送优先级中选择排在第一位的目标信息推送给用户；

5.根据权利要求4所述的基于大数据的信息推送方法，其特征在于，第一差异度的计算公式可以采用与实时数据为第一相似度的数据的数量/n,其中n为历史数据的总数;

6.根据权利要求5所述的基于大数据的信息推送方法，其特征在于，对于数据的相似度采用字节长度、字符信息确定两个数据的相似度，若是字节长度相同，则可能是相似数据，若字节长度不同，则不可能为相似数据，当字节长度相同时，则确定两个数据的字符信息是否相同，若字符信息也相同，则需要进一步比较数据块，以确定重合度。

7.根据权利要求6所述的基于大数据的信息推送方法，其特征在于，

对于历史数据中的任意一条数据，该数据包括多个数据块，在中央处理器内还设置有数据块矩阵D(D1，D2，D3，D4，…，Dn)，其中D1表示第一数据块，D2表示第二数据块，D3表示第三数据块，D4表示第四数据块，Dn表示第n数据块，其中，第一数据块、第二数据块、第三数据块、第四数据块和第五数据块依次首位连接形成数据；

8.根据权利要求7所述的基于大数据的信息推送方法，其特征在于，

在进行历史数据和实时数据进行比较之前做剔除重复数据，在对任意历史数据进行筛选之前，还要确定与其进行比较的数据块，在中央处理器内还设置有数据块冗余度矩阵R（R1，R2，R3，R4），其中，R1表示第一冗余度，R2表示第二冗余度，R3表示第三冗余度，R4表示第四冗余度，且R1大于R2，R2大于R3，R3大于R4；

9.根据权利要求8所述的基于大数据的信息推送方法，其特征在于，获取历史数据的时间戳，根据时间戳与当前时间的间隔时长分别设置第一修正系数k1、第二修正系数k2和第三修正系数k3，用以对在根据相似度确定差异度的过程中，对相似度进行修正，以提高差异度计算的准确性。