CN105488194B

CN105488194B - 一种相似用户识别方法及装置

Info

Publication number: CN105488194B
Application number: CN201510888068.2A
Authority: CN
Inventors: 刘文义; 柳鹏
Original assignee: Shandong Kingsgarden Technology Co Ltd
Current assignee: Shandong Hanxin Technology Co.,Ltd.
Priority date: 2015-12-03
Filing date: 2015-12-03
Publication date: 2019-05-14
Anticipated expiration: 2035-12-03
Also published as: CN105488194A

Abstract

本发明公开了一种相似用户识别方法及装置，该方法包括：采集当前用户的用户信息以及状态信息；通过所述用户信息以及所述状态信息，根据预先定义的特性因子以及权重数值的对应关系，分别确定所述当前用户的各特性因子对应的当前权重数值，所述特性因子为满足预设数据规则的标签信息；将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较，确定所述当前用户与所述目标用户的相似度。本发明提供了一种通过特性因子的权重关系对当前用户以及目标用户进行比较，得到二者相似度的方法及装置，与现有技术相比，本申请所提供的方法及装置效率较高、识别准确度较高。

Description

一种相似用户识别方法及装置

技术领域

本发明涉及数据挖掘技术领域，特别是涉及一种相似用户识别方法及装置。

背景技术

随着信息技术的发展，互联网、移动互联网、物联网能够收集到越来越多的用户信息，如何将这些信息采集、存储并分析，进而发现不同用户之间的相似性正在成为研究热点。然而，现有技术中对相似用户识别的方法存在着计算复杂度高、效率低、准确度低的缺点。

鉴于此，本发明提供了一种相似用户识别方法及装置，以使得对用户进行相似度分析的过程效率更高、识别准确度更高。

发明内容

本发明的目的是提供一种相似用户识别方法及装置，以解决现有技术中对相似用户进行识别的过程效率低以及准确度低的问题。

为解决上述技术问题，本发明提供一种相似用户识别方法，包括：

采集当前用户的用户信息以及状态信息；

通过所述用户信息以及所述状态信息，根据预先定义的特性因子以及权重数值的对应关系，分别确定所述当前用户的各特性因子对应的当前权重数值，所述特性因子为满足预设数据规则的标签信息；

将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较，确定所述当前用户与所述目标用户的相似度。

可选地，所述分别确定所述当前用户的各特性因子对应的当前权重数值包括：

根据预设规则对预设周期内的数值进行筛选，选取的数值作为所述当前用户的各特性因子对应的当前权重数值。

可选地，所述采集当前用户的用户信息以及状态信息包括：

通过数据适配器周期性采集可穿戴设备、机器爬虫程序或人工手动输入的当前用户的用户信息以及状态信息。

可选地，在采集当前用户的用户信息以及状态信息之后还包括：

将所述用户信息以及所述状态信息转换为预设格式的数据；

将所述预设格式的数据缓存至第一消息队列中，按照先进先出的规则将缓存数据发送至指定的第一计算单元；

计算所述第一消息队列的缓存数据量，动态调整所述第一计算单元的数量；并根据所述第一计算单元反馈的计算结果，动态调整从所述第一消息队列中获取数据的数量；

将所述预设格式的数据存储于预先建立的数据库中。

可选地，所述通过所述用户信息以及所述状态信息，根据预先定义的特性因子以及权重数值的对应关系，分别确定所述当前用户的各特性因子对应的当前权重数值包括：

将所述用户信息以及所述状态信息缓存至第二消息队列中，按照先进先出的规则将缓存数据发送至指定的第二计算单元；

计算所述第二消息队列中的缓存数据量，动态调整所述第二计算单元的数量；并根据所述第二计算单元反馈的计算结果，动态调整从所述第二消息队列中获取数据的数量；

根据预先定义的特性因子以及权重数值的对应关系，分别确定所述当前用户的各特性因子对应的当前权重数值。

可选地，所述将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较，确定所述当前用户与所述目标用户的相似度包括：

将所述当前用户的各当前权重数值以及所述目标用户的各权重数值缓存至第三消息队列中，按照先进先出的规则将缓存数据发送至指定的第三计算单元；

计算所述第三消息队列中的缓存数据量，动态调整所述第三计算单元的数量；并根据所述第三计算单元反馈的计算结果，动态调整从所述第三消息队列中获取数据的数量；

本发明还提供了一种相似用户识别装置，包括：

采集模块，用于采集当前用户的用户信息以及状态信息；

确定模块，用于通过所述用户信息以及所述状态信息，根据预先定义的特性因子以及权重数值的对应关系，分别确定所述当前用户的各特性因子对应的当前权重数值，所述特性因子为满足预设数据规则的标签信息；

识别模块，用于将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较，确定所述当前用户与所述目标用户的相似度。

可选地，所述采集模块还包括：

转换单元，用于将所述用户信息以及所述状态信息转换为预设格式的数据；

第一消息队列单元，用于将所述预设格式的数据缓存至第一消息队列中，按照先进先出的规则将缓存数据发送至指定的第一计算单元；

第一弹性计算单元，用于计算所述第一消息队列的缓存数据量，动态调整所述第一计算单元的数量；并根据所述第一计算单元反馈的计算结果，动态调整从所述第一消息队列中获取数据的数量；

存储单元，用于将所述预设格式的数据存储于预先建立的数据库中。

可选地，所述确定模块包括：

第二消息队列单元，用于将所述用户信息以及所述状态信息缓存至第二消息队列中，按照先进先出的规则将缓存数据发送至指定的第二计算单元；

第二弹性计算单元，用于计算所述第二消息队列中的缓存数据量，动态调整所述第二计算单元的数量；并根据所述第二计算单元反馈的计算结果，动态调整从所述第二消息队列中获取数据的数量；

确定单元，用于根据预先定义的特性因子以及权重数值的对应关系，分别确定所述当前用户的各特性因子对应的当前权重数值。

可选地，所述识别模块包括：

第三消息队列单元，用于将所述当前用户的各当前权重数值以及所述目标用户的各权重数值缓存至第三消息队列中，按照先进先出的规则将缓存数据发送至指定的第三计算单元；

第三弹性计算单元，用于计算所述第三消息队列中的缓存数据量，动态调整所述第三计算单元的数量；并根据所述第三计算单元反馈的计算结果，动态调整从所述第三消息队列中获取数据的数量；

识别单元，用于将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较，确定所述当前用户与所述目标用户的相似度。

本发明所提供的相似用户识别方法及装置，通过采集当前用户的用户信息以及状态信息；根据预先定义的特性因子以及权重数值的对应关系，分别确定当前用户的各特性因子对应的当前权重数值；将当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较，从而确定当前用户与目标用户的相似度。可见，本发明提供了一种通过特性因子的权重关系对当前用户以及目标用户进行比较，得到二者相似度的方法及装置，与现有技术相比，本申请所提供的方法及装置效率较高、识别准确度较高。

附图说明

图1为本发明所提供的相似用户识别方法的一种具体实施方式的流程图；

图2为将采集到的数据存储至数据库的过程流程图；

图3为确定当前用户的各特性因子对应的当前权重数值的过程流程图；

图4为确定当前用户与目标用户的相似度的过程流程图；

图5为消息队列缓存数据的工作流程图；

图6为弹性计算单元的工作流程图；

图7为本发明实施例提供的相似用户识别装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所提供的相似用户识别方法的一种具体实施方式的流程图如图1所示，该方法包括：

步骤S101：采集当前用户的用户信息以及状态信息；

具体地，可以通过数据适配器周期性采集可穿戴设备、机器爬虫程序或人工手动输入的当前用户的用户信息以及状态信息。通过数据适配器进行采集，可兼容关系数据库、非关系数据库或XML等各种数据源，能够解决现有技术中对异构数据处理能力差的问题。

步骤S102：通过所述用户信息以及所述状态信息，根据预先定义的特性因子以及权重数值的对应关系，分别确定所述当前用户的各特性因子对应的当前权重数值；

其中，特性因子为满足预设数据规则的标签信息，用于反映用户相似度的标签，如“精力充沛”、“粗心”等标签信息。可以预先对特性因子对应条件的数据规则进行定义，例如将上午6点接收到连续数据定义为条件1，晚上11点接收到连续数据定义为条件2。

并且预先对特性因子对应条件的权重数值进行定义，例如条件1对应“精力充沛”特性因子的权重为0.2，条件2对应“精力充沛”特性因子的权重为0.2。

可预先建立特性因子数据库，包含特性因子、数据规则以及权重因子的对应关系。在接收到用户信息以及状态信息后，可将将接收到的数据依次匹配条件库中的因子条件的数据规则，确定对应的权重数值，得到判断结果。

作为一种优选实施方式，本步骤在确定当前权重数值时还可以进一步包括：

根据预设规则对预设周期内的数值进行筛选，选取的数值作为所述当前用户的各特性因子对应的当前权重数值。这样设置的目的可以按照算法计算一定周期内具有代表性的数值，从而进一步提高识别的准确性。

具体地，可以将一段周期内的数值去掉其中的最大值以及最小值以后，再取各数值的平均值，作为最终的权重数值。并将该最终的权重数值存入到数据库中。

步骤S103：将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较，确定所述当前用户与所述目标用户的相似度。

目标用户的权重数值可以根据需求自行定义，如将精力充沛定为0.3，粗心定为0.2。

具体地，可利用相似用户分析算法，对当前用户的权重数值以及目标用户的权重数值的相似度进行分析。在得到分析结果之后，还可以进一步包括：根据预定的数据格式，输出序列化的用户数据，可以供其他过程进行调用。

本发明所提供的相似用户识别方法，通过采集当前用户的用户信息以及状态信息；根据预先定义的特性因子以及权重数值的对应关系，分别确定当前用户的各特性因子对应的当前权重数值；将当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较，从而确定当前用户与目标用户的相似度。可见，本发明提供了一种通过特性因子的权重关系对当前用户以及目标用户进行比较，得到二者相似度的方法，与现有技术相比，本申请的效率较高、准确度也较高。

在上一实施例的基础上，本发明所提供的相似用户识别方法可以预先建立数据库，用于存储用户的用户信息以及状态信息。这样，在对用户的状态信息进行采集后，根据采集到的数据中用户的标识，查找用户数据库，能够获取到用户的用户信息。在此过程中，也可以将当前用户的更新的用户信息或状态信息存储到数据库中，方便后续的数据处理。

具体地，如图2将采集到的数据存储至数据库的过程流程图所示，在采集到当前用户的用户信息以及状态信息之后，还可以进一步包括有：

步骤S201：将所述用户信息以及所述状态信息转换为预设格式的数据；

步骤S202：将所述预设格式的数据缓存至第一消息队列中，按照先进先出的规则将缓存数据发送至指定的第一计算单元；

步骤S203：计算所述第一消息队列的缓存数据量，动态调整所述第一计算单元的数量；并根据所述第一计算单元反馈的计算结果，动态调整从所述第一消息队列中获取数据的数量；

步骤S204：将所述预设格式的数据存储于预先建立的数据库中。

在上述实施例的基础上，步骤S102中通过所述用户信息以及所述状态信息，根据预先定义的特性因子以及权重数值的对应关系，分别确定所述当前用户的各特性因子对应的当前权重数值的过程也可以采用消息队列以及弹性计算相结合的方式进行处理。

如图3确定当前用户的各特性因子对应的当前权重数值的过程流程图所示，该过程具体包括：

步骤S301：将所述用户信息以及所述状态信息缓存至第二消息队列中，按照先进先出的规则将缓存数据发送至指定的第二计算单元；

步骤S302：计算所述第二消息队列中的缓存数据量，动态调整所述第二计算单元的数量；并根据所述第二计算单元反馈的计算结果，动态调整从所述第二消息队列中获取数据的数量；

步骤S303：根据预先定义的特性因子以及权重数值的对应关系，分别确定所述当前用户的各特性因子对应的当前权重数值。

在上述任一实施例的基础上，步骤S103中将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较，确定所述当前用户与所述目标用户的相似度的过程同样可通过消息队列以及弹性计算相结合的方式实现。如图4确定当前用户与目标用户的相似度的过程流程图所示，该过程包括：

步骤S401：将所述当前用户的各当前权重数值以及所述目标用户的各权重数值缓存至第三消息队列中，按照先进先出的规则将缓存数据发送至指定的第三计算单元；

步骤S402：计算所述第三消息队列中的缓存数据量，动态调整所述第三计算单元的数量；并根据所述第三计算单元反馈的计算结果，动态调整从所述第三消息队列中获取数据的数量；

步骤S403：将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较，确定所述当前用户与所述目标用户的相似度。

下面对上述实施例中用到的消息队列以及弹性计算相结合的方式的工作过程进行进一步详细阐述。消息队列可对接收到的数据信息进行本地缓存，在接收或发送数据后实时更新本地缓存数据量，并将缓存数据量信息发送至弹性计算单元。接收到弹性计算单元的数据请求后，按照先进先出的规则将所请求定量数据发送至指定的计算单元。

如图5消息队列缓存数据的工作流程图所示，该过程包括：

步骤S501：判断消息队列是否已满；

步骤S502：如果否，则从数据源对数据进行采集或获取；

步骤S503：消息队列接收并缓存数据；

步骤S504：更新消息队列的状态。

如图6弹性计算单元的工作流程图所示，该过程包括：

步骤S601：判断消息队列中是否具有数据；

步骤S602：如果有，则获取消息队列状态；

步骤S603：根据缓存数据量对计算单元的数目进行调整；

步骤S604：判断计算单元当前是否在计算；

步骤S605：如果否，则计算单元从消息队列中获取数据进行计算。

本实施例所提供的相似用户识别方法，采用消息队列对数据进行缓存，使得数据读取速度更快，并通过弹性计算单元动态调整计算单元的数目，使得计算单元的利用率高，从而使得整体识别方法的处理速度更快、效率更高。

下面对本发明实施例提供的相似用户识别装置进行介绍，下文描述的相似用户识别装置与上文描述的相似用户识别方法可相互对应参照。图7为本发明实施例提供的相似用户识别装置的结构框图，参照图7相似用户识别装置可以包括：

采集模块100，用于采集当前用户的用户信息以及状态信息；

确定模块200，用于通过所述用户信息以及所述状态信息，根据预先定义的特性因子以及权重数值的对应关系，分别确定所述当前用户的各特性因子对应的当前权重数值，所述特性因子为满足预设数据规则的标签信息；

识别模块300，用于将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较，确定所述当前用户与所述目标用户的相似度。

作为一种具体实施方式，上述采集模块100具体用于：

作为一种具体实施方式，该采集模块100还可以进一步包括有：

作为一种具体实施方式，上述确定模块200可以具体包括：

作为一种具体实施方式，上述识别模块300可以具体包括：

综上，本发明所提供的相似用户识别方法及装置，基于特性因子的权重关系对相似度进行计算，识别准确率更高。同时，采用消息队列对数据进行缓存，使得数据读取速度更快，并通过弹性计算动态调整计算单元的数目，使得计算单元的利用率高，从而使得整体识别方法的处理速度快、效率高。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种相似用户识别方法，其特征在于，包括：

采集当前用户的用户信息以及状态信息；

将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较，确定所述当前用户与所述目标用户的相似度；

所述采集当前用户的用户信息以及状态信息包括：通过数据适配器周期性采集可穿戴设备、机器爬虫程序或人工手动输入的当前用户的用户信息以及状态信息；

所述分别确定所述当前用户的各特性因子对应的当前权重数值包括：根据预设规则对预设周期内的数值进行筛选，选取的数值作为所述当前用户的各特性因子对应的当前权重数值。

2.如权利要求1所述的相似用户识别方法，其特征在于，在采集当前用户的用户信息以及状态信息之后还包括：

将所述用户信息以及所述状态信息转换为预设格式的数据；

将所述预设格式的数据存储于预先建立的数据库中。

3.如权利要求2所述的相似用户识别方法，其特征在于，所述通过所述用户信息以及所述状态信息，根据预先定义的特性因子以及权重数值的对应关系，分别确定所述当前用户的各特性因子对应的当前权重数值包括：

4.如权利要求1至3任一项所述的相似用户识别方法，其特征在于，所述将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较，确定所述当前用户与所述目标用户的相似度包括：

5.一种相似用户识别装置，其特征在于，包括：

采集模块，用于采集当前用户的用户信息以及状态信息；所述采集模块通过可穿戴设备、机器爬虫程序或人工手动输入采集用户信息以及状态信息；

确定模块，用于通过所述用户信息以及所述状态信息，根据预先定义的特性因子以及权重数值的对应关系，分别确定所述当前用户的各特性因子对应的当前权重数值，所述特性因子为满足预设数据规则的标签信息；所述分别确定所述当前用户的各特性因子对应的当前权重数值包括：根据预设规则对预设周期内的数值进行筛选，选取的数值作为所述当前用户的各特性因子对应的当前权重数值；

6.如权利要求5所述的相似用户识别装置，其特征在于，所述采集模块还包括：

7.如权利要求6所述的相似用户识别装置，其特征在于，所述确定模块包括：

8.如权利要求5至7任一项所述的相似用户识别装置，其特征在于，所述识别模块包括：