CN109145307B

CN109145307B - 用户画像识别方法、推送方法、装置、设备和存储介质

Info

Publication number: CN109145307B
Application number: CN201811062397.1A
Authority: CN
Inventors: 方建生
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2022-09-13
Anticipated expiration: 2038-09-12
Also published as: CN109145307A

Abstract

本发明公开了一种用户画像识别方法，包括：获取用户进行网络访问的行为数据，并确定所述行为数据所对应的文本；根据所述文本以及行为数据确定文本词频，并根据所述词频对所述行为数据进行筛选，以确定关键行为数据；根据所述关键行为数据识别所述用户的用户画像。使用该方法解决了通过获取用户填写的信息后，确定用户画像可能产生的不准确的问题。实现了自动采集用户进行网络访问的行为数据，通过分析确定用户画像的有益效果。

Description

用户画像识别方法、推送方法、装置、设备和存储介质

技术领域

本发明实施例涉及信息处理领域技术，尤其涉及一种用户画像识别方法、推送方法、装置、设备和存储介质。

背景技术

由于信息推送方对信息推送的效果和成本控制要求越来越高，信息推送方开始追求更高的信息推送成效，提出了精准化推送的需求。

由于对信息载体限制扩大，可以选择的信息载体变少，很难实现目标人群覆盖规模化，而且同质信息较多，信息传播的影响力下降；同时受众身份非常混杂，试图通过找到目标人群经常光顾的网站组合，从而定位目标人群身份的方法不可靠，这样的方法容易定位到很多非目标人群，和无法过滤人群，难以获取有效的目标人群。

现有技术中，比较有针对性的信息推送方法是通过判断用户的职业信息来进行相关的推送。

一般，社交应用会在用户注册验证页面和个人信息修改页面增加单位、部门输入项，理论上可通过收集相关信息判定用户职业。但这些个人信息一般都不属于必填项，而且用户自己输入信息的真实性仍然需要进一步验证。因此，目前获取用户的职业信息的方法仍然具有一定的局限性。

发明内容

本发明提供一种用户画像识别方法、装置、智能设备和存储介质，以实现通过搜集用户进行网络访问的行为数据进行用户画像。

第一方面，本发明实施例提供了一种用户画像识别方法，包括：

获取用户进行网络访问的行为数据，并确定所述行为数据所对应的文本；

根据所述文本以及行为数据确定文本词频，并根据所述词频对所述行为数据进行筛选，以确定关键行为数据；

根据所述关键行为数据识别所述用户的用户画像。

第二方面，本发明实施例提供了一种用户画像识别装置，包括：

文本确定模块，用于获取用户进行网络访问的行为数据，并确定所述行为数据所对应的文本；

数据筛选模块，用于根据所述文本以及行为数据确定文本词频，并根据所述词频对所述行为数据进行筛选，以确定关键行为数据；

画像识别模块，用于根据所述关键行为数据识别所述用户的用户画像。

第三方面，本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如任一实施例所述的用户画像识别方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如任一实施例所述的用户画像识别方法。

本发明通过获取用户进行网络访问的行为数据，并确定所述行为数据所对应的文本；根据所述文本以及行为数据确定文本词频，并根据所述词频对所述行为数据进行筛选，以确定关键行为数据；根据所述关键行为数据识别所述用户的用户画像。解决了通过获取用户填写的信息后，确定用户画像可能产生的不准确的问题。实现了自动采集用户进行网络访问的行为数据，通过分析确定用户画像的有益效果。

附图说明

图1为本发明实施例一提供的一种用户画像识别方法的流程图；

图2是本发明实施例二提供的一种用户画像识别方法的流程图；

图3为本发明实施例三提供的一种用户画像识别装置的结构示意图；

图4为本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种用户画像识别方法的流程图，本实施例可适用于统计用户访问某一网页或应用程序的情况，该方法可以由一种用户画像识别装置来执行。该装置可通过硬件和/或软件的方式实现，并一般可集成于服务器或者终端设备中。

其中，用户访问某一网页可以通过电脑终端或者移动终端进行。若是电脑终端用户，服务器会记录电脑终端用户的IP地址和登录信息。移动终端用户访问某一网页可分为两种情况。第一是移动终端用户通过移动通信技术访问网页；第二是移动终端用户通过无线局域网访问网页。如果用户通过移动通信技术访问网页，运营商核心网络会记录移动终端用户的上网行为，如手机号(SIM卡号)、时间点、访问的应用程序名字和网页地址等，可以基于此统计用户访问每个网页的次数，并建立该次数与手机号之间的联系。如果用户使用手机，并通过无线局域网访问，虽然手机硬件地址和手机号没有直接关联，但可以通过手机的国际移动设备身份码(International Mobile Equipment Identity，IMEI)关联手机号码，将用户访问每个网页的次数与手机号相关联。

可选的，本实施例不仅可适用于统计用户访问某一网页的情况，也可适用于统计用户访问某一应用程序的情况，还可以是对多种网络数据访问方式的综合统计，各种方式的基本实现原理相同。

参考图1，本实施例具体包括如下步骤：

S101、获取用户进行网络访问的行为数据，并确定所述行为数据所对应的文本。

其中，行为数据是指用户访问网页或应用程序时的历史记录。文本是对行为数据进行处理后的结果。

具体的，用户画像识别装置获取用户进行网络访问的行为数据，当某一用户通过终端访问某一网页或应用程序时，获取该用户的行为数据，根据该行为数据确定对应的文本。

S102、根据所述文本以及行为数据确定文本词频，并根据所述词频对所述行为数据进行筛选，以确定关键行为数据。

其中，词频是指某一词语出现的频率。本实施例中词频是指一个文本出现的频率。一个文本的词频越高代表该文本语在其所在的文本集中出现的次数越多，即可以理解为该文本对应的网页或应用程序长期被用户使用。关键行为数据是指经过筛选后的，符合一定条件的文本对应的行为数据，可以理解为经过筛选得出的，用户长期访问的网页或应用程序就是关键行为数据。

具体的，用户画像识别装置根据文本以及由多个文本构成的文本集确定每个文本或行为数据在文本集中出现的频率。经过筛选确定能够代表文本集的文本或行为数据作为关键行为数据。

S103、根据所述关键行为数据识别所述用户的用户画像。

其中，用户画像是指通过一系列的方式获得某一用户对象与其他用户对象的共性与特性，并使用该特性对用户进行描述，作为该用户的特性。

具体的，用户画像识别装置根据用户对应的文本确定该用户的关键行为数据，根据用户关键行为数据为用户画像，即根据用户关键行为数据确定该用户与其他用户的区别。

在上述实施例的基础上，步骤S101中，获取用户进行网络访问的行为数据包括：从移动通信运营商的通信数据中采集用户进行网络访问的行为数据，所述用户与所述移动通信运营商的用户标识对应。

具体的，若用户使用手机等需要通过移动通信运营商连接网络的移动设备，此时用户通过通信数据访问应用程序和/或网页时，可以通过SIM卡(SubscriberIdentification Module，用户身份识别卡)确认用户身份。

本发明实施例通过获取用户进行网络访问的行为数据，并确定所述行为数据所对应的文本；根据所述文本以及行为数据确定文本词频，并根据所述词频对所述行为数据进行筛选，以确定关键行为数据；根据所述关键行为数据识别所述用户的用户画像。解决了通过获取用户填写的信息后，确定用户画像可能产生的不准确的问题。实现了自动采集用户进行网络访问的行为数据，通过分析确定用户画像的有益效果。

实施例二

图2是本发明实施例二提供的一种用户画像识别方法的流程图。本实施例在上述实施例一的基础上进行了细化，尤其是对于如何获取用户进行网络访问的行为数据以及如何通过词频确定关键行为数据进行了详细描述。参考图2，本实施例具体包括如下步骤；

S201、采集用户通过网络进行应用程序访问和/或网站访问的行为数据。

具体的，用户画像识别装置采集用户通过网络访问应用程序访问和/或网站时产生的行为数据。该行为数据可以是应用程序和网站的地址，也可以是应用程序和网站的标题内容或其他可以通过用户画识别装置采集获得的数据。

S202、根据应用程序和/或网站的分类信息，确定所访问应用程序和/或网站对应的分类文本，作为行为数据对应的文本。

其中，分类信息是指应用程序和/或网站的类型。如应用程序和/或网站的类型可能是：教育类型、运动类型、美食类型和宠物类型等。当然每个类型还可以进行细分，如教育类型可以分为：语文、数学、英语或历史等。文本需要详细到什么程度可以通过预先设置进行调节。

具体的，用户访问一个应用程序，该应用程序的分类信息是教育类的物理。确定“教育”与“物理”两个分类文本，作为用户此次访问应用程序这一行为数据的文本。

S203、在所述行为数据每次出现时，将所述行为数据对应的文本添加至文本库中，与所述用户关联记录。

其中，文本库包含多个文本集，一个文本集对应一个用户。而一个文本集包括多个文本，若用户多次访问同一个应用程序或网站，则文本集中可能包括重复的文本。文本库是指所有文本的集合，其中每个文本包括其关联的用户。将关联于同一用户的文本提取出来，构成的集合叫做文本集。

具体的，当用户对应用程序和/或网站进行访问而产生一条行为数据时，确定该行为数据对应的文本，将该文本添加到文本库中，同时该文本与产生行为数据的用户相关联。

S204、针对每个用户，计算该用户对应的每个文本，在该用户对应的文本集中出现的第一频率，以及在文本库中出现的第二频率。

具体的，第一频率是从文本层面来进行的描述，是一个文本在其所在的文本集中出现的频率。第二频率是从文本集层面来进行的描述，是包含某一个文本的文本集在所有文本集中出现的频率。

S205、根据每个文本的所述第一频率和第二频率，从多个文本中进行关键文本筛选。

具体的，第一频率与第二频率之间的比值越大，说明该文本越能体现该用户的特征。根据每个文本对应的第一频率和第二频率，按照预设规则，从多个文本中进行关键文本筛选。

S206、确定关键文本对应的行为数据为该用户的关键行为数据。

具体的，将符合预设规则的被筛选出的关键文本对应的行为数据作为该用户的关键行为数据。

S207、根据所述关键行为数据识别所述用户的职业属性。

具体的，根据关键行为数据识别所述用户的职业属性，如确定为教师、程序员、售货员或公务员等。

在上述实施例的基础上，步骤S205可以细化为：针对每个文本，计算所述第一频率和第二频率的比值，并根据预设放大规则对所述比值进行放大计算；根据所述放大计算后的比值对该用户的各文本进行排序；根据排序结果为该用户筛选出关键文本。

具体的，预设放大规则是指通过计算获得的数据，用于扩大每个文本第一频率和第二频率的比值的差距，使得能够代表文本集的文本的第一频率和第二频率的比值进一步扩大；使得不能够代表文本集的文本的第一频率和第二频率的比值进一步缩小。进行排序是指将每个文本集中文本的比值按照从高到低的顺序进行排序，取排序靠前的文本作为文本集的关键文本。

在上述实施例的基础上，根据预设放大规则对所述比值进行放大计算包括：将加速因子与所述比值的乘积作为所述比值的放大计算的结果。

具体的，加速因子是所有文本的第一频率和第二频率的比值的总和与所有文本个数的比值；或加速因子是该文本的第一频率与该文本在文本库中所有用户文本集中的第一频率的均值的比值。

下面对本实施例提供的方法进行示例性描述，以采集1000台手机的行为数据为例：假设1000台手机(对应于1000个用户)中有12台手机访问过“物理大师”这一网页，具体访问情况见表一：

表一

移动终端的标识	访问网页数量	访物理大师次数
			188*******1	500	40
188*******2	485	1
			188*******3	463	2
188*******4	520	50
			188*******5	516	33
188*******6	483	1
			188*******7	476	2
188*******8	441	59
			188*******9	450	56
188******10	496	3
			188******11	444	8
188******12	511	9

计算出每个用户对应的第一频率和第二频率以及其比值如表二所示：

表二

加速因子是为了进一步显示文本的代表性而人为增加的一个放大系数，值得说明的是，即使没有加速因子的存在也不会影响本发明的效果。加速因子可以是：1)该文本的第一频率与该文本在文本库中所有用户文本集中的第一频率的均值的比值；2)所有文本的第一频率和第二频率的比值的总和与所有文本个数的比值；或其他任何可以达到这一效果的算法。

当采用第一种加速因子算法时，则放大结果如表三所示：

表三

当采用第二种加速因子算法时，则放大结果如表四所示：

表四

为了方便说明，之后的加速因子均采用第二种算法，即加速因子为所有文本的第一频率和第二频率的比值的总和与所有文本个数的比值。同理，假设1000台手机中有12台手机访问过“历史大师”和“日语学习”这一网页，具体访问情况和计算结果见表五：

表五

将“物理大师”、“历史大师”和“日语学习”的放大计算的结果列与移动终端的标识对应形成表六：

表六

将每个移动终端文本的放大计算结果进行排序，从前往后取预设个数的文本代表该移动终端的关键行为数据。对表六中放大计算的结果进行排序，形成按照放大计算结果大小进行排序的表七：

表七

本发明实施例通过获取用户进行网络访问的行为数据，并确定所述行为数据所对应的文本；根据所述文本以及行为数据确定文本词频，并根据所述词频对所述行为数据进行筛选，以确定关键行为数据；根据所述关键行为数据识别所述用户的用户画像。本实施例还提供了获取用户进行网络访问的行为数据的方法，增加了获得用户行为数据的途径，使得数据来源更加丰富。本实施例还提供了加速因子来进一步增加能够代表文本集的文本的计算结果，使得用户画像更加准确。通过上述方法解决了通过获取用户填写的信息后，确定用户画像可能产生的不准确的问题。实现了自动采集用户进行网络访问的行为数据，通过分析确定用户画像的有益效果。

实施例三

图3为本发明实施例三提供的一种用户画像识别装置的结构示意图，如图3所示，该装置包括：文本确定模块31、数据筛选模块32和画像识别模块33，其中：

文本确定模块31，用于获取用户进行网络访问的行为数据，并确定所述行为数据所对应的文本；

数据筛选模块32，用于根据所述文本以及行为数据确定文本词频，并根据所述词频对所述行为数据进行筛选，以确定关键行为数据；

画像识别模块33，用于根据所述关键行为数据识别所述用户的用户画像。

在上述实施例的基础上，文本确定模块还用于：

采集用户通过网络进行应用程序访问和/或网站访问的行为数据；

根据应用程序和/或网站的分类信息，确定所访问应用程序和/或网站对应的分类文本，作为行为数据对应的文本。

在上述实施例的基础上，文本确定模块还用于：

从移动通信运营商的通信数据中采集用户进行网络访问的行为数据，所述用户与所述移动通信运营商的用户标识对应。

在上述实施例的基础上，数据筛选模块还用于：

在所述行为数据每次出现时，将所述行为数据对应的文本添加至文本库中，与所述用户关联记录；

针对每个用户，计算该用户对应的每个文本，在该用户对应的文本集中出现的第一频率，以及在文本库中出现的第二频率；

根据每个文本的所述第一频率和第二频率，从多个文本中进行关键文本筛选；

确定关键文本对应的行为数据为该用户的关键行为数据。

在上述实施例的基础上，根据每个文本的所述第一频率和第二频率，从多个文本中进行关键文本筛选包括：

针对每个文本，计算所述第一频率和第二频率的比值，并根据预设放大规则对所述比值进行放大计算；

根据所述放大计算后的比值对该用户的各文本进行排序；

根据排序结果为该用户筛选出关键文本。

在上述实施例的基础上，所述根据预设放大规则对所述比值进行放大计算包括：

将加速因子与所述比值的乘积作为所述比值的放大计算的结果；

其中，加速因子是所有文本的第一频率和第二频率的比值的总和与所有文本个数的比值；或

加速因子是该文本的第一频率与该文本在文本库中所有用户文本集中的第一频率的均值的比值。

在上述实施例的基础上，画像识别模块还用于：

根据所述关键行为数据识别所述用户的职业属性。

本实施例提供的一种用户画像识别装置可用于执行上述任一实施例提供的一种用户画像识别方法，具有相应的功能和有益效果。

实施例四

图4为本发明实施例四提供的一种电子设备的结构示意图。如图4所示，该电子设备包括处理器40、存储器41、通信模块42、输入装置43和输出装置44；电子设备中处理器40的数量可以是一个或多个，图4中以一个处理器40为例；电子设备中的处理器40、存储器41、通信模块42、输入装置43和输出装置44可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本实施例中的一种用户画像识别方法对应的模块(例如，一种用户画像识别装置中的文本确定模块31、数据筛选模块32和画像识别模块33)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的用户画像识别方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块42，用于与显示屏建立连接，并实现与显示屏的数据交互。输入装置43可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。

本实施例提供的一种电子设备，可执行本发明任一实施例提供的用户画像识别方法，具体相应的功能和有益效果。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种用户画像识别方法，该方法包括：

根据所述关键行为数据识别所述用户的用户画像。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任一实施例所提供的用户画像识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机电子设备(可以是个人计算机，服务器，或者网络电子设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述用户画像识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种用户画像识别方法，其特征在于，包括：

根据所述文本以及行为数据确定文本词频，并根据所述词频对所述行为数据进行筛选，以确定关键行为数据，包括：

根据每个文本的所述第一频率和第二频率，从多个文本中进行关键文本筛选，包括：针对每个文本，计算所述第一频率和第二频率的比值，将加速因子与所述比值的乘积作为所述比值的放大计算的结果；根据所述结果对该用户的各文本进行排序；根据排序结果为该用户筛选出关键文本；

确定关键文本对应的行为数据为该用户的关键行为数据；

根据所述关键行为数据识别所述用户的用户画像；

其中，所述文本库是指所有文本的集合，其中每个文本包括其关联的用户；将关联于同一用户的文本提取出来，构成的集合叫做文本集；

所述加速因子是所有文本的第一频率和第二频率的比值的总和与所有文本个数的比值；或

2.根据权利要求1所述的方法，其特征在于，获取用户进行网络访问的行为数据，并确定所述行为数据所对应的文本包括：

3.根据权利要求1所述的方法，其特征在于，获取用户进行网络访问的行为数据包括：

4.根据权利要求1所述的方法，其特征在于，根据所述关键行为数据识别所述用户的用户画像包括：

根据所述关键行为数据识别所述用户的职业属性。

5.一种用户画像识别装置，其特征在于，包括：

画像识别模块，用于根据所述关键行为数据识别所述用户的用户画像；

数据筛选模块，还用于在所述行为数据每次出现时，将所述行为数据对应的文本添加至文本库中，与所述用户关联记录；

根据每个文本的所述第一频率和第二频率，从多个文本中进行关键文本筛选，包括；针对每个文本，计算所述第一频率和第二频率的比值，将加速因子与所述比值的乘积作为所述比值的放大计算的结果；根据所述结果对该用户的各文本进行排序；根据排序结果为该用户筛选出关键文本；

确定关键文本对应的行为数据为该用户的关键行为数据；

6.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4任一所述的一种用户画像识别方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4任一所述的一种用户画像识别方法。