CN110020149A - 用户信息的标签化处理方法、装置、终端设备及介质 - Google Patents
用户信息的标签化处理方法、装置、终端设备及介质 Download PDFInfo
- Publication number
- CN110020149A CN110020149A CN201711241173.2A CN201711241173A CN110020149A CN 110020149 A CN110020149 A CN 110020149A CN 201711241173 A CN201711241173 A CN 201711241173A CN 110020149 A CN110020149 A CN 110020149A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- behavioral characteristics
- characteristics data
- feature weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
- G06Q30/0271—Personalized advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于数据挖掘技术领域,提供了一种用户信息的标签化处理方法、装置、终端设备及介质,该方法包括:获取用户的行为数据;基于所述用户的行为数据获取对应的用户特征数据,所述用户特征数据包括静态特征数据以及一个以上动态特征数据;将每一静态特征数据输出为用户的一个静态标签;基于预设算法,分别计算各项动态特征数据的特征权重;将特征权重大于预设阈值的动态特征数据输出为用户的动态标签。本发明提高了标签处理的准确率,减轻了人工打标签的任务量;通过计算动态特征数据的特征权重,将特征权重大于阈值的动态特征数据输出为用户的动态标签,实现了自动识别用户的动态标签,提高了用户信息的标签化处理速度。
Description
技术领域
本发明属于数据挖掘技术领域,尤其涉及一种用户信息的标签化处理方法、装置、终端设备及介质。
背景技术
随着互联网技术的快速发展,用户在网上购物、游戏以及社交通讯的过程中,都会产生大量的用户数据信息。从海量的用户数据信息中挖掘出有价值的信息,并利用这些信息对用户进行标签化处理,能够基于用户标签来分析出用户的行为习惯和喜好,实现为用户推荐个性化程度更高的产品和服务。
标签化处理包括对用户静态信息以及对用户动态信息的标签化处理。例如,用户静态信息可以包括年龄、职业以及性别等;用户动态信息可以包括用户所观看的电视节目、观看时长以及购物支付信息等。由于用户动态信息将会随着用户的心情或者时间而产生动态变化,因而针对不同时刻的用户动态信息进行标签化处理,将会生成不同的用户标签。由于标签标记过程复杂,数据任务分析量大,而传统的标签处理方法只能依靠人工的方式来实现,因此,标签更新速度较慢。
发明内容
有鉴于此,本发明实施例提供了一种用户信息的标签化处理方法、装置、终端设备及介质,以解决现有技术中标签更新速度慢的问题。
本发明实施例的第一方面提供了一种用户信息的标签化处理方法,包括:
获取用户的行为数据;
基于所述用户的行为数据获取对应的用户特征数据,所述用户特征数据包括静态特征数据以及一个以上动态特征数据;
将每一所述静态特征数据输出为所述用户的一个静态标签;
基于特征权重计算算法,分别计算各项所述动态特征数据的特征权重;
将所述特征权重大于预设阈值的所述动态特征数据输出为所述用户的动态标签。
本发明实施例的第二方面提供了一种用户信息的标签化处理装置,包括:
第一获取单元,用于获取用户的行为数据;
第二获取单元,用于基于所述用户的行为数据获取对应的用户特征数据,所述用户特征数据包括静态特征数据以及一个以上动态特征数据;
静态标签输出单元,用于将每一所述静态特征数据输出为所述用户的一个静态标签;
计算单元,用于基于特征权重计算算法,分别计算各项所述动态特征数据的特征权重;
动态标签输出单元,用于将所述特征权重大于预设阈值的所述动态特征数据输出为所述用户的动态标签。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述用户信息的标签化处理方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述用户信息的标签化处理方法的步骤。
本发明实施例中,用户的行为数据包括多种类型的行为数据,因而基于用户的行为数据提取出用户的静态特征数据以及动态特征数据,把静态特征数据直接输出为用户的静态标签,实现了基于多维度的来源数据来综合考量用户特征数据,从而在提高了标签处理准确率的同时,减轻了人工打标签的任务量;通过计算动态特征数据的特征权重,将特征权重大于预设阈值的动态特征数据输出为用户的动态标签,实现了自动计算及识别用户的动态标签,因而提高了用户信息的标签化处理速度。只要获取得到的用户特征数据发生改变,就能快速实时地更新用户的动态标签,因此保证了用户的动态标签能够具备较高的时效性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的用户信息的标签化处理方法的实现流程图;
图2是本发明实施例提供的用户信息的标签化处理方法S104的具体实现流程图;
图3是本发明实施例提供的用户信息的标签化处理方法S1043的具体实现流程图;
图4是本发明另一实施例提供的用户信息的标签化处理方法的实现流程图;
图5是本发明实施例提供的用户信息的标签化处理装置的结构框图;
图6是本发明另一实施例提供的用户信息的标签化处理装置的结构框图;
图7是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的用户信息的标签化处理方法的实现流程,该流程包括步骤S101至S105,各步骤的具体实现原理如下:
S101:获取用户的行为数据。
本发明实施例中,用户的行为数据包括电视端行为数据、移动端行为数据以及征信数据。
电视端行为数据表示因用户在智能电视端的操作行为而产生的行为记录数据以及智能电视端本身所具备的设备属性数据,包括但不限于电视端用户购物信息、电视设备号、用户的点播节目、直播节目、用户在电视端所运行的各个应用程序中的使用记录以及与上述各个节目相关的属性信息等。
智能电视终端在记录用户的行为记录数据以及自身的设备属性数据后,将其上传至后台数据库,因此,基于智能电视终端的设备标识号,能够从后台数据库中获取出与该设备标识号匹配的用户的电视端行为数据。
本发明实施例中,为了获取用户历史点播节目的节目属性信息等电视端行为数据,在节目信息库所存储的各个影视节目中,匹配出后台数据库中所获取的历史点播节目,以获取节目信息库中该影视节目所对应的节目属性信息。其中,节目信息库所存储的各个影视节目的节目属性包括但不限于演员信息、导演信息、节目类型以及获奖信息等。每隔预定的时间周期,通过数据爬虫,在互联网的影视网站中爬取最近所更新的影视节目的节目属性信息,并将该节目属性信息与影视节目的对应关系存储至上述节目信息库中。数据爬虫主要使用webmagic和scrapy等爬虫技术。
移动端行为数据表示用户因其在移动终端的操作行为而产生的行为记录数据以及移动端本身所关联的硬件属性数据,包括但不限于用户的手机卡号、手机型号、在移动端所运行的各个应用程序中的使用记录以及与上述各项数据相关的属性信息等。
移动终端,例如手机、平板电脑以及智能手表等,在记录用户的历史操作数据以及移动端关联的硬件属性数据后,将其上传至后台数据库。基于用户所使用的移动终端的设备标识号,从后台数据库中获取出用户的移动端行为数据。
征信数据用于反映用户个人的信用状况,其为用户的信用信息,包括用户居住信息、职业信息、贷记信息、贷款信息、担保信息、对外担保信息、未销户准贷记卡信息、未销户贷记卡信息、信贷审批查询记录、养老保险金缴存信息、逾期透支信息、住房公积金参缴信息、准贷记卡信息、逾期记录以及配偶信息等。基于合作的银行征信报告查询网站所提供的用户征信数据调用接口,根据接收到的用户身份信息,在建立通信连接的银行征信报告查询网站中,调取出与该用户身份信息匹配的征信数据。其中,上述银行征信报告查询网站为预先建立合作关系的网站。当用户授权该网站发布自己的征信报告数据时,基于该银行征信报告查询网站所提供的数据调用接口,能够获取出与所需查询用户的身份信息相匹配的征信数据。
本发明实施例中,将用户的电视端行为数据、移动端行为数据以及征信数据进行解析、规则化以及去重等数据清洗处理,将清洗后的电视端行为数据、移动端行为数据以及征信数据以关系型的格式存储到mysql或者hive等数据库中,并将该数据库作为媒资库。媒资库中所存储的数据为需要进行标签化处理的源数据。
S102:基于所述用户的行为数据获取对应的用户特征数据,所述用户特征数据包括静态特征数据以及一个以上动态特征数据。
本发明实施例中,电视端行为数据、移动端行为数据以及征信数据中均包含多种多样的数据。为了提取出具有参考价值的数据,读取预设的多个特征属性,以筛选出与各个特征属性相匹配的用户特征数据。根据预设的动态特征属性所匹配出的用户特征数据为动态特征数据;根据预设的静态特征属性所匹配出的用户特征数据为静态特征数据。
示例性地,若动态特征属性包括点播节目、该点播节目的点播时长以及该点播节目的导演属性,则根据媒资库的电视端行为数据、移动端行为数据以及征信数据所分别携带的特征属性标识,筛选出“点播节目”、“点播时长”以及“导演”这几个特征属性标识所对应的行为数据后,获取得到的动态特征数据即为《欢乐今宵》、30分钟以及导演A。若静态特征属性包括用户居住地址以及职业信息,则根据用户的每一项个人信息数据所分别携带的特征属性标识,筛选出“居住地址”以及“职业”这两个特征属性标识所分别对应的个人信息数据后,获取得到的静态特征数据即为“河东区梅花路72号”以及“会计师”。
S103:将每一所述静态特征数据输出为所述用户的一个静态标签。
本发明实施例中,为用户的每一项静态特征数据生成一个静态标签,并将该静态标签与用户所使用设备的设备标识号绑定关联后进行存储。
例如,在上述示例中,生成的静态标签“河东区梅花路72号”以及静态标签“会计师”将与用户所使用设备的设备标识号绑定关联,使得每一设备标识号所对应的终端设备用户具有其个性化的静态标签。
S104:基于特征权重计算算法,分别计算各项所述动态特征数据的特征权重。
由于不同时刻所提取出的动态特征数据通常都不会相同,动态特征数据将会随着用户的心情或者时间而产生动态变化,例如,用户的节目播放行为和购物行为都会随着兴趣爱好的改变而发生变化,因此,为了确定该项动态特征数据与用户的个性化特征是否具有较大的关联,需要量化获取得到的每一项动态特征数据对用户个性化特征的影响程度。
本发明实施例中,根据预设的特征权重计算算法,计算各项动态特征数据的特征权重。其中,特征权重的大小即表示动态特征数据对用户个性化特征的影响程度大小。预设的特征权重计算算法包括基于TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)的特征权重度量算法以及基于业务场景的特征权重度量算法等。
S105:将所述特征权重大于预设阈值的所述动态特征数据输出为所述用户的动态标签。
由于特征权重的大小即表示动态特征数据对用户个性化特征的影响程度大小,因此当计算出的某一项动态特征数据的特征权重大于预设阈值时,表示该项动态特征数据能够较为准确地体现出用户的个性化特征,此时,生成对应于该项动态特征数据的一个动态标签,并将该动态标签与用户所使用设备的设备标识号绑定关联后进行存储,从而实现了为用户打上用于表征其个性化特点的动态标签。
本发明实施例中,在为用户打上各个动态标签后,每隔预设时长,返回执行步骤S101,以重新获取用户的行为数据。基于实时获取的电视端行为数据、移动端行为数据以及征信数据,重复执行S102至S105,实现了用户动态标签的不断更新,提高了动态标签的可靠性。
优选地,在返回执行上述S102时,仅重新筛选出用户的动态特征数据,而无须重新筛选出用户的静态特征数据;或者,当返回执行上述S102的次数大于预设阈值时,才在S102中重新筛选用户的静态特征数据,否则在每次执行S102时,仅重新筛选出用户的动态特征数据。由于用户的静态特征数据在一定时长内发生变化的可能性较小,因此,通过降低静态特征数据的更新效率,能够降低数据处理量,从而提高用户信息的标签化处理速度。
本发明实施例基于预设的各个特征属性,在用户的电视端行为数据、移动端行为数据以及征信数据中提取出用户的静态特征数据以及动态特征数据,把静态特征数据直接输出为用户的静态标签,因而实现了基于多维度的来源数据来综合考量用户特征数据,从而在提高了标签处理准确率的同时,减轻了人工打标签的任务量;通过计算动态特征数据的特征权重,将特征权重大于预设阈值的动态特征数据输出为用户的动态标签,实现了自动计算及识别用户的动态标签,因而提高了用户信息的标签化处理速度。由于在预设的时间间隔后,系统将重新获取用户特征数据,故只要获取得到的用户特征数据发生改变,就能实时更新用户的动态标签,由此保证了用户的动态标签能够具备较高的时效性。
作为本发明的一个实施例,如图2所示,上述S104具体包括:
S1041:对于每一所述动态特征数据,计算该动态特征数据的获取频率,所述获取频率表示预设时长内,该动态特征数据的获取次数与所述用户的动态特征数据总数的比值。
TF和IDF常用于表征一个词在文档中的重要程度。对于一个词来说,其在文档中的重要程度与其在文中的出现频率成正比,与其在其余文档中的出现频率成反比。本发明实施例中,基于TF-IDF的特征权重度量算法来计算每一项动态特征数据的特征权重。具体地,以TF-IDF方法来表征一项动态特征数据对用户个性化特征的影响程度,从而在用户画像中,实现利用TF和IDF来度量一项动态特征数据的特征权重。
由于用户的电视端行为数据、移动端行为数据以及征信数据为预设时长内所收集得到的用户数据,因而可能提取出不同时刻所对应的具有相同内容的动态特征数据。例如,动态特征数据L为“点播导演A所拍摄的节目”,则用户在预设时长内的不同时间点,可能分别点播了5次导演A所拍摄的节目。本发明实施例中,用Φ(U,L)表示从用户U的电视端行为数据、移动端行为数据以及征信数据中,获取出动态特征数据L的次数,即动态特征数据L的获取次数,则表示用户U在预设时长内所对应的动态特征数据的总数,因此,对于每一动态特征数据L,该动态特征数据L的获取频率TF(U,L)具体为:
其中,m为大于零的整数,且m为预设时长内互不相同的动态特征数据的总数。
示例性地,在用户的移动端行为数据中,提取出移动端在过去一小时内所曾经运行的应用程序的类型分别为购物、游戏、新闻以及社交,且其中每一类型应用程序的使用次数分别为4、3、1、1,则计算出的动态特征数据“购物”的获取频率TF=4/(4+3+1+1)。
S1042:计算该动态特征数据的逆向文件频率,所述逆向文件频率基于所述预设时长内具有该动态特征数据的用户的总数以及与各个用户关联的动态特征数据总数确定。
本发明实施例中,以逆向文件频率IDF(U,L)来表示某一个动态特征数据L在所有提取出的动态特征数据中的稀缺程度,即该动态特征数据L能够从其余用户的特征数据中所提取的概率。若从用户U的电视端行为数据、移动端行为数据以及征信数据中,获取出动态特征数据L,但动态特征数据L能够从其余用户的特征数据中所提取的概率越小,则动态特征数据L与用户U之间的关系越紧密。
动态特征数据L的逆向文件频率IDF(U,L)通过以下公式获得:
其中,m和n为大于零的整数,且m表示互不相同的动态特征数据的总数,n表示用户的总数;表示上述预设时长内,具有动态特征数据L的用户的总数;表示上述预设时长内,所有用户的所有动态特征数据的数量之和。
S1043:根据所述获取频率以及所述逆向文件频率,计算该动态特征数据的特征权重。
将上述TF(U,L)以及IDF(U,L)的乘积输出为动态特征数据L的特征权重,即,动态特征数据L的特征权重W为:
本发明实施例中,通过对常用于统计字词在文档中的重要程度的TF-IDF算法进行转换处理,以基于TF-IDF的特征权重度量算法来计算用户行为数据中各项动态特征数据的特征权重,实现了对用户各项动态特征数据特征权重的自动量化处理,进而能够快速判断出是否需要生成动态标签,因此,相对于现有的人工标签方法而言,提高了用户信息的标签化处理效率。
进一步地,图3示出了本发明实施例提供的用户信息的标签化处理方法S1043的具体实现流程,详述如下:
S10431:获取该动态特征数据的时间因子权重系数以及特征权重系数。
S10432:根据所述获取频率以及所述逆向文件频率,计算该动态特征数据的标准特征权重。
本发明实施例中,对于某一特征属性所匹配出的动态特征数据,通过S1041以及S1042获取出该动态特征数据的获取频率以及逆向文件频率后,仅将其获取频率TF(U,L)以及逆向文件频率IDF(U,L)的乘积输出为动态特征数据L的标准特征权重。
在具体的业务场景中,基于不同时长内所收集得到的用户电视端行为数据、移动端行为数据以及征信数据,提取出的用户的动态特征数据也具有较大的偏差。例如,在1月份内,对于购物类别这一特征属性来说,匹配出的动态特征数据为棉衣、外套、手袜,但在7月份内,对于购物类别这一特征属性来说,匹配出的动态特征数据通常已经不是棉衣、外套、手袜。因此,时间因子是影响用户购物行为的一个重要因素,即购物类别这一特征属性与时间因子的关联性较高。
为了降低时间因子对用户个性化特征的影响,避免生成的动态标签无法体现出用户的个性化特征,在一具体实现示例中,为每一特征属性预设了时间因子权重系数,在计算该特征属性所匹配的动态特征数据的特征权重之前,先读取该特征属性的时间因子权重系数,以将读取到的时间因子权重系数确定为该特征属性所匹配的动态特征数据的时间因子权重系数。
在另一具体实现示例中,根据标准的数据获取周期以及每一特征属性所预设的数据获取周期,生成该特征属性的时间因子权重系数。其中,数据获取周期表示所需获取的数据的产生时间,例如,若购物类别这一特征属性的数据获取周期为6个月,则表示需要获取最近6个月内购物记录所对应的购物类别。若购物类别这一特征属性的数据获取周期为6个月,标准的数据获取周期为1天,则表示购物类别这一特征属性与时间因子的关联程度较高,故可基于标准的数据获取周期与购物类别的数据获取周期的比值,确定购物类别所对应的时间因子权重系数。本示例中,将确定出的时间因子权重系数确定为特征属性所匹配的动态特征数据的时间因子权重系数
除了上述时间因子会对用户的动态标签产生影响之外,由于在特征权重的计算过程中,数据管理员可能仅需要针对某些特征属性来生成动态标签,而为了避免其他不需要的特征属性所匹配的动态特征数据在此次计算过程中会生成动态标签,往往需要人工进行特征权重的调整。此时,根据接收到的参数设置指令,为数据管理员所选定的特征属性设置一特征权重系数。在计算动态特征数据的特征权重之前,读取该动态特征数据所匹配的特征属性的特征权重系数。
S10433:将所述时间因子权重系数、所述特征权重系数以及所述标准特征权重的乘积输出为该动态特征数据的特征权重。
本发明实施例中,通过上述公式(3)计算出动态特征数据L的标准特征权重,则在考虑了时间因子和特征权重系数等客观因素后,计算出的动态特征数据L的的特征权重W'为:
W'=(Wbehavior·T)·(TF(U,L)·IDF(U,L)) (4)
其中,Wbehavior和T分别为动态特征数据L所匹配的特征属性的特征权重系数以及时间因子权重系数,TF(U,L)为动态特征数据L的获取频率,IDF(U,L)为动态特征数据L的逆向文件频率。
本发明实施例中,由于不同的特征属性对于用户的个性化特征的影响程度不同,且用户的个性化特征也可能受到不同程度的时间因子的影响,因而通过获取特征属性的特征权重系数以及时间因子权重系数,并将计算出的动态特征数据的标准特征权重与其对应的特征权重系数以及时间因子权重系数进行乘积处理,能够综合多方面的因素来计算动态特征数据的特征权重,从而能够提高特征权重的计算准确率,使得最终基于特征权重所生成的动态标签能够最大程度地体现出用户的个性化特征。
优选地,在上述各个实施例的基础之上,作为本发明的一个实施例,动态特征数据与时间因子的关联等级由数据管理员预先设置。对于任一项动态特征数据,仅在该项动态特征数据与时间因子的关联等级大于预设阈值时,才进一步获取该动态特征数据的时间因子权重系数以及特征权重系数。
若动态特征数据与时间因子的关联等级小于或等于预设阈值,则直接将该动态特征数据的获取频率以及逆向文件频率的乘积确定为该动态特征数据的特征权重。
本发明实施例中,对于不同的动态特征数据,根据其与时间因子的关联等级不同,计算其特征权重使所使用的特征权重计算算法也不同,实现了根据不同的动态特征数据来采用不同的规则或者不同的算法来对用户信息进行标签化处理,使得生成的动态标签具有更高的准确率。
作为本发明的另一实施例,如图4所示,在上述S105之后,在返回S101之前,还包括:
S106:依照所述特征权重的高低顺序,对所述用户的各个所述动态标签进行排序处理,并获取排序在前的N个动态标签;其中,所述N为大于零的整数,且所述N为预设值。
对于某一设备标识号所对应的一个用户而言,其可能绑定有数量较多的动态标签。本发明实施例中,根据每一动态标签所对应的特征权重大小,对用户所绑定的各个动态标签进行排序,并将排序在前的固定数量的动态标签进行提取,以提取出的各个动态标签共同作为该用户的喜好推荐标签。
进一步地,将提取出的各个动态标签以及任意数量的多个静态标签共同确定为用户的喜好推荐标签。
S107:获取与所述用户的所述静态标签以及与所述N个动态标签均匹配的推送信息。
S108:将所述推送信息推送至所述用户的电视端设备或者移动端设备。
本发明实施例中,获取计划推送至各个用户的推送信息。根据每一推送信息的属性特征,获取该推送信息与用户的喜好推荐标签的匹配程度。将匹配程度最高的一个或多个推送信息推送至该用户的电视端设备或者移动端设备中。
特别地,上述推送信息包括但不限于推送产品、推送网页、推送节目以及推送歌曲等。
例如,若用户的喜好推荐标签包括音乐标签、张惠妹标签以及摇滚标签,则可将张惠妹的摇滚类歌曲优先推送至该用户。
本发明实施例中,在生成用户的静态标签以及动态标签后,通过提取出特征权重最高的多个标签来匹配出需要推送至用户终端设备的推送信息,使得用户能够接收到与其个性化特征匹配程度较高的推送信息,实现了根据用户的兴趣爱好来动态调整推送信息,进而也提高了推送产品的购买成功率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。例如,上述步骤S103可以在S105之前执行,也可以在S105之后执行,也可以同时执行。也就是说,用户的静态标签可以与动态标签同时输出,也可以先输出静态标签后输出动态标签,或者,先输出动态标签,之后再输出静态标签。
对应于上文实施例所述的用户信息的标签化处理方法,图5示出了本申请实施例提供的用户信息的标签化处理装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图5,该装置包括:
第一获取单元51,用于获取用户的行为数据。
第二获取单元52,用于基于所述用户的行为数据获取对应的用户特征数据,所述用户特征数据包括静态特征数据以及一个以上动态特征数据。
静态标签输出单元53,用于将每一所述静态特征数据输出为所述用户的一个静态标签。
计算单元54,用于基于特征权重计算算法,分别计算各项所述动态特征数据的特征权重。
动态标签输出单元55,用于将所述特征权重大于预设阈值的所述动态特征数据输出为所述用户的动态标签。
可选地,所述计算单元54包括:
获取频率计算子单元,用于对于每一所述动态特征数据,计算该动态特征数据的获取频率,所述获取频率表示预设时长内,该动态特征数据的获取次数与所述用户的动态特征数据总数的比值。
逆向文件频率计算子单元,用于计算该动态特征数据的逆向文件频率,所述逆向文件频率基于所述预设时长内具有该动态特征数据的用户的总数以及与各个用户关联的动态特征数据总数确定。
特征权重计算子单元,用于根据所述获取频率以及所述逆向文件频率,计算该动态特征数据的特征权重。
可选地,所述特征权重计算子单元具体用于:
获取该动态特征数据的时间因子权重系数以及特征权重系数;
根据所述获取频率以及所述逆向文件频率,计算该动态特征数据的标准特征权重;
将所述时间因子权重系数、所述特征权重系数以及所述标准特征权重的乘积输出为该动态特征数据的特征权重。
可选地,所述特征权重计算子单元还用于:
获取与该动态特征数据匹配的特征属性,并根据所述特征属性,获取该动态特征数据与时间因子的关联等级;
若该动态特征数据与时间因子的关联等级小于或等于预设阈值,则根据所述获取频率以及所述逆向文件频率,计算该动态特征数据的特征权重;
若该动态特征数据与时间因子的关联等级大于预设阈值,则获取该动态特征数据的时间因子权重系数以及特征权重系数。
可选地,如图6所示,所述用户信息的标签化处理装置还包括:
排序单元56,用于依照所述特征权重的高低顺序,对所述用户的各个所述动态标签进行排序处理,并获取排序在前的N个动态标签;其中,所述N为大于零的整数,且所述N为预设值。
第三获取单元57,用于获取与所述用户的所述静态标签以及与所述N个动态标签均匹配的推送信息。
推送单元58,用于将所述推送信息推送至所述用户的电视端设备或者移动端设备。
图7是本发明一实施例提供的终端设备的示意图。如图7所示,该实施例的终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如用户信息的标签化处理程序。所述处理器70执行所述计算机程序72时实现上述各个用户信息的标签化处理方法实施例中的步骤,例如图1所示的步骤101至105。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能,例如图5所示单元51至55的功能。
示例性的,所述计算机程序72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。
所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述**装置/终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用户信息的标签化处理方法,其特征在于,包括:
获取用户的行为数据;
基于所述用户的行为数据获取对应的用户特征数据,所述用户特征数据包括静态特征数据以及一个以上动态特征数据;
将每一所述静态特征数据输出为所述用户的一个静态标签;
分别计算各项所述动态特征数据的特征权重;
将每一所述特征权重大于预设阈值的所述动态特征数据输出为所述用户的动态标签。
2.如权利要求1所述的标签化处理方法,其特征在于,所述基于特征权重计算算法,分别计算各项所述动态特征数据的特征权重,包括:
对于每一所述动态特征数据,计算该动态特征数据的获取频率,所述获取频率表示预设时长内,该动态特征数据的获取次数与所述用户的动态特征数据总数的比值;
计算该动态特征数据的逆向文件频率,所述逆向文件频率基于所述预设时长内具有该动态特征数据的用户的总数以及与各个用户关联的动态特征数据总数确定;
根据所述获取频率以及所述逆向文件频率,计算该动态特征数据的特征权重。
3.如权利要求2所述的标签化处理方法,其特征在于,所述根据所述获取频率以及所述逆向文件频率,计算该动态特征数据的特征权重,包括:
获取该动态特征数据的时间因子权重系数以及特征权重系数;
根据所述获取频率以及所述逆向文件频率,计算该动态特征数据的标准特征权重;
将所述时间因子权重系数、所述特征权重系数以及所述标准特征权重的乘积输出为该动态特征数据的特征权重。
4.如权利要求3所述的标签化处理方法,其特征在于,所述获取该动态特征数据的时间因子权重系数以及特征权重系数,包括:
获取与该动态特征数据匹配的特征属性,并根据所述特征属性,获取该动态特征数据与时间因子的关联等级;
若该动态特征数据与时间因子的关联等级小于或等于预设阈值,则根据所述获取频率以及所述逆向文件频率,计算该动态特征数据的特征权重;
若该动态特征数据与时间因子的关联等级大于预设阈值,则获取该动态特征数据的时间因子权重系数以及特征权重系数。
5.如权利要求1或4任一项所述的标签化处理方法,其特征在于,在所述将所述特征权重大于预设阈值的所述动态特征数据输出为所述用户的动态标签之后,还包括:
依照所述特征权重的高低顺序,对所述用户的各个所述动态标签进行排序处理,并获取排序在前的N个动态标签;其中,所述N为大于零的整数,且所述N为预设值;
获取与所述用户的所述静态标签以及与所述N个动态标签均匹配的推送信息;
将所述推送信息推送至所述用户的电视端设备或者移动端设备。
6.一种用户信息的标签化处理装置,其特征在于,包括:
第一获取单元,用于获取用户的行为数据;
第二获取单元,用于基于所述用户的行为数据获取对应的用户特征数据,所述用户特征数据包括静态特征数据以及一个以上动态特征数据;
静态标签输出单元,用于将每一所述静态特征数据输出为所述用户的一个静态标签;
计算单元,用于基于特征权重计算算法,分别计算各项所述动态特征数据的特征权重;
动态标签输出单元,用于将所述特征权重大于预设阈值的所述动态特征数据输出为所述用户的动态标签。
7.如权利要求6所述的标签化处理装置,其特征在于,所述计算单元包括:
获取频率计算子单元,用于对于每一所述动态特征数据,计算该动态特征数据的获取频率,所述获取频率表示预设时长内,该动态特征数据的获取次数与所述用户的动态特征数据总数的比值;
逆向文件频率计算子单元,用于计算该动态特征数据的逆向文件频率,所述逆向文件频率基于所述预设时长内具有该动态特征数据的用户的总数以及与各个用户关联的动态特征数据总数确定;
特征权重计算子单元,用于根据所述获取频率以及所述逆向文件频率,计算该动态特征数据的特征权重。
8.如权利要求7所述的标签化处理装置,其特征在于,所述特征权重计算子单元具体用于:
获取该动态特征数据的时间因子权重系数以及特征权重系数;
根据所述获取频率以及所述逆向文件频率,计算该动态特征数据的标准特征权重;
将所述时间因子权重系数、所述特征权重系数以及所述标准特征权重的乘积输出为该动态特征数据的特征权重。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711241173.2A CN110020149A (zh) | 2017-11-30 | 2017-11-30 | 用户信息的标签化处理方法、装置、终端设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711241173.2A CN110020149A (zh) | 2017-11-30 | 2017-11-30 | 用户信息的标签化处理方法、装置、终端设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110020149A true CN110020149A (zh) | 2019-07-16 |
Family
ID=67186807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711241173.2A Pending CN110020149A (zh) | 2017-11-30 | 2017-11-30 | 用户信息的标签化处理方法、装置、终端设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110020149A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339153A (zh) * | 2020-02-21 | 2020-06-26 | 海南随手电子商务有限公司 | 匹配用户信息的方法及装置、存储介质、处理器 |
CN111367897A (zh) * | 2019-06-03 | 2020-07-03 | 杭州海康威视系统技术有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN111957053A (zh) * | 2020-09-03 | 2020-11-20 | 网易(杭州)网络有限公司 | 游戏玩家匹配方法、装置、存储介质与电子设备 |
CN112396536A (zh) * | 2019-08-12 | 2021-02-23 | 北京国双科技有限公司 | 智能服务的实现方法及装置 |
CN112464075A (zh) * | 2019-09-06 | 2021-03-09 | 百度在线网络技术(北京)有限公司 | 智能音箱的应用推荐方法、装置及电子设备 |
CN112667887A (zh) * | 2020-12-22 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 内容推荐方法、装置、电子设备、服务器 |
CN115859911A (zh) * | 2023-01-13 | 2023-03-28 | 佰聆数据股份有限公司 | 适应数据动态变化下的标签自动生成演进方法、装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751448A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 一种基于情景信息的个性化资源信息的推荐方法 |
CN102654860A (zh) * | 2011-03-01 | 2012-09-05 | 北京彩云在线技术开发有限公司 | 一种个性化音乐推荐方法及系统 |
CN105142028A (zh) * | 2015-07-29 | 2015-12-09 | 华中科技大学 | 面向三网融合的电视节目内容搜索与推荐方法 |
CN105205699A (zh) * | 2015-09-17 | 2015-12-30 | 北京众荟信息技术有限公司 | 基于酒店点评的用户标签和酒店标签匹配方法及装置 |
US9305084B1 (en) * | 2012-08-30 | 2016-04-05 | deviantArt, Inc. | Tag selection, clustering, and recommendation for content hosting services |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
-
2017
- 2017-11-30 CN CN201711241173.2A patent/CN110020149A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751448A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 一种基于情景信息的个性化资源信息的推荐方法 |
CN102654860A (zh) * | 2011-03-01 | 2012-09-05 | 北京彩云在线技术开发有限公司 | 一种个性化音乐推荐方法及系统 |
US9305084B1 (en) * | 2012-08-30 | 2016-04-05 | deviantArt, Inc. | Tag selection, clustering, and recommendation for content hosting services |
CN105142028A (zh) * | 2015-07-29 | 2015-12-09 | 华中科技大学 | 面向三网融合的电视节目内容搜索与推荐方法 |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
CN105205699A (zh) * | 2015-09-17 | 2015-12-30 | 北京众荟信息技术有限公司 | 基于酒店点评的用户标签和酒店标签匹配方法及装置 |
Non-Patent Citations (1)
Title |
---|
杨双亮: ""用户画像在内容推送的研究与应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111367897A (zh) * | 2019-06-03 | 2020-07-03 | 杭州海康威视系统技术有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN111367897B (zh) * | 2019-06-03 | 2023-09-08 | 杭州海康威视系统技术有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN112396536A (zh) * | 2019-08-12 | 2021-02-23 | 北京国双科技有限公司 | 智能服务的实现方法及装置 |
CN112464075A (zh) * | 2019-09-06 | 2021-03-09 | 百度在线网络技术(北京)有限公司 | 智能音箱的应用推荐方法、装置及电子设备 |
CN112464075B (zh) * | 2019-09-06 | 2023-11-03 | 百度在线网络技术(北京)有限公司 | 智能音箱的应用推荐方法、装置及电子设备 |
CN111339153A (zh) * | 2020-02-21 | 2020-06-26 | 海南随手电子商务有限公司 | 匹配用户信息的方法及装置、存储介质、处理器 |
CN111957053A (zh) * | 2020-09-03 | 2020-11-20 | 网易(杭州)网络有限公司 | 游戏玩家匹配方法、装置、存储介质与电子设备 |
CN112667887A (zh) * | 2020-12-22 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 内容推荐方法、装置、电子设备、服务器 |
CN112667887B (zh) * | 2020-12-22 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 内容推荐方法、装置、电子设备、服务器 |
CN115859911A (zh) * | 2023-01-13 | 2023-03-28 | 佰聆数据股份有限公司 | 适应数据动态变化下的标签自动生成演进方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020149A (zh) | 用户信息的标签化处理方法、装置、终端设备及介质 | |
US11769182B2 (en) | Purchase information utilization system, purchase information utilization method, and program | |
CN109118296A (zh) | 活动推送方法、装置及电子设备 | |
CN108615119A (zh) | 一种异常用户的识别方法及设备 | |
CN105989074A (zh) | 一种通过移动设备信息进行推荐冷启动的方法和装置 | |
CN108460627A (zh) | 营销活动方案推送方法、装置、计算机设备及存储介质 | |
CN110111167A (zh) | 一种确定推荐对象的方法和装置 | |
CN108416627A (zh) | 一种基于互联网数据的品牌影响力监控方法及系统 | |
US20150150033A1 (en) | System and method for building and tracking audience segments | |
CN107944956A (zh) | 用于生成信息的方法和装置 | |
CN110300084A (zh) | 一种基于ip地址的画像方法和装置 | |
CN108572988A (zh) | 一种房产评估数据生成方法和装置 | |
CN111311294A (zh) | 数据处理方法、装置、介质及电子设备 | |
CN107566148A (zh) | 终端应用操作数据的分析方法、系统、装置及终端 | |
CN112035717A (zh) | 信息处理方法、装置、设备及存储介质 | |
CN109190027A (zh) | 多源推荐方法、终端、服务器、计算机设备、可读介质 | |
US10453091B2 (en) | System and method to build external facing information platform to generate target list of entities | |
CN110197316B (zh) | 运营数据的处理方法、装置、计算机可读介质及电子设备 | |
CN109784987A (zh) | 一种图片版权收益方法及装置 | |
CN108959289B (zh) | 网站类别获取方法和装置 | |
US11880852B2 (en) | Merchant advertisement informed item level | |
CN114625975B (zh) | 一种基于知识图谱的客户行为分析系统 | |
CN114238777B (zh) | 基于行为分析的负反馈流量分配方法、装置、设备及介质 | |
CN113849731B (zh) | 基于自然语言处理的信息推送方法、装置、设备及介质 | |
CN107633422A (zh) | 一种基于用户行为的市场预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190716 |