CN111310016A - 标签挖掘方法、装置、服务器和存储介质 - Google Patents

标签挖掘方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN111310016A
CN111310016A CN201811509733.2A CN201811509733A CN111310016A CN 111310016 A CN111310016 A CN 111310016A CN 201811509733 A CN201811509733 A CN 201811509733A CN 111310016 A CN111310016 A CN 111310016A
Authority
CN
China
Prior art keywords
content
user
terminal
terminal attribute
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811509733.2A
Other languages
English (en)
Other versions
CN111310016B (zh
Inventor
刘鹏
司学峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811509733.2A priority Critical patent/CN111310016B/zh
Publication of CN111310016A publication Critical patent/CN111310016A/zh
Application granted granted Critical
Publication of CN111310016B publication Critical patent/CN111310016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种标签挖掘方法、装置、服务器和存储介质。该方法包括:根据各用户端中安装的应用程序和/或各用户端的设备型号,确定各用户的终端属性;将各用户端访问内容的内容标签作为各用户的内容标签;根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集。本发明实施例的技术方案能够根据用户端的终端属性进行内容推送,为内容推送方式提供了一种新思路,增强了内容推送方式的多样性。

Description

标签挖掘方法、装置、服务器和存储介质
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种标签挖掘方法、装置、服务器和存储介质。
背景技术
随着互联网技术的快速发展,诸如资讯、新闻之类的内容爆炸式地增长。如何确定用户与内容之间的匹配度,来向用户推送内容是十分关键的。目前,主要根据用户的年龄,性别,职业等用户属性信息,以及用户对内容的历史行为数据来确定用户与内容之间的匹配度,方式较为单一,无法满足用户需求。
发明内容
本发明实施例提供了一种标签挖掘方法、装置、服务器和存储介质,能够根据用户端的终端属性进行内容推送,为内容推送方式提供了一种新思路,增强了内容推送方式的多样性。
第一方面,本发明实施例提供了一种标签挖掘方法,该方法包括:
根据各用户端中安装的应用程序和/或各用户端的设备型号,确定各用户的终端属性;
将各用户端访问内容的内容标签作为各用户的内容标签;
根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集。
第二方面,本发明实施例还提供了一种标签挖掘装置,该装置包括:
终端属性确定模块,用于根据各用户端中安装的应用程序和/或各用户端的设备型号,确定各用户的终端属性;
内容标签确定模块,用于将各用户端访问内容的内容标签作为各用户的内容标签;
关联标签确定模块,用于根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的标签挖掘方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的标签挖掘方法。
本发明实施例的方案,通过确定用户端的终端属性,与用户的内容标签进行关联,来确定各终端属性所关联的内容标签集,以便后续能够根据用户端的终端属性向用户进行内容推送,为内容推送方式提供了一种新思路,增强了内容推送方式的多样性。
附图说明
图1是本发明实施例一提供的一种标签挖掘方法的流程图;
图2是本发明实施例二提供的一种标签挖掘方法的流程图;
图3是本发明实施例三提供的一种标签挖掘方法的流程图;
图4是本发明实施例四提供的一种标签挖掘装置的结构示意图;
图5是本发明实施例五提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的标签挖掘方法的流程图,本实施例可适用于在向用户推送内容前,挖掘所需的内容标签的情况,该方法可以由本发明实施例提供的标签挖掘装置或服务器来执行,该装置可采用硬件和/或软件的方式实现。如图1所示,具体包括如下步骤:
S101,根据各用户端中安装的应用程序和/或各用户端的设备型号,确定各用户的终端属性。
其中,用户端可以是用户智能手机、平板电脑、可穿戴设备、笔记本电脑等。用户可以根据自身需求,在用户端上下载安装各种应用程序。用户端的设备型号可以是用户端的版本号、国际移动设备识别码(International Mobile Equipment Identity,IMEI)、移动设备识别码(Mobile Equipment Identifier,MEID)、系统版本号以及设备的机型等。用户终端属性信息可以是与终端中安装的应用程序或设备型号相关的信息,例如,可以是具体的设备型号、应用程序的类型或应用程序的标识列表等。
可选的,当根据各用户端中安装的应用程序,确定各用户的终端属性时,可以是获取每个用户端中安装的应用程序的标识(如应用程序的名称、编号、拼音简码等),将各客户端的应用程序的标识进行总和,将所有应用程序的标识列表作为各用户的终端属性。也可以是确定各用户端中安装的各应用程序所属的应用程序类型;根据各用户端关联的应用程序类型,确定各用户的终端属性。具体的,确定每一个用户端中安装的每一个应用程序所属的程序类型(即每一个用户端关联的每一个应用程序类型),将各用户端关联的各应用程序类型进行聚合,将各用户端关联的所有应用程序类型作为各用户的终端属性。可选的,确定各用户端中安装的各应用程序所属的应用类型时,可以是在下载应用程序时,从下载应用程序的网页或应用商店中获取(如可以是从该应用程序简介中提取,也可以是从该应用程序的下载分类中获取);也可以是终端下载安装应用程序后通过互联网搜索与该应用程序相关信息(如应用程序的介绍、用户对该应用程序的反馈信息或应用程序的更新版本信息等),根据搜索到的与该应用程序相关信息来分析确定应用程序类型;还可以是用户根据自身的需求,预先将安装的应用程序设置所属的程序类型等等。对此,本发明实施例不进行限定。
可选的,当根据各用户端的设备型号,确定各用户的终端属性时,可以是从设备的系统信息中获取各用户端的设备型号。然后将所有的用户终端的设备型号作为用各用户的终端属性。需要说明的是,为了统一各用户的终端属性,便于后续精准确定推送内容,在根据各用户端的设备型号,确定各用户的终端属性时,确定的各设备的设备型号种类应该是一致的,如,若确定的是用户端的版本号,则所有的用户端都确定的是版本号,若确定的是用户端的版本号和设备机型,则所有的用户端都确定的是版本号和设备机型。
可选的,当根据各用户端中安装的应用程序和各用户端的设备型号,确定各用户的终端属性,可以是确定各用户端中安装的应用程序的标识或应用程序所属的应用程序类型,将其与对应的用户端的设备型号一起作为各用户的终端属性。
需要说明的是,本发明实施例中确定的各用户的终端属性是用户端自身的属性,是用户端出厂就具备的,或者是用户端根据其安装的应用程序确定的,与用户的基本信息、喜好信息以及历史搜索使用操作无关。
S102,将各用户端访问内容的内容标签作为各用户的内容标签。
其中,用户端的访问内容可以是用户通过用户端上的应用程序或浏览器进入访问界面,在该界面上浏览的内容。访问内容的内容标签可以是对访问的具体内容、主题、作者、关键词等信息按照一定的方式进行划分,并为划分后的每一类信息设置的能够表征该类信息的标签。例如,可以是按照访问内容的形式划分标签,将访问内容分为视频标签、文字标签、图片标签、歌曲标签等;还可以是按照访问内容的主题划分标签,将访问内容分为新闻标签、娱乐标签、美食标签、游戏标签等;也可以是按照适合人群划分标签,将访问内容分为儿童类标签、青年类标签、中年类标签和老年类标签等。可选的,各用户端访问内容的内容标签还可以是多层嵌套式标签,例如,可以是先将访问内容按照内容的形式划分为视频标签、文字标签、图像标签、歌曲标签等,然后再将其中的每一个标签设置子标签,如将视频类标签进一步按照视频主题划分为新闻子标签、娱乐子标签、美食子标签和游戏子标签等。
可选的,将各用户端访问内容的内容标签作为各用户内容标签的过程可以是:针对每一个用户获取其一段时间的基于用户端的访问内容,对获取访问内容进行分析,确定各访问内容对应的内容标签,将该标签作为该用户的一个内容标签,将各用户的所有标签进行聚合,得到各用户的内容标签。可选的,确定每一个访问内容的内容标签时,可以是预先设置好每类内容标签的划分标准,对各访问内容的具体内容、主题、作者、关键词等信息进行分析,按照预设的划分标准,将该访问内容划分到预设的内容标签中。也可以是采用预先训练好的神经网络模型,将获取的各用户端访问内容输入训练好的神经网络模型中,该模型基于训练算法对输入的访问内容进行分析后,输出该访问内容对应的内容标签。其中,该神经网络模型是预先通过大量的包含用户端访问内容及其对应的内容标签,按照相关的算法训练得到的。
可选的,为了提高用户内容标签的时效性,可以是定期对各用户的内容标签进行更新,例如,可以是每隔一个月,将各用户终端在这一个月内容的访问内容的标签作为各用户的内容标签,每隔一个月各用户的内容标签更新一次。
S103,根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集。
可选的,根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集的方法可以是,针对每一个终端属性,判断该终端属性对应的用户终端的每一个访问内容的内容标签是否已经是该终端属性所关联的内容标签,若不是则将该标签属性作为该终端属性所关联的内容标签。然后将所有的终端属性及其关联的内容标签集合在一起,构成各终端属性所关联的内容标签集。
可选的,各终端属性所关联的内容标签中还可以标注有该内容标签对应的访问内容出现的次数,以及与对应的访问内容的关联关系等。为了提高各终端属性所关联的内容标签集构建的准确性,确定各终端属性所关联的内容标签集时,可以是查看各终端属性所关联的内容标签对应的访问内容的出现次数,若访问内容出现次数大于预设个数,则认为该终端属性所关联的内容标签成立,否则,认为该内容标签与该终端的关联关系属于偶然现象,应该从各终端属性所关联的内容标签集中剔除。例如,某一用户终端的用户的一个月访问数据中,只有一次搜索了儿童歌曲内容,则将该终端的终端属性与儿童类的内容标签建立关联纯属偶然现象,其会影响整个内容标签集的准确性。
本实施例提供了一种标签挖掘方法,通过确定用户端的终端属性,与用户的内容标签进行关联,来确定各终端属性所关联的内容标签集,以便后续能够根据用户端的终端属性向用户进行内容推送,为内容推送方式提供了一种新思路,增强了内容推送方式的多样性。
实施例二
图2是本发明实施例二提供的一种标签挖掘方法的流程图,该方法在上述实施例的基础上进一步的优化,具体给出根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集的具体情况介绍。如图2所示,该方法包括:
S201,根据各用户端中安装的应用程序和/或各用户端的设备型号,确定各用户的终端属性。
S202,将各用户端访问内容的内容标签作为各用户的内容标签。
S203,根据各用户的终端属性以及内容标签,确定各终端属性与内容标签之间的相关性特征。
其中,相关性特征包括提升度、共现度、前置信度、后置信度和支持度中的至少一个。它们都是反映用户的终端属性与内容标签之间的关联关系的指标。
具体的,共现度可以是任意一组终端属性与内容标签在所有的终端属性和内容标签中共同出现的次数或频率等,共同出现的次数或频率越大,则说明该组终端属性与内容标签的共现度越大。前置信度可以是任意一组终端属性与内容标签共现度与该组终端属性在所有终端属性中出现频次的商(即前置信度=终端属性A与内容标签B的共现度/终端属性A在所有终端属性中出现的次数);后置信度可以是任意一组终端属性与内容标签共现度与该组内容标签在所有内容标签中出现频次的商(即后置信度=终端属性A与内容标签B的共现度/内容标签B在所有内容标签中出现的次数)。支持度可以是表示任意一组终端属性与内容标签在所有的关联关系中同时出现的次数与所有关联关系的总个数的商(即终端属性A与内容标签B在所有的关联关系中同时出现的次数/所有关联关系的总个数)。提升度可以是度量终端属性和内容标签的关联关系是否有效的指标,可以按照如下公式进行计算:
lift(A∪B)=confidence(A∪B)/support(B);
其中,A为终端属性,B为内容标签confidence(A∪B)为终端属性A与内容标签B同时出现的置信度(可以是前置信度或后置信度);support(B)为内容标签B的支持度(即内容标签B在所有的内容标签中出现的次数/内容标签的总个数);lift(A∪B)为终端属性A和内容标签B的关联关系的提升度。如果提升度值等于1,说明该终端属性A和该内容标签B没有任何关联。如果提升度值小于1,说明该终端属性A和该内容标签B是负相关的关系,意味着一个出现可能导致另外一个不出现。如果提升度大于1,说明该终端属性A和该内容标签B具有正相关的关系,意味着一个出现可能导致另外一个出现。
示例性的,针对各用户终端属性以及用户的内容标签,计算每一个终端属性与其对应的用户端的每一个内容标签之间的相关性特征,可选的,相关特征可以选择提升度、共现度、前置信度、后置信度和支持度中的一个或多个,对此本发明实施例不进行限定,但是需要说明的是,确定的各终端属性与内容标签之间的相关性特征的指标应该是相同的,例如,若相关性特征选择提升度,则所有的终端属性与内容标签的相关性特征都计算提升度。
S204,根据各终端属性与内容标签之间的相关性特征,确定各终端属性所关联的内容标签集。
可选的,若S203中确定的相关性特征为提升度,则根据各终端属性与内容标签之间的相关性特征,确定各终端属性所关联的内容标签集,包括:若任一内容标签与终端属性之间的提升度大于提升度阈值,则将该内容标签作为该终端属性关联的内容标签。具体的,可以是预先设置一个提升度阈值,基于该提升度阈值,对每一组内容标签与终端属性进行筛选,即判断每一组内容标签与终端属性之间的提升度是否大于提升度阈值,若大于,则说明该组中内容标签出现,终端属性也出现的概率比较大,即挖掘出的该组终端属性和内容标签的关联关系是有价值的,因此,将该组的内容标签作为该组的终端属性关联的内容标签;否则,说明该组的内容标签出现,终端属性也出现的概率不是很大,在确定该终端属性关联的内容标签时,忽略该组的内容标签。其中,预先设置的提升度阈值为大于1的自然数。可选的,若S203中确定的相关性特征为其他指标(如共现度、支持度、前置信度或后置信度)时,也可以是通过设定该指标阈值,若任一内容标签与终端属性之间的该指标大于该指标阈值,则将该内容标签作为该终端属性关联的内容标签。
可选的,若S203中确定的相关性特征为前置信度和后置信度,则根据各终端属性与内容标签之间的相关性特征,确定各终端属性所关联的内容标签集,还可以是:根据任一内容标签与终端属性之间的前置信度和后置信度,确定该内容标签与终端属性之间的平衡程度;判断所述平衡程度是否大于平衡程度阈值,若是,则将该内容标签作为该终端属性关联的内容标签。可选的,确定内容标签与终端属性之间的平衡程度,可以是计算前置信度和后置信度之间的差值或变化率作为内容标签与终端属性之间的平衡程度;也可以是采用其他方式计算,对此,本实施例不进行限定。
可选的,为了提高确定的各终端属性所关联的内容标签集的准确性,在根据各终端属性与内容标签之间的相关性特征,确定出各终端属性所关联的内容标签集时,可以是采用多终端、多时间段的方式精准确定出各终端属性所关联的内容标签集,具体的,可以包括如下两步骤:
A、根据各时间窗口内各终端属性与内容标签之间的相关性特征,确定在各时间窗口内各终端属性所关联的候选内容标签集。
其中,时间窗口可以是指一个时间段,且该时间段是周期性使用的,例如,若时间窗口对应的时间段是11:00到13:00,则该时间窗口即为每天的11:00到13:00。
示例性的,预先确定多个时间窗口,每天都根据各时间窗口内各终端属性与内容标签之间的相关性特征,确定在各时间窗口内各终端属性所关联的候选内容标签集;例如,若预先设定的时间窗口为7:00-9:00、11:00到13:00、17:00-19:00以及21:00-23:00,则可以是根据每天上述各时间段内的各终端属性与内容标签之间的相关性特征,确定每天上述各时间段内各终端属性所关联的候选内容标签集。可选的,可以是将预设天数内(如半个月内)确定的每天上述各时间段内各终端属性所关联的候选内容标签,组成各终端属性所关联的候选内容标签集。可选的,各时间窗口的确定可以是用户设置的,也可以是服务器根据用户使用终端的习惯确定的。例如,用户习惯在早上上班路上、中午吃饭时间、下班路上以及睡前玩手机,则可以将时间窗口设置为7:00-9:00、11:00到13:00、17:00-19:00以及21:00-23:00。
B、对各终端属性所关联的候选内容标签集求交集,得到各终端属性所关联的内容标签集。
示例性的,确定出各时间窗口内每一个终端属性所关联的候选内容标签集后,对各终端属性,将各时间窗口内该终端属性所关联的所有候选内容标签集求交集,得到各终端属性所关联的内容标签集合。例如,以一个终端为例,确定出该终端半月内在7:00-9:00、11:00到13:00、17:00-19:00以及21:00-23:00的四个时间段内的4个终端属性所关联的候选内容标签集后,将这4个终端属性所关联的候选内容标签集求交集,得到该终端属性所关联的最终内容标签集。
本实施例提供了一种标签挖掘方法,通过确定用户端的终端属性和各用户的内容标签,确定各终端属性与内容标签之间的相关特征,进而基于各终端属性与内容标签之间的相关性特征,确定各终端属性所关联的内容标签集。能够保证确定的终端属性所关联的内容标签集的准确性,在增强内容推送方式多样性的同时,保证了推送内容的精准性。
实施例三
图3是本发明实施例三提供的一种标签挖掘方法的流程图,该方法在上述实施例的基础上进一步的优化,具体给出了对某一个目标用户的候选内容标签的确定情况介绍。如图3所示,该方法包括:
S301,根据各用户端中安装的应用程序和/或各用户端的设备型号,确定各用户的终端属性。
S302,将各用户端访问内容的内容标签作为各用户的内容标签。
S303,根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集。
示例性的,S301-S303确定的各终端属性所关联的内容标签集为共性的所有的终端属性与其所关联的内容标签集之间的对应关系,并存储在数据库中,以便后续确定目标用户对应的个性化内容标签时使用。
S304,根据目标用户终端中安装的应用程序和/或目标用户端的设备型号,确定目标用户的目标终端属性。
示例性的,本实施例以订阅了某种推送消息的用户为目标用户,确定该目标用户的候选内容标签集。进而以feed流的形式将目标用户主动订阅的若干消息源组合在一起,帮助目标用户持续地获取最新的订阅源内容。
可选的,本步骤中根据目标用户终端中安装的应用程序和/或目标用户端的设备型号,确定目标用户的目标终端属性的具体方式可以和上述各实施例中根据各用户端中安装的应用程序和/或各用户端的设备型号,确定各用户的终端属性的方式一样,对此本实施例不进行赘述。可选的,由于目标终端属性是根据安装的应用程序和/或目标用户端的设备型号确定的,终端中安装的应用程序通常不止一个,而设备型号也分为很多种,所以目标终端属性通常为多个属性。
S305,根据目标用户的目标终端属性,以及各终端属性所关联的内容标签集,确定目标终端属性关联的候选内容标签集。
示例性的,根据目标用户的目标终端属性,以及S301-S303确定的共性的各终端属性所关联的内容标签集,确定个性化的该目标终端属性关联的候选内容标签集可以是,在确定目标终端属性关联的候选内容标签集时,可以是将目标用户的目标终端属性与S301-S303中生成的内容标签集对应的各终端属性进行匹配,从多个终端属性中确定目标终端属性对应的至少一个终端属性,然后将匹配的终端属性所关联的内容标签集作为该目标终端属性关联的候选内容标签集。也可以是采用预先训练好的目标用户标签集确定模型,将目标用户的目标终端属性输入训练好的目标用户标签确定模型中,该模型会基于训练时的算法对输入的目标终端属性进行分析,从S301-S303中生成的各终端属性中确定出与该目标终端属性匹配的终端属性所关联的内容标签集合作为该目标终端属性关联的候选内容标签集。
S306,采用目标用户的标签排序模型对目标终端属性关联的候选内容标签集中的候选内容标签进行排序。
其中,目标用户的标签排序模型是根据目标用户的历史终端属性和目标用户的历史内容标签训练得到的。具体的,可以是根据目标用户的终端中安装的历史应用程序和/或目标用户端的设备型号,确定目标用户的历史终端属性。将目标用户端历史访问内容的标签作为目标用户的历史内容标签,将确定的历史终端属性作为模型的输入,将历史内容标签作为模型的输出,训练该目标用户的标签排序模型,使得训练好的标签排序模型可以根据输入的目标用户的目标终端属性,按照训练时的算法,对候选内容标签集中各内容标签按照输入的各目标终端属性的顺序进行重新排序,使得输出的各候选内容标签集中各候选内容标签的顺序与输入的目标终端属性的顺序相对应,即输入一个目标终端属性,输出候选内容标签中该目标终端属性对应的内容标签。
示例性的,采用目标用户的标签排序模型对目标终端属性关联的候选内容标签集中的候选内容标签进行排序。可以是将目标终端属性依次输入到训练好的目标用户的标签排序模型中,该模型会按照输入各终端属性的顺序,依次从候选内容标签中确定各目标终端属性对应的内容标签,并按照输入的各目标终端属性的顺序依次输出对应的内容标签。
本实施例提供了一种标签挖掘方法,通过确定用户端的终端属性,与用户的内容标签进行关联,来确定各终端属性所关联的内容标签集,在确定目标用户的内容标签时,确定目标用户的目标终端属性,结合各终端属性所关联的内容标签集确定目标属性关联的候选内容标签集,采用标签排序模型对候选内容标签集进行排序。能够在确定了所有用户共性的各终端属性所关联的内容标签集后,根据标签排序模型,为各目标用户的个性化的内容标签进行排序,增强了内容推送方式的多样性的同时,丰富了标签挖掘的功能。
实施例四
图4是本发明实施例四提供的一种标签挖掘装置的结构示意图,该装置可执行本发明任意实施例所提供的标签挖掘方法,具备执行方法相应的功能模块和有益效果。如图4所示,该装置包括:
终端属性确定模块401,用于根据各用户端中安装的应用程序和/或各用户端的设备型号,确定各用户的终端属性;
内容标签确定模块402,用于将各用户端访问内容的内容标签作为各用户的内容标签;
关联标签确定模块403,用于根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集。
本实施例提供了一种标签挖掘装置,通过确定用户终端的属性,与用户的内容标签进行关联,来确定各终端属性所关联的内容标签集,以便后续能够根据用户端的终端属性向用户进行内容推送,为内容推送方式提供了一种新思路,增强了内容推送方式的多样性。
进一步的,上述终端属性确定模块具体用于:
确定各用户端中安装的各应用程序所属的应用程序类型;
根据各用户端关联的应用程序类型,确定各用户的终端属性。
进一步的,上述关联标签确定模块包括:
相关特征确定单元,用于根据各用户的终端属性以及内容标签,确定各终端属性与内容标签之间的相关性特征;
标签集确定单元,用于根据所述各终端属性与内容标签之间的相关性特征,确定各终端属性所关联的内容标签集;
其中,所述相关性特征包括提升度、共现度、前置信度、后置信度和支持度中的至少一个。
进一步的,上述标签集确定单元具有用于:
若任一内容标签与终端属性之间的提升度大于提升度阈值,则将该内容标签作为该终端属性关联的内容标签。
进一步的,上述标签集确定单元具有用于:
根据各时间窗口内所述各终端属性与内容标签之间的相关性特征,确定在所述各时间窗口内各终端属性所关联的候选内容标签集;
对所述各终端属性所关联的候选内容标签集求交集,得到各终端属性所关联的内容标签集。
进一步的,上述终端属性确定模块还用于:根据目标用户终端中安装的应用程序和/或目标用户端的设备型号,确定目标用户的目标终端属性;
上述装置还包括:
候选标签确定模块,用于根据所述目标用户的目标终端属性,以及所述各终端属性所关联的内容标签集,确定目标终端属性关联的候选内容标签集;
标签排序模块,用于采用目标用户的标签排序模型对所述目标终端属性关联的候选内容标签集中的候选内容标签进行排序;
其中,所述目标用户的标签排序模型是根据目标用户的历史终端属性和目标用户的历史内容标签训练得到的。
实施例五
图5为本发明实施例五提供的一种服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器50的框图。图5显示的服务器50仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图5所示,该服务器50以通用计算设备的形式表现。该服务器50的组件可以包括但不限于:一个或者多个处理器或者处理单元501,系统存储器502,连接不同系统组件(包括系统存储器502和处理单元501)的总线503。
总线503表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器50典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器50访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器502可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)504和/或高速缓存存储器505。服务器50可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统506可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线503相连。系统存储器502可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块507的程序/实用工具508,可以存储在例如系统存储器502中,这样的程序模块507包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块507通常执行本发明所描述的实施例中的功能和/或方法。
服务器50也可以与一个或多个外部服务器509(例如键盘、指向设备、显示器510等)通信,还可与一个或者多个使得用户能与该设备交互的设备通信,和/或与使得该服务器50能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口511进行。并且,服务器50还可以通过网络适配器512与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器512通过总线503与服务器50的其它模块通信。应当明白,尽管图中未示出,可以结合服务器50使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元501通过运行存储在系统存储器502中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的标签挖掘方法。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现上述实施例所述的标签挖掘方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员应该明白,上述的本发明实施例的各模块或各操作可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或操作制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种标签挖掘方法,其特征在于,包括:
根据各用户端中安装的应用程序和/或各用户端的设备型号,确定各用户的终端属性;
将各用户端访问内容的内容标签作为各用户的内容标签;
根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集。
2.根据权利要求1所述的方法,其特征在于,根据各用户端中安装的应用程序,确定各用户的终端属性,包括:
确定各用户端中安装的各应用程序所属的应用程序类型;
根据各用户端关联的应用程序类型,确定各用户的终端属性。
3.根据权利要求1所述的方法,其特征在于,根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集,包括:
根据各用户的终端属性以及内容标签,确定各终端属性与内容标签之间的相关性特征;
根据所述各终端属性与内容标签之间的相关性特征,确定各终端属性所关联的内容标签集;
其中,所述相关性特征包括提升度、共现度、前置信度、后置信度和支持度中的至少一个。
4.根据权利要求3所述的方法,其特征在于,根据所述各终端属性与内容标签之间的相关性特征,确定各终端属性所关联的内容标签集,包括:
若任一内容标签与终端属性之间的提升度大于提升度阈值,则将该内容标签作为该终端属性关联的内容标签。
5.根据权利要求3所述的方法,其特征在于,根据所述各终端属性与内容标签之间的相关性特征,确定各终端属性所关联的内容标签集,包括:
根据各时间窗口内所述各终端属性与内容标签之间的相关性特征,确定在所述各时间窗口内各终端属性所关联的候选内容标签集;
对所述各终端属性所关联的候选内容标签集求交集,得到各终端属性所关联的内容标签集。
6.根据权利要求1所述的方法,其特征在于,根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集之后,还包括:
根据目标用户终端中安装的应用程序和/或目标用户端的设备型号,确定目标用户的目标终端属性;
根据所述目标用户的目标终端属性,以及所述各终端属性所关联的内容标签集,确定目标终端属性关联的候选内容标签集;
采用目标用户的标签排序模型对所述目标终端属性关联的候选内容标签集中的候选内容标签进行排序;
其中,所述目标用户的标签排序模型是根据目标用户的历史终端属性和目标用户的历史内容标签训练得到的。
7.一种标签挖掘装置,其特征在于,包括:
终端属性确定模块,用于根据各用户端中安装的应用程序和/或各用户端的设备型号,确定各用户的终端属性;
内容标签确定模块,用于将各用户端访问内容的内容标签作为各用户的内容标签;
关联标签确定模块,用于根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集。
8.根据权利要求7所述的装置,其特征在于,所述终端属性确定模块具体用于:
确定各用户端中安装的各应用程序所属的应用程序类型;
根据各用户端关联的应用程序类型,确定各用户的终端属性。
9.根据权利要求7所述的装置,其特征在于,所述关联标签确定模块包括:
相关特征确定单元,用于根据各用户的终端属性以及内容标签,确定各终端属性与内容标签之间的相关性特征;
标签集确定单元,用于根据所述各终端属性与内容标签之间的相关性特征,确定各终端属性所关联的内容标签集;
其中,所述相关性特征包括提升度、共现度、前置信度、后置信度和支持度中的至少一个。
10.根据权利要求9所述的装置,其特征在于,所述标签集确定单元具有用于:
若任一内容标签与终端属性之间的提升度大于提升度阈值,则将该内容标签作为该终端属性关联的内容标签。
11.根据权利要求9所述的装置,其特征在于,所述标签集确定单元具有用于:
根据各时间窗口内所述各终端属性与内容标签之间的相关性特征,确定在所述各时间窗口内各终端属性所关联的候选内容标签集;
对所述各终端属性所关联的候选内容标签集求交集,得到各终端属性所关联的内容标签集。
12.根据权利要求7所述的装置,其特征在于,
所述终端属性确定模块还用于:根据目标用户终端中安装的应用程序和/或目标用户端的设备型号,确定目标用户的目标终端属性;
所述装置还包括:
候选标签确定模块,用于根据所述目标用户的目标终端属性,以及所述各终端属性所关联的内容标签集,确定目标终端属性关联的候选内容标签集;
标签排序模块,用于采用目标用户的标签排序模型对所述目标终端属性关联的候选内容标签集中的候选内容标签进行排序;
其中,所述目标用户的标签排序模型是根据目标用户的历史终端属性和目标用户的历史内容标签训练得到的。
13.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的标签挖掘方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的标签挖掘方法。
CN201811509733.2A 2018-12-11 2018-12-11 标签挖掘方法、装置、服务器和存储介质 Active CN111310016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811509733.2A CN111310016B (zh) 2018-12-11 2018-12-11 标签挖掘方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811509733.2A CN111310016B (zh) 2018-12-11 2018-12-11 标签挖掘方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN111310016A true CN111310016A (zh) 2020-06-19
CN111310016B CN111310016B (zh) 2023-08-04

Family

ID=71156102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811509733.2A Active CN111310016B (zh) 2018-12-11 2018-12-11 标签挖掘方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN111310016B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190758A (zh) * 2021-05-21 2021-07-30 聚好看科技股份有限公司 服务器及媒资推荐方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654859A (zh) * 2011-03-01 2012-09-05 北京彩云在线技术开发有限公司 一种歌曲推荐方法及系统
US8655307B1 (en) * 2012-10-26 2014-02-18 Lookout, Inc. System and method for developing, updating, and using user device behavioral context models to modify user, device, and application state, settings and behavior for enhanced user security
CN104796434A (zh) * 2015-05-08 2015-07-22 集怡嘉数码科技(深圳)有限公司 一种消息推送方法及服务器
US9275374B1 (en) * 2011-11-15 2016-03-01 Google Inc. Method and apparatus for pre-fetching place page data based upon analysis of user activities
CN105472400A (zh) * 2015-12-24 2016-04-06 Tcl集团股份有限公司 一种消息推送方法及系统
US9338242B1 (en) * 2013-09-09 2016-05-10 Amazon Technologies, Inc. Processes for generating content sharing recommendations
CN105677844A (zh) * 2016-01-06 2016-06-15 北京摩比万思科技有限公司 一种移动广告大数据的定向推送及用户跨屏识别方法
CN105989074A (zh) * 2015-02-09 2016-10-05 北京字节跳动科技有限公司 一种通过移动设备信息进行推荐冷启动的方法和装置
CN106055586A (zh) * 2016-05-21 2016-10-26 乐视控股(北京)有限公司 应用程序的推荐系统及方法、终端、服务器
CN106998271A (zh) * 2017-05-17 2017-08-01 中国工商银行股份有限公司 自动适配处理系统及方法
CN108009247A (zh) * 2017-11-30 2018-05-08 广州酷狗计算机科技有限公司 信息推送方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654859A (zh) * 2011-03-01 2012-09-05 北京彩云在线技术开发有限公司 一种歌曲推荐方法及系统
US9275374B1 (en) * 2011-11-15 2016-03-01 Google Inc. Method and apparatus for pre-fetching place page data based upon analysis of user activities
US8655307B1 (en) * 2012-10-26 2014-02-18 Lookout, Inc. System and method for developing, updating, and using user device behavioral context models to modify user, device, and application state, settings and behavior for enhanced user security
US9338242B1 (en) * 2013-09-09 2016-05-10 Amazon Technologies, Inc. Processes for generating content sharing recommendations
CN105989074A (zh) * 2015-02-09 2016-10-05 北京字节跳动科技有限公司 一种通过移动设备信息进行推荐冷启动的方法和装置
CN104796434A (zh) * 2015-05-08 2015-07-22 集怡嘉数码科技(深圳)有限公司 一种消息推送方法及服务器
CN105472400A (zh) * 2015-12-24 2016-04-06 Tcl集团股份有限公司 一种消息推送方法及系统
CN105677844A (zh) * 2016-01-06 2016-06-15 北京摩比万思科技有限公司 一种移动广告大数据的定向推送及用户跨屏识别方法
CN106055586A (zh) * 2016-05-21 2016-10-26 乐视控股(北京)有限公司 应用程序的推荐系统及方法、终端、服务器
CN106998271A (zh) * 2017-05-17 2017-08-01 中国工商银行股份有限公司 自动适配处理系统及方法
CN108009247A (zh) * 2017-11-30 2018-05-08 广州酷狗计算机科技有限公司 信息推送方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋玉珊;仇剑书;杨子文;张成岩;: "大数据时代移动阅读发展策略探讨" *
邓逸斌;朱克隽;: "大数据挖掘助力电信运营商终端营销" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190758A (zh) * 2021-05-21 2021-07-30 聚好看科技股份有限公司 服务器及媒资推荐方法
CN113190758B (zh) * 2021-05-21 2023-01-20 聚好看科技股份有限公司 服务器及媒资推荐方法

Also Published As

Publication number Publication date
CN111310016B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN109087135B (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
US8019756B2 (en) Computer apparatus, computer program and method, for calculating importance of electronic document on computer network, based on comments on electronic document included in another electronic document associated with former electronic document
US9852215B1 (en) Identifying text predicted to be of interest
Chen et al. Mining user requirements to facilitate mobile app quality upgrades with big data
CN109471978B (zh) 一种电子资源推荐方法及装置
CN111144952A (zh) 基于用户兴趣的广告推荐方法、装置、服务器及存储介质
US10262041B2 (en) Scoring mechanism for discovery of extremist content
CN108153909B (zh) 关键词投放拓词方法、装置及电子设备、存储介质
CN108121814B (zh) 搜索结果排序模型生成方法和装置
US11216529B2 (en) Systems and methods for categorizing, evaluating, and displaying user input with publishing content
CN113592535B (zh) 一种广告推荐方法、装置、电子设备和存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN107609192A (zh) 一种搜索引擎的补充搜索方法和装置
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
US20090327877A1 (en) System and method for disambiguating text labeling content objects
CN112818230A (zh) 内容推荐方法、装置、电子设备和存储介质
CN110245357B (zh) 主实体识别方法和装置
US9965812B2 (en) Generating a supplemental description of an entity
CN109672706B (zh) 一种信息推荐方法、装置、服务器及存储介质
CN113590756A (zh) 信息序列生成方法、装置、终端设备和计算机可读介质
CN111310016B (zh) 标签挖掘方法、装置、服务器和存储介质
CN114265777B (zh) 应用程序的测试方法、装置、电子设备及存储介质
CN111753199B (zh) 用户画像构建方法及设备、电子设备和介质
WO2023285327A1 (en) Elucidated natural language artifact recombination with contextual awareness
CN109978645B (zh) 一种数据推荐方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant