CN102687166A - 用于用户兴趣建模的方法和设备 - Google Patents
用于用户兴趣建模的方法和设备 Download PDFInfo
- Publication number
- CN102687166A CN102687166A CN2009801632294A CN200980163229A CN102687166A CN 102687166 A CN102687166 A CN 102687166A CN 2009801632294 A CN2009801632294 A CN 2009801632294A CN 200980163229 A CN200980163229 A CN 200980163229A CN 102687166 A CN102687166 A CN 102687166A
- Authority
- CN
- China
- Prior art keywords
- user
- theme
- user interest
- typing
- daily record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
Abstract
提供了用于用户兴趣建模的方法和设备。方法可以包括访问用于用户的已录入日志的交互用户历史数据。该方法可以附加地包括利用在所述已录入日志的交互用户历史数据和生成自主题特征源的一个或多个种子文档的至少部分上起作用的主题模型,确定用于所述用户的至少一个用户兴趣主题。还提供了对应的设备。
Description
技术领域
本发明的实施方式总体上涉及目标内容(targeted content)的提供,以及更具体地,涉及用于用户兴趣建模的方法和设备。
背景技术
当今通信时代已经使有线网络和无线网络得以巨大扩张。计算机网络、电视网络和电话网络正经历由消费者需求驱动的空前技术扩张。无线和移动联网技术已经解决了相关的消费者需求,同时提供了信息传输的更大灵活性和即时性。
目前的和未来的联网技术以及利用联网技术的已演进计算设备继续向用户促进信息传输的易用性和便利性。已演进联网技术和计算设备促进从远程内容提供方访问大量内容,以用于在用户本地计算设备处进行消费以及与其他用户交换数据。内容提供方和网络服务提供方通常通过广告来支付促进在用户之间交换数据以及提供内容的开销。为了使广告对于广告者而言具有最大价值以及由此使得内容提供方为广告空间支付溢价金,广告需要吸引被提供该广告的用户的兴趣,以便使得用户购买所广告的产品和服务。因此,广告者试图使广告以特定用户为“目标”。
此外,某些内容提供方试图向用户提供以用户兴趣作为目标的内容,以此作为服务。为了令目标内容提供方提供的目标内容被用户认为是有价值的,目标内容应当以用户兴趣为目标,以便准确地反应用户兴趣。另外,内容和/或服务提供方可以尝试着促进由具有类似兴趣的用户形成兴趣组或社交网络。
发明内容
此处提供了用于用户兴趣建模的方法、设备和计算机程序产品。在此方面,提供了系统、方法、设备和计算机程序产品,其可以向服务提供方、内容提供方、计算设备和计算设备用户提供若干优势。本发明的实施方式提供了针对定义用户兴趣的用户兴趣主题的确定。本发明的实施方式促进利用确定的用户兴趣主题来向用户提供目标内容,诸如,例如,目标广告。在此方面,本发明的实施方式对已录入日志的交互用户历史数据进行挖掘,以确定用于用户的用户兴趣主题。根据本发明的某些实施方式,已录入日志的交互用户历史数据包括由用户在日常使用计算设备的过程中所产生的、接收的和/或访问的数据。
由于用户使用设备的模式可能反映用户的兴趣,所以本发明的实施方式借助于全新的主题模型提供了对已录入日志的交互用户历史数据的统计建模,其中该主题模型配置用于在生成自主题特征源的一个或多个种子文档上起作用。本发明的一个实施方式所提供的一个这种主题模型是带有主题特征的、已加标签的隐含狄利克雷分配(LLDA-TF)算法。根据本发明的实施方式,包括人类可读和可理解名称的预定义主题类别标签通过针对已录入日志的交互用户历史数据的统计建模得以确定。这些预定义主题类别标签较之于之前的模型,能够提供关于用户兴趣主题的更有意义的信息,而之前的模型仅仅提供了代表隐含主题的关键字列表。
在第一示例性实施方式中,提供了一种方法,其包括访问用于用户的已录入日志的交互用户历史数据。此实施方式的该方法进一步包括:利用在已录入日志的交互用户历史数据和生成自主题特征源的一个或多个种子文档的至少部分上起作用的主题模型,确定用于用户的至少一个用户兴趣主题。
在另一示例性实施方式中,提供了一种设备。此实施方式的该设备包括至少一个处理器和存储有计算机程序代码的至少一个存储器,其中所述至少一个存储器和存储的计算机程序代码配置用于与所述至少一个处理器一起使得所述设备至少访问用于用户的已录入日志的交互用户历史数据。该至少一个存储器和存储的计算机程序代码配置用于与至少一个处理器一起使得此实施方式的设备利用在已录入日志的交互用户历史数据和生成自主题特征源的一个或多个种子文档的至少部分上起作用的主题模型,确定用于用户的至少一个用户兴趣主题。
在另一示例性实施方式中,提供了一种计算机程序产品。此实施方式的该计算机程序产品包括至少一个计算机可读存储介质,其中存储有计算机可读程序指令。此实施方式的程序指令包括配置用于访问用于用户的已录入日志的交互用户历史数据的程序指令。此实施方式的程序指令进一步包括配置用于利用在已录入日志的交互用户历史数据和生成自主题特征源的一个或多个种子文档的至少部分上起作用的主题模型,确定用于用户的至少一个用户兴趣主题的程序指令。
在另一示例性实施方式中,提供了一种设备,包括用于访问用于用户的已录入日志的交互用户历史数据的装置。此实施方式的设备进一步包括用于利用在已录入日志的交互用户历史数据和生成自主题特征源的一个或多个种子文档的至少部分上起作用的主题模型,确定用于用户的至少一个用户兴趣主题的装置。
在另一示例性实施方式中,提供了一种计算机可读存储介质,其携带计算机可读程序指令。计算机可读程序指令包括:配置用于访问用于用户的已录入日志的交互用户历史数据的程序指令。该计算机可读程序指令进一步包括配置用于利用在已录入日志的交互用户历史数据和生成自主题特征源的一个或多个种子文档的至少部分上起作用的主题模型,确定用于用户的至少一个用户兴趣主题的程序指令。
提供上述发明内容仅为了总结本发明某些示例性实施方式的目的,以便提供本发明某些方面的基础理解。因此,应当理解,上面描述的示例性实施方式仅是示例,而不应当构建为以任何方式缩小本发明的范围或精神。应当理解,除了在此总结的以外,本发明的范围涵盖众多潜在实施方式,其中的某一些将在下文进一步描述。
附图说明
由此,已经在整体方面描述了本发明的实施方式,现在将参考不是必须按比例绘制的附图,以及其中:
图1示出了隐含狄利克雷分配模型的图形表征;
图2示出了根据本发明一个示例性实施方式的、用于用户兴趣建模的设备框图;
图3是根据本发明一个示例性实施方式的、移动终端的示意框图;
图4示出了根据本发明一个示例性实施方式的、用于提供目标内容的系统;
图5示出了根据本发明一个示例性实施方式的、带有主题特征模型的、已加标签的隐含狄利克雷分配的图形表征;
图6示出了根据本发明一个示例性实施方式的、带有主题特征模型的、已加标签的隐含狄利克雷分配的输入和输出的图形表征;
图7示出了条形图,该条形图示意了利用本发明示例性实施方式的、向用户兴趣主题指派输入文档;以及
图8示出了根据本发明一个示例性实施方式的、根据用于用户兴趣建模的示例性方法的流程图。
具体实施方式
现在,将在下文更全面地参考附图来描述本发明的某些实施方式,其中示出了本发明的某些但不是全部实施方式。事实上,本发明可以在很多不同形式中实现,并且不应当构建为在此示出的实施方式;相反,提供这些实施方式是为了使本公开满足可申请的法律要求。贯穿全文,类似的附图标记涉及类似的元素。
如在此使用的,术语“电路”涉及(a)仅硬件电路实现(例如,以模拟电路和/或数字电路实现);(b)电路和包括存储在一个或多个计算机可读存储器上的软件和/或固件指令的计算机程序产品的组合,其中这些组合一起工作以使得设备执行此处描述的一个或多个功能;以及(c)电路,诸如,例如,即使在软件或固件并未物理存在的情况下,仍需要用于操作的软件或固件的微处理器或微处理器的一部分。‘电路’的这一定义适用于这一术语在本文中的所有使用,包括在任何权利要求中。作为另一示例,如在此所使用的,术语‘电路’还包括包含一个或多个处理器的实现和/或其部分以及随附的软件和/或固件。作为另一示例,此处使用的术语‘电路’还包括例如用于移动电话的基带集成电路或应用处理器集成电路或服务器、蜂窝网络设备、其他网络设备,和/或其他计算设备中的类似集成电路。
隐含狄利克雷分配(LDA)是具有数学建模能力的全概率性生成模型。LDA算法的计算复杂度并未直接受到输入到模型的训练文档输入数量的影响,从而使得其适合于大型的语料库并可针对其进行缩放。
图1示出了隐含狄利克雷分配模型的图形表征。在图1的模型中,D是文档的数量,以及Nd是每个文档d中的词汇数量。以及T是主题的数量。α和β是θ和φ的相应狄利克雷参数。θ代表针对文档的主题比例。z是针对每个词汇的主题指派的代表,以及ψ包括主题分布。
参考图1,针对语料库D中每个文档d的生成性处理可以表示为:
1)选择θ~Dir(a)
2)针对d中的每个词汇
a)选择主题zn~Multinomial(θ)
b)从p(wn|zmβ)中选择词汇wn,其中p(wn|zmβ)是以主题zn为条件的多项式概率。
吉布斯(Gibbs)采样是用于估计LDA模型参数的一种方式。针对每个吉布斯采样进行迭代,每个文档中每个词汇的主题根据zdi的后验(posterior)来进行采样,即,p(zdi|w,α,β)。此外,对于每次迭代,算法更新p(zdi|w,α,β),其作为先验分布用于下一次迭代。在吉布斯采样中,后验p(zdi|w,α,β)仅涉及词汇和主题的同时出现以及文档和主题的同时出现。p(zdi|w,α,β)的函数是:
其中,nzw是词汇v的令牌数量,并且被指派给主题z,mdz是文档d中的令牌数量,并且被指派给主题z。θ和φ的后验继而使用下式来进行更新:
其中,T是主题的数量,以及V是词表的大小。在此方面,θ和φ的后验可以在采样过程之后进行更新。
LDA是受限的,因为其不能直接输出主题信息,而仅仅输出代表可能未与人类定义的或可理解的主题匹配的隐含主题的关键字列表,由此抑制了分析和利用用户兴趣的能力。而且,算法最终解码的代表主题的关键字代表潜在状态,其通常不能由人类以有含义的方式进行阅读或理解。
本发明的实施方式提供了新的主题模型和方法、设备以及计算机程序产品,其使用用于用户兴趣建模的新的主题模型,这些模型可以克服LDA和其他主题模型中的某些缺陷。由本发明某些实施方式提供的主题模型配置用于在生成自主题特征源(例如,包括主题特征和/或其指示的种子文档)的一个或多个种子文档上起作用。本发明的某些实施方式提供了改进的LDA模型,在此称为LLDA-TF(带有主题特征的、已加标签的隐含狄利克雷分配)。然而,应当理解,LLDA-TF仅是根据本发明的实施方式的、配置用于利用主题特征的模型的一个实施方式示例。因此,将会理解,在描述使用LLDA-TF时,提供的描述仅仅是根据本发明实施方式的、配置用于使用主题特征的一个主题模型示例。因此,本发明设计了如下文进一步描述的,并且不仅仅是基于LDA的主题模型的任何主题模型,其被配置用于在生成自主题特征源的一个或多个种子文档上起作用。
图2示出了根据本发明一个示例性实施方式的、用于用户兴趣建模的设备202的框图。在此方面,图2示出了可以配置用于通过利用如在下文进一步描述的、诸如例如LLDA-TF的主题模型来确定用于用户的至少一个用户兴趣主题的设备。应当理解,提供的设备202是本发明一个实施方式的示例,并且不应当构建为以任何方式限制本发明的范围或精神。在此方面,本发明的范围涵盖了除了在此示出和描述的实施方式之外的多个潜在实施方式。由此,尽管图2示出了用于用户兴趣建模的设备配置的一个示例,但是众多其他配置也可以用于实现本发明的实施方式。
设备202可以具体化为桌面计算机、膝上型计算机、移动终端、移动计算机、移动电话、移动通信设备、一个或多个服务器、一个或多个网络节点、游戏设备、数字相机/摄像机、音频/视频播放器、电视设备、无线电接收机、数字视频记录仪、定位设备、用户终端(例如,图4中示出的用户终端402)、目标内容提供方(例如,图4中示出的目标内容提供方406)、其任何组合,和/或其他。在一个示例性实施方式中,设备202具体化为移动终端,诸如图3中所示。
在此方面,图3示出了代表根据本发明实施方式的设备202的一个实施方式的移动终端10的框图。然而,应当理解,示出并且在下文描述的移动终端10仅是可以实现和/或受益于本发明实施方式的设备202的一种类型,并且由此不应当构建为限制本发明的范围。尽管示出了电子设备的若干实施方式并且将在下文出于示例的目的进行描述,但是其他类型的电子设备,诸如移动电话、移动计算机、便携式数字助理(PDA)、寻呼机、膝上型计算机、桌面计算机、游戏设备、电视和其他类型的电子系统可以采用本发明的实施方式。
如所示,移动终端10可以包括天线12(或多个天线12),用于与发射器14和接收器16通信。移动终端10还可以包括处理器20,配置用于分别向发射器提供信号以及从接收器接收信号。处理器20例如可以具体化为各种装置(包括电路)、具有随附数字信号处理器的一个或多个微处理器、不具有随附的数字信号处理器的一个或多个处理器、一个或多个协处理器、一个或多个多核处理器、一个或多个控制器、处理电路、一个或多个计算机、各种其他处理元件(包括集成电路,诸如,例如,ASIC(专用集成电路)或FPGA(现场可编程门阵列))或其某些组合。因此,尽管图3中示出了单个处理器,但是在某些实施方式中,处理器20包括多个处理器。由处理器20发送和接收的这些信号可以包括根据可应用的蜂窝系统的空中接口标注的信令信息和/或任何数量的不同有线或无线联网技术,包括但不限于无线高保真(Wi-Fi)、无线本地访问网络(WLAN)技术(诸如,电子和电器工程师协会(IEEE)802.11、802.16)等。此外,这些信号可以包括语音数据、用户生成的数据、用户请求的数据和/或其他。在此方面,移动终端可以能够与一个或多个空中接口标准、通信协议、调制类型、访问类型和/或其他仪器操作。更具体地,移动终端可以能够按照各种第一代(1G)、第二代(2G)、2.5G、第三代(3G)移动通信协议、第四代(4G)通信协议、因特网多媒体子系统(IMS)通信协议(例如,会话发起协议(SIP))等进行操作。例如,移动终端可以能够按照2G无线通信协议IS-136(时分多址(TDMA))、全球移动通信系统(GSM)、IS-95(码分多址(CDMA))和/或其他进行操作。而且,例如,移动终端可以能够按照2.5G无线通信协议通用分组无线电服务(GPRS)、增强数据GSM环境(EDGE)等进行操作。此外,例如,移动终端可以能够按照3G无线通信协议进行操作,其中3G无线通信协议诸如是通用移动电话系统(UMTS)、码分多址2000(CDMA2000)、宽带码分多址(WCDMA)、时分同步码分多址(TD-SCDMA)和/或其他。移动终端可以附加地能够根据3.9G无线通信协议进行操作,诸如长期演进(LTE)或演进的通用陆地无线电接入网络(E-UTRAN)和/或其他。附加地,例如,移动终端可以能够根据第4代(4G)无线通信协议和/或其他以及可以在将来开发出来的类似无线通信协议进行操作。
一些窄带先进移动电话系统(NAMPS)以及全接入通信系统(TACS)双模或者更多模的移动电话(例如,数字/模拟或者TDMA/CDMA/模拟电话)也可以受益于本发明的实施方式。附加地,移动终端10可以能够根据无线高保真(Wi-Fi)或微波接入全球互操作性(WiMAX)协议进行操作。
应当理解,处理器20可以包括用于实现移动终端10的音频/视频和逻辑功能的电路。例如,处理器20可以包括数字信号处理器设备、微处理器设备、模数转换器、数模转换器和/或其他。移动终端的控制和信号处理功能可以根据其、相应的能力而在这些设备之间分配。处理器可以附加地包括内部音频编码器(VC)20a、内部数据调制器(DM)20b和/或其他。此外,处理器可以包括操作可以存储在存储器中的一个或多个软件程序的功能。例如,处理器20可以能够操作连通性程序,诸如web浏览器。连通性程序可以允许移动终端10根据协议(诸如,无线应用协议(WAP)、超文本传输协议(HTTP)和/或其他)发射和接收web内容,诸如基于位置的内容。移动终端10可以能够使用传输控制协议/因特网协议(TCP/IP)来跨因特网或其他网络发射和接收web内容。
移动终端10还可以包括用户接口,该用户接口包括可以可选地连接到处理器20的用户接口如耳机或者扬声器24、振铃器22、麦克风26、显示器28、用户输入接口和/或其他。在此方面,处理器20可以包括用户接口电路,配置用于控制用户接口的一个或多个元素的至少某些功能,诸如,例如,扬声器24、振铃器22、麦克风26、显示器28和/或其他。处理器20和/或包括处理器20的用户接口电路可以配置用于通过存储在处理器20可访问的存储器(例如,非易失性存储器40、非易失性存储器42和/或其他)上的计算机程序指令(例如,软件和/或固件)来控制用户接口的一个或多个元素的一个或多个功能。尽管未示出,移动终端可以包括电池,用于向与移动终端有关的各种电路(例如,用于提供机械振动以作为可检测输出的电路)供电。用户输入接口可以包括允许移动终端接收数据的多个设备,诸如小键盘30、触摸显示器(未示出)、游戏杆(未示出)和/或其他输入设备。在包括小键盘的实施方式中,小键盘可以包括数字键(0-9)和有关键(#、*)和/或用于操作移动终端的其他按键。
如图3所示,移动终端10还可以包括用于分享和/或获取数据的一个或多个装置。例如,移动终端可以包括短程无线电频率(RF)收发器和/或询问器64,从而可以根据RF技术从电子设备获取数据和/或与之分享数据。移动终端可以包括其他短程收发器,例如,红外(IR)收发器66、使用由蓝牙TM专用兴趣组开发的蓝牙TM品牌无线技术操作的蓝牙TM(BT)收发器68、无线通用串行总线(USB)收发器70和/或其他。蓝牙TM收发器68可以能够根据超低功率蓝牙TM技术(例如,WibreeTM)无线电标准操作。在此方面,移动终端10以及具体地短程收发器可以能够在移动终端的近距离范围内(例如,诸如,10米内)从电子设备接收数据和/或向其发送数据。尽管未示出,但移动终端可以能够根据各种无线联网技术(包括无线高保真(Wi-Fi)、WLAN技术,诸如IEEE802.11技术、IEEE 802.15技术、IEEE 802.16技术和/或其他)传输数据和/或接收数据。
移动终端10可以包括存储器,例如订户身份模块(SIM)38、可移动用户身份模块(R-UIM)等等,其可以存储与移动订户相关的信元。除了SIM之外,移动终端10可以包括其他可移除的和/或固定的存储器。移动终端10可以包括易失性存储器40和/或非易失性存储器42。例如,易失性存储器40可以包括随机访问存储器(RAM),其包括动态和/或静态RAM、片上或片下缓存存储器和/或其他。非易失性存储器42可以是嵌入式的和/或可移动的,其可以包括例如只读存储器、闪存、磁性存储设备(例如,硬盘、软盘驱动、磁带等)、光盘驱动器和/或介质、非易失性随机访问存储器(NVRAM)和/或其他。与易失性存储器40类似,非易失性存储器42可以包括用于临时存储数据的缓存区域。存储器可以存储一个或多个软件程序、指令、信息、数据和/或其他,其可以由移动终端使用来执行移动终端的功能。例如,存储器可以包括标识符,诸如,国际移动设备标识(IMEI)代码,其能够标识移动终端10。
返回图2,在示例性实施方式中,设备202包括各种装置,诸如处理器210、存储器212、通信接口214、用户接口216和用于执行此处描述的各种功能的兴趣建模电路218。此处描述的设备202的这些装置可以实现为例如电路、硬件元件(例如,适当编程的处理器、组合式逻辑电路和/或其他)、包括存储在计算机可读介质(例如,存储器212)上、可由适当配置的处理设备(例如,处理器210)执行的计算机可读程序指令(例如,软件或固件)的计算机程序产品,或其某些组合。
处理器210可以例如具体化为各种设备,包括具有随附数字信号处理器的一个或多个处理器,不具有随附的数字信号处理器的一个或多个处理器,一个或多个协处理器,一个或多个多核处理器,一个或多个控制器,处理电路,一个或多个计算机,包括集成电路(诸如,例如,ASIC(专用集成电路)或FPGA(现场可编程门阵列))的各种其他处理元件,或其某些组合。因此,尽管图2中示出为单个处理器,但是在某些实施方式中,处理器210包括多个处理器。多个处理器可以彼此可操作地通信,并且可以统一配置用于执行此处描述的设备202的一个或多个功能。多个处理器可以实现在单个计算设备上,或者跨统一配置用于作为设备202起作用的多个计算设备而分布。在其中设备202具体化为移动终端10的实施方式中,处理器210可以具体化为处理器202或包括处理器20。在示例性实施方式中,处理器210配置用于执行存储在存储器212中的指令或者以其他方式可由处理器210访问。这些指令,在由处理器210执行时,可以使得设备202执行此处描述的设备202的一个或多个功能。由此,无论是否由硬件或软件方法配置,或者由其组合配置,处理器210可以包括能够执行在相应配置时根据本发明实施方式执行操作的实体。由此,例如,当处理器210实现为ASIC、FPGA等时,处理器210可以包括专门配置用于执行此处描述的一个或多个操作的硬件。备选地,作为另一示例,当处理器210实现为指令的执行器时,诸如,可以存储在存储器212中,指令可以专门配置处理器210以执行此处描述的一个或多个或算法和操作。
存储器212可以包括例如易失性存储器、非易失性存储器或其某些结合。尽管在图2中示出为单个存储器,但是存储器212可以包括多个存储器。多个存储器可以实现在单个计算设备上,或者可以在统一配置用于作为设备202起作用的多个计算设备间分布。在各种实施方式中,存储器212可以包括例如硬盘、随机访问存储器、缓存存储器、闪存、压缩只读存储器(CD-ROM)、数字通用盘只读存储器(DVD-ROM)、光盘、配置用于存储信息的电路或其某些组合。在其中设备202实现为移动终端10的实施方式中,存储器212可以包括易失性存储器40和/或非易失性存储器42。存储器212可以配置用于存储信息、数据、应用、指令或用于使设备202实现根据本发明示例性实施方式执行各种功能的其他信息。例如,在至少某些实施方式中,存储器212配置用于缓冲输入数据以供处理器210处理。附加地或备选地,在至少某些实施方式中,存储器212配置用于存储供处理器210执行的程序指令。存储器212可以存储静态和/或动态信息形式的信息。存储的信息可以包括例如已录入日志的交互用户历史数据。此存储的信息可以存储,和/或在兴趣建模电路218执行其功能期间供该电路使用。
通信接口214可以实现为任何设备或装置,其实现在电路、硬件、包括存储在计算机可读介质(例如,存储器212)并由处理设备(例如,处理器210)执行的计算机可读程序指令的计算机程序产品中,或配置用于从实体接收数据和/或向其传输实体的组合中。例如,通信接口214可以配置用于与用户终端402通信,和/或通过图4所示网络404与目标内容提供方406通信。在至少一个实施方式中,通信接口214至少部分实现为处理器210或以其他方式受其控制。在此方面,通信接口214可以诸如经由总线与处理器210通信。通信接口214可以包括例如天线、发射器、接收器、收发器和/或用于支持与一个或多个远程计算设备通信的支持硬件或软件。通信接口214可以配置用于使用可以用于在计算设备之间通信的任何协议来接收和/或发射数据。在此方面,通信接口214可以配置用于使用可以用于通过无线网络、有线网络、其某些组合或设备202和一个或多个远程计算设备进行通信的网络来接收和/或发射数据。通信接口214可以附加地诸如通过总线来与存储器212、用户接口216和/或兴趣建模电路218通信。
用户接口216可以与处理器210通信,以接收用户输入的指示和/或向用户提供音频、视觉、机械或其他输出。由此,用户接口216可以包括例如键盘、鼠标、游戏杆、显示器、触屏显示器、麦克风、扬声器和/或其他输入/输出机制。在设备202实现为一个或多个服务器的实施方式中,用户接口126的多个方面可以精简,或者用户接口126甚至可以消除。用户接口216可以通过诸如总线与存储器212、通信接口214和/或兴趣建模电路218通信。
兴趣建模电路218可以实现为各种设备,诸如电路、硬件、包括存储在计算机可读介质(例如,存储器212)上、由处理设备(例如,处理器210)执行的计算机可读程序指令的计算机程序产品,或其某些组合,以及,在一个实施方式中,实现为处理器210或以其他方式可由其控制。在兴趣建模电路218与处理器210分别实现的实施方式中,兴趣建模电路218可以与处理器210通信。兴趣建模电路218可以诸如经由总线来进一步与存储器212、通信接口214或用户接口216的一个或多个通信。
图4示出了根据本发明一个示例性实施方式、用于提供目标内容的系统400。系统400包括经由网络404彼此通信的一个或多个用户终端402和一个或多个目标内容提供方406。网络404可以包括无线网络(例如,蜂窝网络、无线局域网、无线个人网、无线城域网,和/或其他)、有线网络,或其某些组合,并且在某些实施方式中包括因特网。
用户终端402可以包括由用户使用以便通过网络404访问内容(诸如,web页面)和/或与其他用户终端通信(例如,经由电子邮件、文本消息收发、即时消息收发和/或其他)的任何计算设备。用户终端402可以包括例如桌面计算机、膝上型计算机、移动终端、移动计算机、移动电话、移动通信设备、一个或多个服务器、一个或多个网络节点、游戏设备、数字相机/录像机、音频/视频播放器、电视设备、无线电接收机、数字音频记录仪、定位设备或其任何组合等。
目标内容提供方406可以包括任何计算设备或多个计算设备,配置用于向用户终端402提供以用户终端的用户兴趣为目标的内容,以使得该用户终端402的用户能够查看目标内容和/或与之交互。在此方面,目标内容提供方406可以包括例如桌面计算机、膝上型计算机、移动终端、移动计算机、移动电话、移动通信设备、一个或多个服务器、一个或多个网络节点、游戏设备、数字相机/录像机、音频/视频播放器、电视设备、无线电接收机、数字音频记录仪、定位设备或其任何组合等。
目标内容提供方406提供的目标内容可以例如包括广告内容。然而,应当理解,目标内容并不限于广告,而是可以包括被选择并且以用户兴趣为目标的任何内容或其他数据。用户终端402因此可以配置用于通过网络404接收由目标内容提供方406提供的目标内容,并且向用户终端402的用户呈现该接收的目标内容。
在某些实施方式中,用户终端402包括设备202。在这种实施方式中,用户终端402可以配置用于将交互用户历史数据录入日志。交互用户历史数据可以描述用于与用户终端402的交互及其对用户终端402的使用。在此方面,交互用户数据可以包括例如由用户访问的web页面,由用户发送的电子邮件,由用户接收的电子邮件,由用户发送的文本消息,由用户接收的文本消息,由用户查看的文档,由用户编辑的文档,由用户发送的即时消息,由用户接收的即时消息,用户设备交互数据,用户的动态上下文信息,和/或其他。用户终端402可以配置用于使用主题模型(诸如,例如,将在下文进一步描述的LLDA-TF)、基于已录入日志的交互用户历史数据来确定至少一个用户兴趣主题。用户终端402可以向目标内容提供方406提供确定的用户兴趣主题,使得目标内容提供方可以选择以用户的兴趣为目标的目标内容,其中该用户兴趣由确定的用户兴趣主题所指示;以及向用户终端402提供目标内容。因为目标内容提供方406无权访问交互用户历史数据,这种实施方式可以保护用户数据的置信度。
在备选实施方式中,目标内容提供方406包括设备202。在这种实施方式中,目标内容提供方406可以配置用于接收和/或以其他方式确定关于用户终端402的用户交互使用的使用数据。使用数据可以包括例如由用户访问的web页面,由用户发送的电子邮件,由用户接收的电子邮件,由用户发送的文本消息,由用户接收的文本消息,由用户查看的文档,由用户编辑的文档,由用户发送的即时消息,由用户接收的即时消息,用户设备交互数据,用户的动态上下文信息,和/或其他。目标内容提供方406可以配置用于将使用数据作为交互用户历史数据录入日志。目标内容提供方406可以进一步配置用于使用主题模型(诸如,例如,将在下文进一步描述的LLDA-TF)、基于已录入日志的交互用户历史数据来确定至少一个用户兴趣主题。目标内容提供方可以进一步配置用于选择以由确定的用户兴趣主题指示的用户兴趣为目标的目标内容,以及向用户终端402提供目标内容。
再次参考图2,兴趣建模电路218在某些实施方式中被配置用于访问用于用户的已录入日志的交互用户历史数据。在此方面,兴趣建模电路218可以例如配置用于从存储器212、用户终端402和/或他处访问已录入日志的交互用户历史数据。已录入日志的交互用户历史数据可以包括例如由用户访问的web页面,由用户发送的电子邮件,由用户接收的电子邮件,由用户发送的文本消息,由用户接收的文本消息,由用户查看的文档,由用户编辑的文档,由用户发送的即时消息,由用户接收的即时消息,用户设备交互数据,用户的动态上下文信息,和/或其他。兴趣建模电路218在某些实施方式中被进一步配置用于通过向配置用于在已录入日志的交互用户数据上起作用的主题模型中输入已录入日志的交互用户数据的至少部分来确定用于用户的至少一个用户兴趣主题。此主题模型可以例如包括以下进一步描述的LLDA-TA算法的一个实施方式。确定的用户兴趣主题可以包括预定义的主题类别标签。主题类别标签可以包括用户兴趣主题的人类可读名称。在此方面,主题类别标签可以提供其所标记的主题的含义。例如,主题类别标签可以包括例如“信息技术”。这种主题类别标签与代表可以由LDA输出的隐含主题的仅仅关键字列表形成对照。
现在参考图5,图5示出了根据本发明一个示例性实施方式、带有可以由兴趣建模电路218实现的主题特征模型的、已加标签的隐含狄利克雷分配的图形表征。图5中使用的标记整体上与图1中所示LDA模型相同。然而,与LDA模型相比,LLDA-TF模型附加地包括主题特征(TF)的附加分量,在图5中标记为ψ。在此方面,ψ用作包括主题特征的种子文档和/或主题特征的影响因子。在此方面,由本发明实施方式提供的、包括LLDA-TF的主题模型配置用于在例如可以包括在生成自主题特征源的一个或多个种子文档中的主题特征上起作用。如下文进一步描述的,主题特征的使用可以以若干方式改进常规LDA和/或其他传统主题模型。在此方面,主题特征给予每个主题一个标签(例如,主题类别标签),其有助于识别每个主题的名称。此外,如以下进一步描述地那样对主题特征的使用可以有助于得到更好的主题簇。
本发明实施方式提供的LLDA-TF和其他主题模型使用主题特征来作为不同主题的先验知识。例如,由本发明实施方式提供的主题模型可以配置用于在主题特征关键字和/或包括主题特征关键字的种子文档上起作用。这些主题特征关键字和/或包括主题特征关键字的种子文档可以由本发明实施方式提供的主题模型加以利用,以作为主题的先验知识。在此方面,种子文档可以包括与用户兴趣主题关联的一个或多个主题特征(例如,主题特征关键字),其中种子文档与用户兴趣主题相关联。兴趣建模电路218可以配置用于从主题特征源提取主题特征。主题特征源可以包括具有题目和关联文本或其他数据的内容文档的任何源。在此方面,主题特征源可以包括例如在线或电子百科全书、词典和/或其他。在一个示例性实施方式中,主题特征源包括维基。本发明的实施方式将进一步参考作为示例性主题特征源的维基来进行描述。然而,应当理解,此描述仅是示例而不是限制。因此,在参考维基的使用时,应当理解,其他主题特征源可以与维基一起使用或者可以替代其进行使用。
用于从维基提取主题特征的示例性伪代码如下:
提取过程可以从用户兴趣主题列表开始,操作服务提供方、内容提供方、设备202和/或其他的实体将考虑这些用户兴趣主题。针对每个用户兴趣主题,兴趣建模电路218可以迭代地从维基提取关键字。对于每次迭代,兴趣建模电路218可以使用从前一迭代获得的关键字来生成新的关键字。鉴于维基中存在大量内容,兴趣建模电路218可以在将相关题目识别为考虑的用户兴趣主题时,仅考虑维基内的文章题目。然而,在某些实施方式中,兴趣建模电路218可以考虑文章的题目和内容。提取过程可以附加地具有结束该过程的条件,以避免从主题特征源无限地提取主题特征。
提取过程可以针对将在诸如例如LLDA-TF的主题模型中使用的每个用户兴趣主题生成一系列主题特征。在此方面,兴趣建模电路218可以在执行提取过程中被配置用于生成用于所考虑的每个用户兴趣主题的种子文档。种子文档可以具有用户兴趣主题,其至少部分由从主题特征源(例如,维基)访问的内容文档(例如,文章)的题目定义。种子文档可以进一步包括与从所访问的内容文档提取的关键字对应的主题特征关键字。所生成的种子文档可以由兴趣建模电路218用作对LLDA-TF算法的输入。
主题特征(例如,种子文档和/或包含在种子文档中的主题特征关键字)可以由兴趣建模电路218用于统计吉比斯采样。然而,应当理解,提供的吉比斯采样作为可以使用的统计采样方法的一个示例,而其他适当采样方法或算法也落入本发明的范围内,并且可以替代吉比斯采样。可以替代吉比斯采样使用的备选采样方法包括例如其他马尔科夫蒙特卡洛链蒙特卡洛方法,包括但不限于各种随机游动蒙特卡洛方法(例如,Metropolis-Hastings算法、Slice采样、多点Metropolis算法,和/或其他)。此外,在某些实施方式中,各种贝叶斯推断技术,诸如,例如,变量的贝叶斯近似方法、期望传播,和/或其他可以与吉比斯采样一起使用或替代之进行使用。因此,当在此处参考吉比斯采样时,其仅是出于示例而不是限制的方式进行提供。主题特征在使用LLDA-TF主题模型的本发明实施方式中的使用在图6中示出,其中,图6示出了根据本发明一个示例性实施方式的、带有主题特征模型的、已加标签的隐含狄利克雷分配。
如图6所示,训练数据602(例如,交互用户历史数据)和加标签的特征数据604(例如,种子文档)混合在一起,并且输入至LLDA-TF算法606,以便获得具有用于每个确定的用户兴趣主题的标签的已分类数据608。兴趣建模电路218可以在采样过程期间,以一定概率将每个特征数据(例如,种子)匹配至主题。因此,LLDA-TF可以使用p(zdi|w,α,β)的后验,与在LDA使用的后验不同。
此后验可以表示为如下:
公式(4)中的后验包括两部分。第一部分与用于训练数据(例如,交互用户历史数据)的LDA相同。第二部分使用根据如在此定义的LLDA-TF算法的实施方式的、用于种子页面的预定义概率。
兴趣建模电路218可以配置为针对每个用户兴趣主题使用其主题特征关键字作为吉比斯采样过程中的独立输入种子文档。兴趣建模电路218可以在执行吉比斯采样过程之前,针对在此种子文档中的主题特征关键字定义相同分布。兴趣建模电路218可以指派属于具有不同分布的不同主题的主题特征关键字。通过整个迭代过程,这些词汇的分布不会改变。主题特征由此可以影响采样过程。
当对每个词汇的主题进行采样时,兴趣建模电路218可以确定使用公式(4)的哪个函数。兴趣建模电路218可以基于词汇所来自的文档是否是种子来确定要使用公式(4)的哪个函数。在完成吉比斯采样过程之后,兴趣建模电路218可以使用公式(2)和公式(3)来更新θ和φ。
在一个实施方式中,兴趣建模电路218配置用于按照如下方式执行吉比斯采样:
1)针对所考虑的每个用户兴趣主题,从维基提取种子页面。假设种子页面的数量是NS。
2)将这些种子页面与交互用户历史数据(例如,浏览历史数据)混合。以概率P%(通常为诸如,例如,95%或更多的高概率)将种子页面的主题特征关键字指派给预定义的用户兴趣主题,以及以由其他用户兴趣主题中1-P%的均等分布所定义的百分比将其指派给剩余用户兴趣主题的每一个。
3)将主题数量设置为T,其中T>=NS,以及运行LDA。额外的(T-NS)个主题用于训练文档所包括的但未被认为是所考虑的感兴趣主题的主题。
4)使用吉比斯采样来评估主题的后验分布。
5)在吉比斯采样过程期间,训练文档(例如,交互用户历史数据)中的词汇主题根据主题的后验分布在每次迭代中进行采样。种子文档的主题仅根据种子的预定义分布(即,P%)进行改变。
6)在一定数量迭代之后,程序停止,并且确定作为结果的确定用户兴趣主题。
根据本发明一个示例性实施方式的用于LLDA-TF的吉比斯采样的示例性伪代码如下:
在一个实施方式中,确定的用户兴趣主题包括确定为与超过预定义阈值数量或百分比的用户历史文档(例如,访问的web页面、文本消息、电子邮件、用户上下文条目、其他文档和/或其他)相关联的那些用户兴趣主题。例如,假定给定用户兴趣主题A、B和C以及100,100个历史文档中的90个历史文档可以与主题A相关联,75个历史文档可以与主题B相关联,以及5个历史文档可以与主题C相关联。预定义阈值数量可以例如包括50个用户历史文档。因此,在这种场景中,兴趣建模电路218可以确定主题A和B,而丢弃主题C。在另一示例中,历史文档的阈值百分比可以设置为25%。再一次,兴趣建模电路218可以确定主题A和B,其与多于25%的历史文档相关联,而丢弃与少于25%历史文档相关联的主题C。
在某些实施方式中,兴趣建模电路218配置用于从已录入日志的交互用户历史数据提取相关数据,以及用于将提取的相关数据输入至LLDA-TF算法和/或其他主题模型,而不是所有原始交互用户历史数据。兴趣建模电路218可以配置用于通过从文字密度满足预定义阈值密度要求的用户历史文档的区域中提取文字来提取相关数据。在此方面,兴趣建模电路218可以计算包含在已录入日志的交互用户历史数据中包含的用户历史文档区域的文字密度。如果区域的文字密度大于或等于预定义的阈值密度要求,兴趣建模电路218可以提取该区域的文字以作为用于输入至LLDA-TF算法的相关数据。否则,兴趣建模电路218可以忽略或移除该区域的文字。
例如,包含在已录入日志的交互用户历史数据中的用户历史文档可以包括web页面。原始web页面可以以html格式表示。除了定义在web页面中的html标记以外,web页面还可以包括与web页面主题无关的某些内容,诸如,例如,广告、链接和/或其他无关信息。根据一个示例性实施方式,仅相关数据的提取可以由兴趣建模电路218按照如下操作执行:
1)计算用户历史文档的每行(或其他区域)的文字密度。如果此密度达到阈值,则此行(或其他区域)的文字部分被提取。
2)用户历史文档的文字密度被计算以确定该页面是否包含足够有用的信息。如果用户历史文档文本密度未满足阈值,则不考虑该用户历史文档,并且其不被用作种子文档的基础。
根据本发明一个示例性实施方式的、用于基于文本密度从web页面提取相关数据的示例性伪代码如下:
作为另一示例,兴趣建模电路218可以配置用于在提取非广告内容时,忽略或移除用户所访问web页面中的广告内容。兴趣建模电路218可以附加地或备选地配置用于忽略或移除包含在未与web页面本身内容有关的web页面中的导航性内容。
为了测试LLDA-TF算法实施方式的性能,执行这样的评估,其中从11个用户收集用户web浏览历史,其中每个人被指派以潜在反应在浏览历史中的3个用户兴趣主题。由于某些用户可能具有与其他用户相同的兴趣,则总计使用27个用户兴趣主题。这27个用户兴趣主题以URL格式给出,并且首先处理web页面。兴趣信息示例在表I中示出。
为了增强实验结果的优势,对web页面进行重组。此外,假设虚拟人员具有10个用户兴趣主题,如在表II中列出。
表I 用户兴趣的27个类别
表II 虚拟人员的10个兴趣
类别 | 兴趣 |
IT | Java、敏捷过程 |
运动 | 地板球 |
音乐 | 披头士 |
旅行 | 温哥华、赫尔辛基 |
娱乐 | 计算机游戏 |
其他 | 广告、手枪、飞机 |
为了将LDA的性能与LLDA-TF进行比较,将两个度量标准用于定量比较。用于这些定量比较的符号定义如下:
■对于具有文档的M个分类的标注语料库D,分类标记为C1,C2,...,CM。
■从LDA确定的主题标记为t1,t2,...,tK,其中K是主题的数量。
■包括在Ci中的文档数量为NCi,而主题tj中的文档数量为Ntj。
定量比较的第一度量标准是集中度(DC),其由如下等式(5)定义:
其中,π是采用的策略,
DC提供了针对属于相同主题的文档如何良好地由模型指派以相同的用户兴趣主题标签的指示。对于主题,DC越小,性能越好。
定量比较的第二度量标准是分散度(DD),其提供了来自不同分类的文档如何良好地由模型指派以特定的用户兴趣主题标签。对于主题,DD越小,性能越好。DD的公式是:
以及
为了确定上述虚拟人员的用户兴趣主题,从其题目为表I中定义的用户兴趣主题的维基web页面提取27个种子页面。主题关键字是从这27个种子页面提取的。每个关键字列表被用作LLDA-TF学习阶段中的种子数据。图7中示出了具有10个主题的LLDA-TF结果,其示出了显示由本发明的示意性实施方式将输入文档指派至用户兴趣主题的条形图。在图7的条形图中,X轴代表定义的主题数量,以及Y轴指代指派至每个兴趣主题的文档数量。每个唯一的条形阴影代表目标web页面的分类。
以上描述的将用于10个主题的以及用于15个主题和27个主题的LDA和LLDA-TF的性能进行比较的实验结果分别在以下表III中示出。如表III所指示的,LLDA-TF在针对10个主题、15个主题和27个主题的情况,在DC和DD度量标准方面都优于LDA。
表III 使用DC和DD作为度量标准的结果的总结
在某些实施方式中,兴趣建模电路218进一步配置用于至少部分基于一个或多个确定的用户兴趣主题来利用确定的用户兴趣主题选择以用户兴趣为目标的目标内容。目标内容可以例如包括广告内容。然而,应当理解,目标内容可以附加地或备选地包括以用户兴趣为目标的非广告内容。在一个示例中,目标内容可以包括信息性内容、新闻内容和/或以确定的用户兴趣主题为目标的其他内容。作为另一示例,目标内容可以包括推荐的兴趣群组、社交联网群组和/或用于作为确定的用户兴趣群组目标的用户的其他内容。在此方面,具有类似兴趣的用户可以形成兴趣组或者属于社交网络。因此,目标内容可以包括兴趣群组、社交网络或其他对用户的推荐。由此,内容和/或服务提供方可以利用确定的用户兴趣主题来促进构建包括具有类似兴趣、行为和/或其他的成员的社交网络。兴趣建模电路218可以附加地配置用于诸如,例如,通过向用户终端402和/或其用户提供目标内容来向用户提供目标内容。
图8示出了根据本发明一个示例性实施方式的、用于用户兴趣建模的示例方法的流程图。在图8中示出并针对图8描述的操作可以例如由兴趣建模电路218执行和/或受其控制。操作800可以包括访问用于用户的已录入日志的交互用户历史数据。操作810可以包括利用在已录入日志的交互用户历史数据和生成自主题特征源的一个或多个种子文档的至少部分上起作用的主题模型来确定用于用户的至少一个用户兴趣主题。主题模型可以例如包括带有主题特征算法的已加标签的隐含狄利克雷分配。操作820可以包括至少部分基于确定的至少一个用户兴趣主题来选择以用户兴趣为目标的目标内容。操作830可以包括向用户提供目标内容。
图8是根据本发明示例性实施方式的、系统、方法和计算机程序产品的流程图。应当理解,流程图的每个框,流程图中框的组合可以借助于各种方式实现,诸如硬件和/或计算机程序产品,其包括其上存储有计算机可读程序指令的一个或多个计算机可读介质。例如,此处描述的一个或多个过程可以由计算机程序产品的计算机程序指令实现。在此方面,实现此处描述过程的计算机程序产品可以由移动终端、服务器或其他计算设备存储,以及由计算设备中处理器执行。在某些实施方式中,包括计算机程序产品的计算机程序指令可以由多个计算设备的存储器设备存储,其中计算机程序产品体现上述过程。应当理解,任何这种计算机程序产品可以加载至计算机或其他可编程设备以产生机器,使得包括在计算机或其他可编程设备上执行的指令的计算机程序产品创建用于在流程图块中指定的功能的装置。此外,计算机程序产品可以包括一个或多个计算机可读存储器,可以在其上存储计算机程序产品指令,使得一个或多个计算机可读存储器可以指引计算机或其他可编程设备以特定方式起作用,使得计算机程序产品包括实现在流程图框中指定的制品。一个或多个计算机程序产品的计算机程序指令还可以加载到计算机或其他可编程装置(例如,设备202),以使得将要在计算机或其他可编程装置上执行的一系列操作来产生计算机实现的过程,从而在计算机或其他可编程装置上执行的指令实现在一个或多个流程图框中指定的功能。
因此,流程图的框支持用于执行所指定功能的装置的组合。还可以理解,流程图的一个或多个框以及流程图中的框的组合可以通过基于专用硬件的执行指定功能的计算机系统来实现,或者通过专用硬件和计算机程序产品的组合来实现。
上述功能可以以各种方式来实现。例如,用于执行上述每个功能的任何适当装置都可以用来实现本发明的实施方式。在一个实施方式中,适当配置的处理器可以提供本发明的所有或部分元素。在另一实施方式中,本发明的所有或部分元素可以由计算机程序产品进行配置以及在其控制下进行操作。用于执行本发明实施方式的方法的计算机程序产品包括计算机可读存储介质,诸如非易失性存储介质;以及计算机可读程序代码部分,诸如计算机指令序列,其实现在计算机可读存储介质中。
由此,继而,本发明的某些实施方式向服务提供方、内容提供方、计算设备和计算设备用于提供了若干优势。本发明的实施方式提供了针对定义用户兴趣的用户兴趣主题确定。本发明的实施方式促进了利用确定的用户主题来向用户提供目标内容,诸如,例如,目标广告。在此方面,本发明的实施方式对已录入日志的交互用户历史数据进行挖掘,以确定用于用户的用户兴趣主题。根据本发明的某些实施方式,已录入日志的交互用户历史数据包括由用户在日常使用计算设备过程中所产生的、接收的和/或访问的数据。
由于用户对设备的使用模式可反映用户的兴趣,所以本发明的实施方式借助于配置用于在生成自主题特征源的一个或多个种子文档上起作用的新颖主题模型提供了已录入日志的交互用户历史数据的统计建模。本发明一个实施方式提供的一个这种主题模型是带有主题特征的、已加标签的隐含狄利克雷分配(LLDA-TF)算法。根据本发明的实施方式,包括人类可读和可理解名称的预定义主题类别标签通过针对已录入日志的交互用户历史数据的统计建模得以确定。这些预定义主题类别标签较之于之前的模型,能够提供关于用户兴趣主题的更有含义的信息,而之前的模型仅仅提供了代表隐含主题的关键字列表。
本领域技术人员将会意识到,此处所阐述的本发明的多种变形以及其他实施方式,本发明的这些实施方式可以受益于前述描述和相关附图所提供的教导。因此,应当理解,本发明的实施方式不限于所公开的具体实施方式,各种变形以及其他实施方式旨在包括在所附权利要求的范围内。而且,尽管前述描述和关联附图在元素和/或功能的某些示例性组合的上下文中描述了示例性实施方式,但是应当理解,元素和/或功能的不同组合可以由备选实施方式提供,而不会脱离本发明的范围。在此方面,例如,与那些在上文中显示描述的元素和/或功能的组合不同的组合也落入本发明的范围内。尽管在此采用了特定术语,但是这些术语仅是在通用和描述的意义上使用,而不用于限制用途。
Claims (51)
1.一种方法,包括:
访问用于用户的已录入日志的交互用户历史数据;以及
利用在所述已录入日志的交互用户历史数据和生成自主题特征源的一个或多个种子文档的至少部分上起作用的主题模型,确定用于所述用户的至少一个用户兴趣主题。
2.如权利要求1的方法,其中确定至少一个用户兴趣主题包括确定至少一个预定义的主题类别标签。
3.如权利要求1-2中任一的方法,其中所述主题模型包括带有主题特征模型的、已加标签的隐含狄利克雷分配。
4.如权利要求1-3中任一的方法,其中所述主题特征源包括在线百科全书,以及其中用户兴趣主题的名称至少部分由所述百科全书内的文章题目所定义。
5.如权利要求1-4中任一的方法,进一步包括:
从所述主题特征源访问与预定义的用户兴趣主题对应的内容文档;
从所述访问的内容文档提取关键字;以及
生成种子文档,其包括与所述提取的关键字对应的主题特征关键字并且具有由所述内容文档的题目至少部分定义的用户兴趣主题;以及其中
所述主题模型在其上起作用的所述一个或多个种子文档包括所述生成的种子文档。
6.如权利要求1-5中任一的方法,其中确定用于所述用户的至少一个用户兴趣主题包括:
向预定义的用户兴趣主题指派种子页面的主题特征关键字,其中每个主题关键字以值小于100%的概率百分比被指派给第一预定义用户兴趣主题,以及以由100%与剩余预定义的用户兴趣主题中的所述概率百分比之间的差值的均等分布所定义的百分比被指派给每个剩余的预定义用户兴趣主题;
将所述种子页面与所述已录入日志的交互用户历史数据相混合;
执行采样以评估所述预定义的用户兴趣主题的后验分布;以及
至少部分基于所述预定义的用户兴趣主题的所述评估的后验分布,确定用于所述用户的至少一个用户兴趣主题。
7.如权利要求1-6中任一的方法,进一步包括:
从所述已录入日志的交互用户历史数据提取相关数据;以及其中
在所述已录入日志的交互用户历史数据的至少部分上起作用包括在所述提取的相关数据上起作用。
8.如权利要求7的方法,其中从所述已录入日志的交互用户历史数据提取相关数据包括,对于所述已录入日志的交互用户历史数据内的用户历史文档:
计算所述用户历史文档的区域的文字密度;以及
在所述文字密度满足预定义的阈值密度要求时,从所述区域提取文字。
9.如权利要求1-8任一的方法,进一步包括:
至少部分基于所述确定的至少一个用户兴趣主题,选择以所述用户的兴趣为目标的目标内容;以及
向所述用户提供所述目标内容。
10.如权利要求9的方法,其中所述目标内容包括广告内容。
11.如权利要求1-10中任一的方法,其中所述已录入日志的交互用户历史数据包括下述一个或多个:由所述用户访问的web页面,由所述用户发送的电子邮件,由所述用户接收的电子邮件,由所述用户发送的文本消息,由所述用户接收的文本消息,由所述用户查看的文档,由所述用户编辑的文档,由所述用户发送的即时消息,或由所述用户接收的即时消息。
12.一种设备,包括至少一个处理器和存储有计算机程序代码的至少一个存储器,其中所述至少一个存储器和存储的计算机程序代码配置用于与所述至少一个处理器一起使得所述设备至少:
访问用于用户的已录入日志的交互用户历史数据;以及
利用在所述已录入日志的交互用户历史数据和生成自主题特征源的一个或多个种子文档的至少部分上起作用的主题模型,确定用于所述用户的至少一个用户兴趣主题。
13.如权利要求12的设备,其中所述至少一个存储器和存储的计算机程序代码配置用于与所述至少一个处理器一起使得所述设备通过确定至少一个预定义的主题类别标签来确定至少一个用户兴趣主题。
14.如权利要求12-13中任一的设备,其中所述主题模型包括带有主题特征模型的、已加标签的隐含狄利克雷分配。
15.如权利要求12-14中任一的设备,其中所述主题特征源包括在线百科全书,以及其中用户兴趣主题的名称至少部分由所述百科全书内的文章题目所定义。
16.如权利要求12-15中任一的设备,其中所述至少一个存储器和存储的计算机程序代码配置用于与所述至少一个处理器一起进一步使得所述设备:
从所述主题特征源访问与预定义的用户兴趣主题对应的内容文档;
从所述访问的内容文档提取关键字;以及
生成种子文档,其包括与所述提取的关键字对应的主题特征关键字并且具有由所述内容文档的题目至少部分定义的用户兴趣主题;以及其中
所述主题模型在其上起作用的所述一个或多个种子文档包括所述生成的种子文档。
17.如权利要求12-16中任一的设备,其中所述至少一个存储器和存储的计算机程序代码配置用于与所述至少一个处理器一起使得所述设备确定用于所述用户的至少一个用户兴趣主题至少部分通过下述实现:
向预定义的用户兴趣主题指派种子页面的主题特征关键字,其中每个主题关键字以值小于100%的概率百分比被指派给第一预定义用户兴趣主题,以及以由100%与剩余预定义的用户兴趣主题中的所述概率百分比之间的差值的均等分布所定义的百分比被指派给每个剩余预定义的用户兴趣主题;
将所述种子页面与所述已录入日志的交互用户历史数据相混合;
执行采样以评估所述预定义的用户兴趣主题的后验分布;以及
至少部分基于所述预定义的用户兴趣主题的所述评估的后验分布,确定用于所述用户的至少一个用户兴趣主题。
18.如权利要求12-17中任一的设备,其中所述至少一个存储器和存储的计算机程序代码配置用于与所述至少一个处理器一起进一步使得所述设备:
从所述已录入日志的交互用户历史数据提取相关数据;以及其中
在所述已录入日志的交互用户历史数据的至少部分上起作用包括在所述提取的相关数据上起作用。
19.如权利要求18的设备,其中所述至少一个存储器和存储的计算机程序代码配置用于与所述至少一个处理器一起使得所述设备从所述已录入日志的交互用户历史数据提取相关数据至少部分通过下述实现:对于所述已录入日志的交互用户历史数据内的用户历史文档:
计算所述用户历史文档的区域的文字密度;以及
在所述文字密度满足预定义的阈值密度要求时,从所述区域提取文字。
20.如权利要求12-19任一的设备,其中所述至少一个存储器和存储的计算机程序代码配置用于与所述至少一个处理器一起进一步使得所述设备:
至少部分基于所述确定的至少一个用户兴趣主题,选择以所述用户的兴趣为目标的目标内容;以及
向所述用户提供所述目标内容。
21.如权利要求20的设备,其中所述目标内容包括广告内容。
22.如权利要求12-21中任一的设备,其中所述已录入日志的交互用户历史数据包括下述一个或多个:由所述用户访问的web页面,由所述用户发送的电子邮件,由所述用户接收的电子邮件,由所述用户发送的文本消息,由所述用户接收的文本消息,由所述用户查看的文档,由所述用户编辑的文档,由所述用户发送的即时消息,或由所述用户接收的即时消息。
23.如权利要求12-22中任一的设备,其中所述设备包括或者实现在移动电话上,所述移动电话包括用户接口电路和存储在所述至少一个存储器的一个或多个存储器上的用户接口软件;其中所述用户接口电路和用户接口软件配置用于:
通过使用显示器来促进用户对所述移动电话的至少某些功能的控制;以及
使得所述移动电话的用户接口的至少部分显示在所述显示器上,以促进用户对所述移动电话的至少某些功能的控制。
24.一种计算机程序产品,包括至少一个计算机可读存储介质,其中存储有计算机可读程序指令,所述计算机可读程序指令包括:
配置用于访问用于用户的已录入日志的交互用户历史数据的程序指令;以及
配置用于利用在所述已录入日志的交互用户历史数据和生成自主题特征源的一个或多个种子文档的至少部分上起作用的主题模型,确定用于所述用户的至少一个用户兴趣主题的程序指令。
25.如权利要求24的计算机程序产品,其中所述配置用于确定至少一个用户兴趣主题的程序指令包括配置用于确定至少一个预定义的主题类别标签的程序指令。
26.如权利要求24-25中任一的计算机程序产品,其中所述主题模型包括带有主题特征模型的、已加标签的隐含狄利克雷分配。
27.如权利要求24-26中任一的计算机程序产品,其中所述主题特征源包括在线百科全书,以及其中用户兴趣主题的名称至少部分由所述百科全书内的文章题目所定义。
28.如权利要求24-27中任一的计算机程序产品,进一步包括:
配置用于从所述主题特征源访问与预定义的用户兴趣主题对应的内容文档的程序指令;
配置用于从所述访问的内容文档提取关键字的程序指令;以及
配置用于生成种子文档的程序指令,该种子文档包括与所述提取的关键字对应的主题特征关键字并且具有由所述内容文档的题目至少部分定义的用户兴趣主题;以及其中
所述主题模型在其上起作用的所述一个或多个种子文档包括所述生成的种子文档。
29.如权利要求24-28中任一的计算机程序产品,其中配置用于确定用于所述用户的至少一个用户兴趣主题的程序指令包括:
配置用于向预定义的用户兴趣主题指派种子页面的主题特征关键字的程序指令,其中每个主题关键字以值小于100%的概率百分比被指派给第一预定义用户兴趣主题,以及以由100%与剩余预定义的用户兴趣主题中的所述概率百分比之间的差值的均等分布所定义的百分比被指派给每个剩余预定义的用户兴趣主题;
配置用于将所述种子页面与所述已录入日志的交互用户历史数据相混合的程序指令;
配置用于执行采样以评估所述预定义的用户兴趣主题的后验分布的程序指令;以及
配置用于至少部分基于所述预定义的用户兴趣主题的所述评估的后验分布,确定用于所述用户的至少一个用户兴趣主题的程序指令。
30.如权利要求24-29中任一的计算机程序产品,进一步包括:
配置用于从所述已录入日志的交互用户历史数据提取相关数据的程序指令;以及其中
在所述已录入日志的交互用户历史数据的至少部分上起作用包括在所述提取的相关数据上起作用。
31.如权利要求30的计算机程序产品,其中所述配置用于从所述已录入日志的交互用户历史数据提取相关数据的程序指令包括,配置用于,对于所述已录入日志的交互用户历史数据内的用户历史文档,执行下述操作的程序指令:
计算所述用户历史文档的区域的文字密度;以及
在所述文字密度满足预定义的阈值密度要求时,从所述区域提取文字。
32.如权利要求24-31任一的计算机程序产品,进一步包括:
配置用于至少部分基于所述确定的至少一个用户兴趣主题,选择以所述用户的兴趣为目标的目标内容的程序指令;以及
配置用于向所述用户提供所述目标内容的程序指令。
33.如权利要求32的计算机程序产品,其中所述目标内容包括广告内容。
34.如权利要求24-33中任一的计算机程序产品,其中所述已录入日志的交互用户历史数据包括下述一个或多个:由所述用户访问的web页面,由所述用户发送的电子邮件,由所述用户接收的电子邮件,由所述用户发送的文本消息,由所述用户接收的文本消息,由所述用户查看的文档,由所述用户编辑的文档,由所述用户发送的即时消息,或由所述用户接收的即时消息。
35.一种设备,包括:
用于访问用于用户的已录入日志的交互用户历史数据的装置;以及
用于利用在所述已录入日志的交互用户历史数据和生成自主题特征源的一个或多个种子文档的至少部分上起作用的主题模型,确定用于所述用户的至少一个用户兴趣主题的装置。
36.如权利要求35的设备,其中所述用于确定至少一个用户兴趣主题的装置包括用于确定至少一个预定义的主题类别标签的装置。
37.如权利要求35-36中任一的设备,其中所述主题模型包括带有主题特征模型的、已加标签的隐含狄利克雷分配。
38.如权利要求35-37中任一的设备,其中所述主题特征源包括在线百科全书,以及其中用户兴趣主题的名称至少部分由所述百科全书内的文章题目所定义。
39.如权利要求35-38中任一的设备,进一步包括:
用于从所述主题特征源访问与预定义的用户兴趣主题对应的内容文档的装置;
用于从所述访问的内容文档提取关键字的装置;以及
用于生成种子文档的装置,该种子文档包括与所述提取的关键字对应的主题特征关键字并且具有由所述内容文档的题目至少部分定义的用户兴趣主题;以及其中
所述主题模型在其上起作用的所述一个或多个种子文档包括所述生成的种子文档。
40.如权利要求35-39中任一的设备,其中所述用于确定用于所述用户的至少一个用户兴趣主题的装置包括:
用于向预定义的用户兴趣主题指派种子页面的主题特征关键字的装置,其中每个主题关键字以值小于100%的概率百分比被指派给第一预定义用户兴趣主题,以及以由100%与剩余预定义的用户兴趣主题中的所述概率百分比之间的差值的均等分布所定义的百分比被指派给每个剩余预定义的用户兴趣主题;
用于将所述种子页面与所述已录入日志的交互用户历史数据相混合的装置;
用于执行采样以评估所述预定义的用户兴趣主题的后验分布的装置;以及
用于至少部分基于所述预定义的用户兴趣主题的所述评估的后验分布,确定用于所述用户的至少一个用户兴趣主题的装置。
41.如权利要求35-40中任一的设备,进一步包括:
用于从所述已录入日志的交互用户历史数据提取相关数据的装置;以及其中
在所述已录入日志的交互用户历史数据的至少部分上起作用包括在所述提取的相关数据上起作用。
42.如权利要求41的设备,其中所述用于从所述已录入日志的交互用户历史数据提取相关数据的装置包括,对于所述已录入日志的交互用户历史数据内的用户历史文档:
用于计算所述用户历史文档的区域的文字密度的装置;以及
用于在所述文字密度满足预定义的阈值密度要求时,从所述区域提取文字的装置。
43.如权利要求35-42任一的设备,进一步包括:
用于至少部分基于所述确定的至少一个用户兴趣主题,选择以所述用户的兴趣为目标的目标内容的装置;以及
用于向所述用户提供所述目标内容的装置。
44.如权利要求43的设备,其中所述目标内容包括广告内容。
45.如权利要求35-44中任一的设备,其中所述已录入日志的交互用户历史数据包括下述一个或多个:由所述用户访问的web页面,由所述用户发送的电子邮件,由所述用户接收的电子邮件,由所述用户发送的文本消息,由所述用户接收的文本消息,由所述用户查看的文档,由所述用户编辑的文档,由所述用户发送的即时消息,或由所述用户接收的即时消息。
46.一种计算机可读存储介质,其携带计算机可读程序指令,所述计算机可读程序指令包括:
配置用于访问用于用户的已录入日志的交互用户历史数据的程序指令;以及
配置用于利用在所述已录入日志的交互用户历史数据和生成自主题特征源的一个或多个种子文档的至少部分上起作用的主题模型,确定用于所述用户的至少一个用户兴趣主题的程序指令。
47.如权利要求46的计算机可读存储介质,其中所述配置用于确定至少一个用户兴趣主题的程序指令包括配置用于确定至少一个预定义的主题类别标签的程序指令。
48.如权利要求46-47中任一的计算机可读存储介质,其中所述主题模型包括带有主题特征模型的、已加标签的隐含狄利克雷分配。
49.如权利要求46-48中任一的计算机可读存储介质,其中所述主题特征源包括在线百科全书,以及其中用户兴趣主题的名称至少部分由所述百科全书内的文章题目所定义。
50.如权利要求46-48中任一的计算机可读存储介质,进一步包括:
配置用于从所述主题特征源访问与预定义的用户兴趣主题对应的内容文档的程序指令;
配置用于从所述访问的内容文档提取关键字的程序指令;以及
配置用于生成种子文档的程序指令,该种子文档包括与所述提取的关键字对应的主题特征关键字并且具有由所述内容文档的题目至少部分定义的用户兴趣主题;以及其中
所述主题模型在其上起作用的所述一个或多个种子文档包括所述生成的种子文档。
51.如权利要求46-51中任一的计算机可读存储介质,其中配置用于确定用于所述用户的至少一个用户兴趣主题的程序指令包括:
配置用于向预定义的用户兴趣主题指派种子页面的主题特征关键字的程序指令,其中每个主题关键字以值小于100%的概率百分比被指派给第一预定义用户兴趣主题,以及以由100%与剩余预定义的用户兴趣主题中的所述概率百分比之间的差值的均等分布所定义的百分比被指派给每个剩余预定义的用户兴趣主题;
配置用于将所述种子页面与所述已录入日志的交互用户历史数据相混合的程序指令;
配置用于执行采样以评估所述预定义的用户兴趣主题的后验分布的程序指令;以及
配置用于至少部分基于所述预定义的用户兴趣主题的所述评估的后验分布,确定用于所述用户的至少一个用户兴趣主题的程序指令。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2009/076355 WO2011079462A1 (en) | 2009-12-31 | 2009-12-31 | Methods and apparatuses for user interest modeling |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102687166A true CN102687166A (zh) | 2012-09-19 |
CN102687166B CN102687166B (zh) | 2016-02-10 |
Family
ID=44226141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980163229.4A Expired - Fee Related CN102687166B (zh) | 2009-12-31 | 2009-12-31 | 用于用户兴趣建模的方法和设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9031952B2 (zh) |
EP (1) | EP2519920A4 (zh) |
CN (1) | CN102687166B (zh) |
WO (1) | WO2011079462A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105100165A (zh) * | 2014-05-20 | 2015-11-25 | 深圳市腾讯计算机系统有限公司 | 网络服务推荐方法和装置 |
CN105516810A (zh) * | 2015-12-04 | 2016-04-20 | 山东大学 | 一种基于lda模型的电视用户家庭成员分析方法 |
CN105786791A (zh) * | 2014-12-23 | 2016-07-20 | 深圳市腾讯计算机系统有限公司 | 数据主题获取方法及装置 |
WO2016120883A1 (en) * | 2015-01-30 | 2016-08-04 | Hewlett Packard Enterprise Development Lp | Generation of digital documents |
WO2016206099A1 (en) * | 2015-06-26 | 2016-12-29 | Hewlett-Packard Development Company, L.P. | Latent topic determination |
CN106919997A (zh) * | 2015-12-28 | 2017-07-04 | 航天信息股份有限公司 | 一种基于lda的电子商务的用户消费预测方法 |
CN111353103A (zh) * | 2020-03-03 | 2020-06-30 | 京东数字科技控股有限公司 | 用于确定用户社群信息的方法和装置 |
CN112115698A (zh) * | 2019-06-19 | 2020-12-22 | 国际商业机器公司 | 用于生成主题模型的技术 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9310879B2 (en) * | 2011-11-09 | 2016-04-12 | Xerox Corporation | Methods and systems for displaying web pages based on a user-specific browser history analysis |
TW201409393A (zh) * | 2012-08-17 | 2014-03-01 | Systex Corp | 電信行為統計分析系統 |
WO2014078598A1 (en) | 2012-11-14 | 2014-05-22 | invi Labs, Inc. | System for and method of embedding rich media into text messages |
US20140280133A1 (en) * | 2013-03-13 | 2014-09-18 | Google Inc. | Structured Data to Aggregate Analytics |
US10204026B2 (en) * | 2013-03-15 | 2019-02-12 | Uda, Llc | Realtime data stream cluster summarization and labeling system |
US9456082B2 (en) | 2013-12-12 | 2016-09-27 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Determining probable topics of conversation between users of two communication devices |
US9471671B1 (en) | 2013-12-18 | 2016-10-18 | Google Inc. | Identifying and/or recommending relevant media content |
US10209853B2 (en) | 2013-12-20 | 2019-02-19 | Robert Bosch Gmbh | System and method for dialog-enabled context-dependent and user-centric content presentation |
US9727818B1 (en) | 2014-02-23 | 2017-08-08 | Google Inc. | Impression effect modeling for content items |
US9754210B2 (en) * | 2014-04-01 | 2017-09-05 | Microsoft Technology Licensing, Llc | User interests facilitated by a knowledge base |
US10192583B2 (en) | 2014-10-10 | 2019-01-29 | Samsung Electronics Co., Ltd. | Video editing using contextual data and content discovery using clusters |
CN108197330B (zh) * | 2014-11-10 | 2019-10-29 | 北京字节跳动网络技术有限公司 | 基于社交平台的数据挖掘方法及装置 |
JP2016162163A (ja) * | 2015-03-02 | 2016-09-05 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US11955236B2 (en) | 2015-04-20 | 2024-04-09 | Murj, Inc. | Systems and methods for managing patient medical devices |
US10268989B2 (en) * | 2015-04-20 | 2019-04-23 | Murj, Inc. | Medical device data platform |
WO2016179755A1 (en) * | 2015-05-08 | 2016-11-17 | Microsoft Technology Licensing, Llc. | Mixed proposal based model training system |
US10448898B2 (en) * | 2015-07-14 | 2019-10-22 | Conduent Business Services, Llc | Methods and systems for predicting a health condition of a human subject |
US10374997B2 (en) * | 2015-08-26 | 2019-08-06 | Min Zhuang | System and method for spam prevention with generalized email address |
CN106650189A (zh) * | 2015-10-30 | 2017-05-10 | 日本电气株式会社 | 一种用于因果关系挖掘的方法和设备 |
US10460074B2 (en) * | 2016-04-05 | 2019-10-29 | Conduent Business Services, Llc | Methods and systems for predicting a health condition of a human subject |
US10468136B2 (en) * | 2016-08-29 | 2019-11-05 | Conduent Business Services, Llc | Method and system for data processing to predict health condition of a human subject |
JP2021135803A (ja) * | 2020-02-27 | 2021-09-13 | 富士フイルムビジネスイノベーション株式会社 | 文書作成装置、及びプログラム |
US11456072B1 (en) | 2022-03-15 | 2022-09-27 | Murj, Inc. | Systems and methods to distribute cardiac device advisory data |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118498A1 (en) * | 2005-11-22 | 2007-05-24 | Nec Laboratories America, Inc. | Methods and systems for utilizing content, dynamic patterns, and/or relational information for data analysis |
JP2007148948A (ja) * | 2005-11-30 | 2007-06-14 | Hitachi Ltd | 文書検索プログラム |
CN101105795A (zh) * | 2006-10-27 | 2008-01-16 | 北京搜神网络技术有限责任公司 | 基于网络行为的个性化推荐方法和系统 |
US20080275849A1 (en) * | 2007-02-01 | 2008-11-06 | Sugato Basu | Method and apparatus for targeting messages to users in a social network |
CN101520878A (zh) * | 2009-04-03 | 2009-09-02 | 华为技术有限公司 | 向用户进行广告推送的方法、装置和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100458460B1 (ko) * | 2003-04-22 | 2004-11-26 | 엔에이치엔(주) | 인터넷 사용자의 접속 의도를 이용한 인터넷 상의 광고유치 및 광고 제공 방법과 그 시스템 |
US8166026B1 (en) * | 2006-12-26 | 2012-04-24 | uAffect.org LLC | User-centric, user-weighted method and apparatus for improving relevance and analysis of information sharing and searching |
-
2009
- 2009-12-31 EP EP20090852747 patent/EP2519920A4/en not_active Withdrawn
- 2009-12-31 US US13/519,875 patent/US9031952B2/en not_active Expired - Fee Related
- 2009-12-31 WO PCT/CN2009/076355 patent/WO2011079462A1/en active Application Filing
- 2009-12-31 CN CN200980163229.4A patent/CN102687166B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118498A1 (en) * | 2005-11-22 | 2007-05-24 | Nec Laboratories America, Inc. | Methods and systems for utilizing content, dynamic patterns, and/or relational information for data analysis |
JP2007148948A (ja) * | 2005-11-30 | 2007-06-14 | Hitachi Ltd | 文書検索プログラム |
CN101105795A (zh) * | 2006-10-27 | 2008-01-16 | 北京搜神网络技术有限责任公司 | 基于网络行为的个性化推荐方法和系统 |
US20080275849A1 (en) * | 2007-02-01 | 2008-11-06 | Sugato Basu | Method and apparatus for targeting messages to users in a social network |
CN101520878A (zh) * | 2009-04-03 | 2009-09-02 | 华为技术有限公司 | 向用户进行广告推送的方法、装置和系统 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105100165A (zh) * | 2014-05-20 | 2015-11-25 | 深圳市腾讯计算机系统有限公司 | 网络服务推荐方法和装置 |
CN105100165B (zh) * | 2014-05-20 | 2017-11-14 | 深圳市腾讯计算机系统有限公司 | 网络服务推荐方法和装置 |
CN105786791A (zh) * | 2014-12-23 | 2016-07-20 | 深圳市腾讯计算机系统有限公司 | 数据主题获取方法及装置 |
CN105786791B (zh) * | 2014-12-23 | 2019-07-05 | 深圳市腾讯计算机系统有限公司 | 数据主题获取方法及装置 |
WO2016120883A1 (en) * | 2015-01-30 | 2016-08-04 | Hewlett Packard Enterprise Development Lp | Generation of digital documents |
US10474726B2 (en) | 2015-01-30 | 2019-11-12 | Micro Focus Llc | Generation of digital documents |
WO2016206099A1 (en) * | 2015-06-26 | 2016-12-29 | Hewlett-Packard Development Company, L.P. | Latent topic determination |
CN105516810A (zh) * | 2015-12-04 | 2016-04-20 | 山东大学 | 一种基于lda模型的电视用户家庭成员分析方法 |
CN106919997A (zh) * | 2015-12-28 | 2017-07-04 | 航天信息股份有限公司 | 一种基于lda的电子商务的用户消费预测方法 |
CN112115698A (zh) * | 2019-06-19 | 2020-12-22 | 国际商业机器公司 | 用于生成主题模型的技术 |
CN111353103A (zh) * | 2020-03-03 | 2020-06-30 | 京东数字科技控股有限公司 | 用于确定用户社群信息的方法和装置 |
CN111353103B (zh) * | 2020-03-03 | 2023-11-03 | 京东科技控股股份有限公司 | 用于确定用户社群信息的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
EP2519920A4 (en) | 2013-08-21 |
CN102687166B (zh) | 2016-02-10 |
EP2519920A1 (en) | 2012-11-07 |
US9031952B2 (en) | 2015-05-12 |
US20120290599A1 (en) | 2012-11-15 |
WO2011079462A1 (en) | 2011-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102687166A (zh) | 用于用户兴趣建模的方法和设备 | |
US20170185921A1 (en) | System and method for deploying customized machine learning services | |
Tatar et al. | Predicting the popularity of online articles based on user comments | |
US9665663B2 (en) | Generating user recommendations | |
US20150178265A1 (en) | Content Recommendation System using a Neural Network Language Model | |
US20070214207A1 (en) | Method and system for accurate issuance of data information | |
US20100088130A1 (en) | Discovering Leaders in a Social Network | |
CN104246748A (zh) | 用于确定情境的系统和方法 | |
CN102523274A (zh) | 基于核心网侧的无线个性化精准信息主动推送系统及方法 | |
US9496893B1 (en) | Content compression and/or decompression | |
CN101043348A (zh) | 实现广告业务的方法、系统及设备 | |
CN104820668A (zh) | 对数据进行压缩序列化以从客户端应用进行传输 | |
CN102939774A (zh) | 用于上下文索引的网络资源分段的方法和装置 | |
CN113742567B (zh) | 一种多媒体资源的推荐方法、装置、电子设备及存储介质 | |
CN112801719A (zh) | 用户行为预测方法、用户行为预测装置、存储介质及设备 | |
CN110866040A (zh) | 用户画像生成方法、装置和系统 | |
Martino et al. | Adaptive rejection sampling with fixed number of nodes | |
CN112446736A (zh) | 一种点击通过率ctr预测方法及装置 | |
CN110928917A (zh) | 一种目标用户的确定方法、装置、计算设备及介质 | |
KR102513390B1 (ko) | 도서 빅데이터 분석 시스템 | |
JP6680663B2 (ja) | 情報処理装置、情報処理方法、予測モデルの生成装置、予測モデルの生成方法、およびプログラム | |
CN111767953B (zh) | 用于训练物品编码模型的方法和装置 | |
CN112347383A (zh) | 分享链接生成方法、装置及电子设备 | |
US20220358347A1 (en) | Computerized system and method for distilled deep prediction for personalized stream ranking | |
CN111523034A (zh) | 一种应用程序的处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
C41 | Transfer of patent application or patent right or utility model | ||
GR01 | Patent grant | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20160119 Address after: Espoo, Finland Applicant after: Technology Co., Ltd. of Nokia Address before: Espoo, Finland Applicant before: Nokia Oyj |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160210 Termination date: 20161231 |
|
CF01 | Termination of patent right due to non-payment of annual fee |