CN103970891A

CN103970891A - 一种基于情境的用户兴趣信息查询方法

Info

Publication number: CN103970891A
Application number: CN201410222754.1A
Authority: CN
Inventors: 邓晓涛; 郑昊; 何祥
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2014-05-23
Filing date: 2014-05-23
Publication date: 2014-08-06
Anticipated expiration: 2034-05-23
Also published as: CN103970891B

Abstract

本发明公开了一种基于情境的用户兴趣信息查询方法，包括：获取用户的日志及其对应的情境信息，对获取的用户日志进行特征分析和提取，确定每条日志对应的兴趣特征，并对所有日志对应的兴趣特征进行语义分析，生成兴趣模型；根据所述兴趣模型以及各条日志对应的情境信息进行统计分析，生成基于情境的用户兴趣模型；接收第三方提供的当前情境信息和关键词；根据当前情境信息中的各数据信息取值在各个兴趣上的统计信息，确定当前情境信息在与关键词相关的各个兴趣上的概率，并向第三方优先输出概率最高的兴趣。应用本发明，能够提高个性化查询的准确性和处理效率。

Description

一种基于情境的用户兴趣信息查询方法

技术领域

本申请涉及人工智能领域，特别涉及一种基于情境的用户兴趣信息查询方法。

背景技术

当前工业界越来越重视情境计算和感知计算技术的发展，例如：2013年苹果公司提出的M7运动协处理器技术和iBeacon技术、诺基亚的HAIP技术、谷歌的Sensor Hub和谷歌地图的Floor计划、摩托罗拉公司的监听麦克风技术(always-listening mircophone)技术等。结合传统的情境传感器(context sensor)，现有智能设备和可穿戴设备可以精确收集和分析出用户的情境；而现有的文本聚类、分类、潜在语意和精确语意算法可以从用户的浏览日志和第三方服务日志中分析出用户的兴趣，并可以基于该兴趣进行用户信息的搜索或推荐排序。

现有的情境传感/感知技术主要有：GPS、电子陀螺仪、加速计、温湿度、气压、低功耗蓝牙等传感器技术，这些技术在独立应用对服务提供了良好的支持，用户在使用这些传感器的同时也反映了用户的兴趣。

现有的用户兴趣提取技术主要有：分类/模糊分类、聚类/模糊聚类、潜在语义分析等。以下分别进行简单介绍。

分类/模糊分类：这类技术主要是利用事先定义好的类别或者标签对现有的用户数据进行分析分类，当用户数据趋向于某一个或者几种分类后，就将该类类别或者标签定义为用户兴趣。这种预定义的分类方式对于动态变化的用户兴趣来说，很难准确地分析用户兴趣。另一方面，虽然分类方法具有一定的学习能力，这种方法对用户的长期兴趣有一定帮助，但是，个性化服务需要体现出实时和即时兴趣来进行服务，因此，按照该分类/模糊分类进行兴趣分析，并利用兴趣分析结果进行用户信息搜索和推荐的处理时，在智能设备上难以体现出该兴趣分析的优越性。

聚类/模糊聚类：这类技术主要是通过分析大量的用户历史记录，然后将具有相同偏好的用户进行归类，在进行个性化服务中，会依据同类别的兴趣分析结果进行用户信息的搜索和推荐处理。该技术在智能设备的应用中需要依赖用户数据，涉及到用户隐私。而基于同组其他用户偏好进行“个性化服务”，就失去了个性化的特点。

潜在语义分析：语义分析广泛用于自然语言处理技术中，该技术在分析用户兴趣特征中有很好的应用。在基于语义模型的应用场景中，一般采用的是以本体(Ontology)技术为载体，通过本体进行推理(Reasoning)获得用户兴趣，再依据获得的用户兴趣进行用户信息搜索和推荐的处理。但在智能设备中，支持本体技术的框架以及知识库还不够成熟，在个性化服务领域没有通用的解决方案。

综上所述，利用现有的这些兴趣分析方式进行用户兴趣信息的查询、进而进行搜索和推荐的处理时，虽然互有利弊，但是目前普遍存在如下技术问题：

1.智能设备端的解决方案不成熟：由于智能设备在数据容量、计算能力上的局限性，无法进行大规模的数据处理，并且对于用户兴趣抽取方面的框架和解决方案不成熟，主要表现在实施的算法和技术在智能设备上的优势不明显，无法提供基于用户兴趣的最佳实践。而基于服务器端的解决方案存在用户隐私安全的问题，用户需要将私有数据上传到服务器进行分析，暴露安全问题。

2.Context信息利用不充分：现有智能设备配备有很多智能传感器，这些传感器有利于反应当前用户偏好，并能提供更准确的个性化服务，而通常各个设备提供接口不统一，数据标准不统一，导致无法充分利用现有的Context信息，也无法提供精准的个性化服务。

3.缺乏个性化兴趣模型：智能设备为个性化服务提供了入口，但由于内容服务商在进行个性化服务时，没有建立统一的用户偏好模型，导致无法有效的、准确的为用户提供服务。主要体现在：数据不完整，信息不充分，模型不统一。

可见，利用目前的兴趣分析方式进行用户兴趣信息查询时，无法提供准确的个性化查询结果，利用该查询的兴趣进行搜索和推荐的处理时，无法提供准确的个性化搜索和推荐结果，检索和推荐效率较低。

发明内容

本申请提供一种基于情境的用户兴趣信息查询方法，能够提高个性化查询的准确性。

为实现上述目的，本申请采用如下的技术方案：

一种基于情境的用户兴趣信息查询方法，包括：

a、获取用户的日志及其对应的情境信息；所述情境信息为传感器采集的数据信息组合；

b、对获取的用户日志进行特征分析和提取，确定每条日志对应的兴趣特征，并对所有日志对应的兴趣特征进行语义分析，生成兴趣模型；所述兴趣模型包括任一兴趣在各条日志中的统计信息和任一兴趣特征在各个兴趣中的统计信息，所述兴趣为若干兴趣特征构成的集合；

c、根据所述兴趣模型以及各条日志对应的情境信息进行统计分析，生成基于情境的用户兴趣模型；其中，所述用户兴趣模型包括情境信息中的各种数据信息取值在各个兴趣中的统计信息、和任一兴趣特征在各个兴趣中的统计信息；

d、接收第三方输入的当前情境信息和关键词；根据当前情境信息中的各数据信息取值在各个兴趣上的统计信息，确定当前情境信息在与所述关键词相关的各个兴趣上的概率，并优先向所述第三方输出概率最高的兴趣；所述与关键词相关的兴趣为：将所述关键词作为兴趣特征时该兴趣特征所属的兴趣。

较佳地，所述获取用户的日志及其对应的情境信息包括：

获取用户的日志及其对应的时间信息，并获取传感器采集的数据信息及其对应的时间信息；

将与用户的日志对应相同时间信息的、传感器所采集的各数据信息的组合作为所述日志对应的情境信息。

较佳地，所述获取用户的日志为：获取用户设备和/或第三方设备上保存的日志。

较佳地，在不同设备间共享各设备传感器采集的数据信息及其对应的时间信息；

所述获取传感器采集的数据信息及其对应的时间信息包括：获取共享设备上传感器所采集的数据信息及其对应的时间信息。

较佳地，该方法进一步包括：对所述传感器采集的数据信息按照设定的标准、维度和/或粒度进行信息转换，并利用转换后的信息构成情境信息。

较佳地，步骤b中按照主题模型Topic Model进行所述语义分析，生成所述兴趣模型；

步骤b中的所述统计信息为概率或频次信息。

较佳地，步骤c中的统计信息为基于支持度和/或置信度的概率或频次信息。

较佳地，所述优先向所述第三方输出概率最高的兴趣包括：向第三方输出概率最高的兴趣；或者，按照概率由高到低的顺序，向第三方依次输出相应的兴趣。

较佳地，所述第三方根据接收的兴趣和所述关键词为用户提供服务。

较佳地，所述为用户提供服务为：进行检索、推荐或广告推送。

由上述技术方案可见，本申请中，获取用户的日志及其对应的情境信息，对获取的用户日志进行特征分析和提取，确定每条日志对应的兴趣特征，并对所有日志对应的兴趣特征进行语义分析，生成兴趣模型；根据所述兴趣模型以及各条日志对应的情境信息进行统计分析，生成基于情境的用户兴趣模型；接收第三方输入的当前情境信息和关键词；根据当前情境信息中的各数据信息取值在各个兴趣上的统计信息，确定当前情境信息在与关键词相关的各个兴趣上的概率，并向第三方优先输出概率最高的兴趣。通过上述本申请的处理，能够提高个性化查询的准确性，基于该查询结果进行检索或推荐等服务时，能够提高检索或推荐等处理的效率。

附图说明

图1为本申请中基于情境的用户兴趣信息查询方法的流程示意图；

图2为兴趣特征与兴趣的关系示意图；

图3为兴趣与日志的关系示意图；

图4为步骤103中兴趣模型的生成过程示意图；

图5为基于情境的用户兴趣模型示意图；

图6为进行个性化推荐的实例示意图。

具体实施方式

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。

在本申请中进行用户兴趣建模时，结合情境信息，对不同情境下的用户兴趣进行建模，从而在进行用户兴趣信息查询时，能够优先输出与当前情境相匹配的用户兴趣，利用上述输出结果进行检索或推荐等处理时，可以提高检索或推荐等处理的效率，更准确地实现个性化的检索和推荐处理。

图1为本申请中基于情境信息的用户兴趣信息查询方法的流程示意图。如图1所示，该方法包括：

步骤101，获取用户的日志及其对应的情境信息。

本步骤中，获取用户的日志以及每条日志对应的情境信息。其中，用户设备基本上每天都会产生大量的日志，包括大量网页浏览、短信接入发出记录、电话纪录和音频视频数据等日志。同时，用户设备上面的传感器也会采集大量的传感器数据，多个传感器采集的数据信息组合构成情境信息。例如，GPS、高度表、电子陀螺仪、三维加速度表、方向传感器、光线传感器、健康监测传感器(脉搏、血压、血糖、含氧量等)等采集的传感器数据。换句话说，情境是指一种状态信息，比如时间，地点，气温，体温。这里的用户设备不限于一台用户设备，可以是多台，例如，可穿戴智能设备、智能手机、智能平台、智能电视和个人电脑等。

具体地，可以获取用户的日志及其对应的时间信息，并获取传感器采集的数据信息及其对应的时间信息；将与用户日志对应相同时间信息的、传感器采集的各数据信息的组合作为该日志对应的情境信息。上述用户设备采集的日志和传感器数据可以在多设备间进行共享和同步。共享方式包括但不限于有线或无线共享、推送或获取、公开或加密等方式。这样，用户设备可以从其他设备上获取日志对应的情境信息，而不仅限于自身设备获取的情境信息。例如，智能电视机可以获取用户手机设备的GPS信息及其对应的时间信息。

另外，用户日志的获取也可以通过第三方设备进行，例如SNS(Facebook,Twitter,Foursquare和Google+等日志)、Netflix的点播日志以及电子邮件服务等产生的用户数据，这类日志信息的获取通常通过标准的协议或Open API，使得用户设备可以在用户授权下定时获取用户信息及使用数据。

对于传感器采集的数据信息，可以按照设定的标准、维度和/或粒度进行信息转换，并利用转换后的信息构成情境信息。例如，可以将传感器采集的数据转换为统一的标准格式，可以是用户自定义标准或者国际标准等；还可以将传感器采集的数据定义为不同的维度和粒度，举个简单的例子，可以将时间转换为早上、中午、晚上，或者也可以转换为工作日、假日，或者四季等，将GPS信息转换为工作地点和家庭住址。

步骤102，对获取的用户日志进行特征分析和提取，确定每条日志对应的兴趣特征。

用户兴趣特征是表征用户的行为模式(Usage Pattern)和偏好的文本标签、音视频指纹/特征值等。本申请中利用用户的日志进行特征分析和特征提取，对文本数据抽取特征。具体进行特征分析和提取以确定兴趣特征的处理可以采用与现有技术中相同的方式进行，这里就不再赘述。

步骤103，对所有日志对应的兴趣特征进行语义分析，生成兴趣模型。

兴趣是指基于用户兴趣特征基础上归纳出来的表征用户特定偏好的兴趣特征集合分类，兴趣特征与兴趣的关系如图2所示。本申请中利用潜在的语义分析模型，对当前所有日志对应的兴趣特征进行语义分析，生成兴趣模型，具体兴趣和日志的对应关系如图3所示。其中，兴趣模型包括任一兴趣在各条日志中的统计信息和任一特征在各个兴趣中的统计信息。具体生成兴趣模型的方式可以采用现有方式，语义分析模型可以是主题模型(Topic Model)等，例如LDA(Latent DirichletAllocation)、DTM(Dynamic Topic Model)。这里的语义分析模型只是一个举例，并不仅限于此。统计信息可以是概率或频次信息。下面以LDA语义分析模型、统计信息为概率分布为例，说明兴趣模型的生成过程，如图4所示：

步骤1：获得从用户日志抽取的兴趣特征值及其相应的频次，以{<日志编号,{<特征编号,频次>}>}方式输入。

步骤2：初始化日志编号下每个特征编号(图中w)，为其随机分配初始兴趣(z(0))。

步骤3：计数每个兴趣(z)下出现特征编号(w)的数量n(t|z)，以及每个日志编号下出现在具体兴趣z中特征编号的数量n(z|m)。

步骤4：排除当前特征编号w的兴趣分配，根据其他所有特征编号的兴趣分配估计当前特征编号分配在各个兴趣中的概率。

步骤5：当得到当前特征编号w属于所有兴趣z的概率分布后，根据这个概率分布为该特征编号sample一个新主题，即分配一个兴趣。如果发现某个兴趣在每个日志编号下的概率分布和某个特征编号在每个兴趣下的概率分布收敛，则将得到的概率分布输出；否则作为步骤2的输入。

通过上述本步骤的处理，能在大数据量的情况下，对用户潜在的语义进行分析，获得用户兴趣关键词，并对拥有相同语义关键词进行聚合，计算出用户兴趣关键词在不同兴趣中的分布模型。

步骤104，根据步骤103中输出的兴趣模型以及各条日志对应的情境信息进行统计分析，生成基于情境的用户兴趣模型。

通过前述步骤103的处理后输出两类统计信息，即兴趣在各条日志中的统计信息和兴趣特征在各个兴趣中的统计信息。另外，在步骤101中获取了各条日志对应的情境信息(如图5上半部分所示)。

根据上述两部分信息结合进行统计分析，生成基于情境的用户兴趣模型。具体该基于情境的用户兴趣模型包括：情境信息中的各种数据信息取值在各个兴趣中的统计信息、和任一兴趣特征在各个兴趣中的统计信息。基于情境的用户兴趣模型可以如图5下半部分所示。

具体地，在对兴趣模型和日志与情境信息对应关系进行统计分析时，统计信息可以是基于支持度和/或置信度的概率或频次信息。更详细地，可以找到兴趣模型中兴趣在各条日志中的统计信息，再将各条日志对应的情境信息列举出来，对情境信息中的各个数据信息取值在各个兴趣中的概率或频次进行统计，确定出情境信息中的各种数据信息取值在各个兴趣中的统计信息，支持度和置信度用来计算数据项之间的相互关系，可以用支持度和置信度计算各个兴趣与各个兴趣的日志所在的情境之间的关系。例如，对于作为时间的传感器数据信息取值，确定出工作日在各个兴趣中的统计信息、周末在各个兴趣中的统计信息等，从而能够统计出用户在不同情境下的兴趣，如喜欢周末购物等。

步骤105，接收第三方输入的当前情境信息和关键词；根据当前情境信息中的各数据信息取值在各个兴趣上的统计信息，按照基于情境的用户兴趣模型，确定当前情境信息在与关键词相关的各个兴趣上的概率，并向第三方优先输出概率最高的兴趣。

在步骤104中得到基于情境的用户兴趣模型后，本步骤进行用户兴趣信息查询时，依据该用户兴趣模型进行。具体地，在第三方查询用户兴趣时，接收第三方输入的当前情境信息，例如时间、地点等信息，根据基于情境的用户兴趣模型，确定当前情境信息中各数据信息取值在各个兴趣上的统计信息，并计算当前情境信息在与关键词相关的各个兴趣上的概率，得到用户兴趣排名，具体按照概率由高到低的顺序进行用户兴趣排名，最后向第三方优先输出排名第一的用户兴趣。其中，与关键词相关的兴趣是指：将关键词作为兴趣特征，确定出的该兴趣特征所属的兴趣。向第三方优先输出排名第一的用户兴趣时，可以仅输出排名第一的用户兴趣，或者按照用户兴趣排名的顺序，依次输出若干用户兴趣。

通过上述方式处理后，第三方能够获取当前情境下与关键词相关的若干兴趣及其相应的排名先后，可以按照用户兴趣排名依次在相应兴趣上根据用户输入的关键词提供相应的服务，例如进行信息检索或推荐或广告推送等。

例如当前情境信息包括：时间为上午，地点为户外，于是获取上午在各兴趣上的概率和户外在各兴趣上的概率，并计算情境信息(上午+户外)在各兴趣上的概率，从而进行用户兴趣排名和相应的检索或推荐。

通过本步骤的处理，能够实现个性化的API服务，由于用户信息的查询是依照当前情境信息下用户所感兴趣主题的概率进行的，因此，更容易得到用户想要的查询结果，依据该查询结果进行检索或推荐或广告推送等处理时，也更容易得到用户想要的检索或推荐或广告推送结果，提高检索或推荐或广告推送处理的效率。

至此，本申请中基于情境的用户兴趣模型建立和基于情境的用户兴趣信息查询的方法流程结束。下面通过一个具体实施例进行详细说明，其中，以利用查询结果为用户进行搜索服务为例进行说明，具体流程包括：

步骤1:用户设备周期性地收集设备中用户最近的日志。设备包括用户的手机，电脑，平板和智能电视机。用户日志包括用户的短信，电话记录，影音播放记录，Web浏览器的用户浏览记录，安装和使用的软件记录；每条日志记录都将有记录的时间。

步骤2：在用户设备上周期性地从外部网站中获取用户的第三方日志。外部网站如Facebook，Twitter这样的社交网站，Neflix这样的在线视频播放网站。一般首先要求用户手动登录网站，通过调用网站公布的编程接口(Open API)获取第三方日志。

步骤3：利用自然语言处理技术，对用户日志进行分析，包括实体识别，词性分析，停止词的过滤等，获得用户兴趣的关键词，形成用户兴趣特征库，其中包括每条日志对应的兴趣特征。

步骤4：获取当前用户设备或者其它设备的传感器数据。如果当前用户设备在日志处理过程中需要的情境信息无法获得，可以通过共享传感器数据的其他设备获得。当前用户设备也可以将当前设备的情境信息进行共享。

步骤5：处理情境数据，对数据进行标准化和离散化，生成情境特征库。标准化过程是对不同型号不同格式的数据进行统一的标准化。离散化对数据进行不同维度和粒度的分解。如将时间信息转化成白天和晚上，工作日和非工作日以及四个不同的季节；从地理位置中提取出工作地点和家庭住址。并将情境信息与日志进行对应。

步骤6：在用户日志数据基础上，模拟用户兴趣生成模型，获得用户潜在的兴趣主题，并从中提取出重要的兴趣主题，每个兴趣主题包含兴趣特征以及特征属于该主题的统计信息，以及兴趣主题与记录的统计信息，使用隐含狄利克雷分布(LDA)从日志数据中提取出不同的主题作为用户的兴趣。每个兴趣由不同权重的主题词和不同权重的日志组成。这里的权重即为概率统计信息。

步骤7:构建基于情境的用户兴趣模型，该模型通过步骤5和步骤6的统计信息获得代表兴趣主题的情境特征和兴趣特征。该模型包含了情境和兴趣的统计信息。在数据挖掘中，支持度和置信度用来计算数据项之间的相关关系，这里我们用支持度和置信度来计算各个兴趣与各个兴趣的日志所在的情境之间的关系。比如我们计算出用户喜欢在周末购物，在家看电影等等。

步骤8：根据步骤7提供的模型和用户当前的情境，推荐出用户的兴趣。比如将推荐服务应用到个性化搜索的场景中：从用户的移动设备中获得用户当前的地址和时间信息，并根据搜索的关键词，从建立的兴趣模型中找出最相关的兴趣，将搜索关键词和相关的兴趣关键词一起提交到搜索引擎服务器中，获得用户最想要的搜索结果。

这里给出一个简单的推荐例子，其中，以第三方为google搜索引擎、为用户提供搜索服务为例进行说明。如图6所示：

步骤1：接收用户输入的搜索关键词Apple；

步骤2.1：找到基于情境的用户兴趣模型；

步骤2.2：确定当前情境信息，给出两种假设的当前情境，分别为Context1和Context2；

步骤2.3：根据当前情境信息在步骤2.1找到的用户兴趣模型中计算当前情境信息在各个兴趣中的概率，分别为P(t1|contex1)和P(tx|contex2)。

对应于Context1，确定P(t1|contex1)<P(tx|contex2)，因此，确定用户在Context1下对Topic-x更感兴趣，确定在Topic-x中进行推荐；

对应于Context1，确定P(t1|contex1)>P(tx|contex2)，因此，确定用户在Context2下对Topic-1更感兴趣，确定在Topic-1中进行推荐；

步骤2.4：对应于Context1和Context2，分别在Topic-1和Topic-1中以Apple为关键词进行推荐。

由上述本申请的具体实现可见，本申请利用自然语言处理技术、潜在语义分析技术和传感器感知技术对用户日志进行处理，对用户潜在兴趣进行更深度的挖掘，结合情境信息对用户兴趣进行建模，更精准的个性化的信息和个性化兴趣，更及时更准确的提供个性化服务。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于情境的用户兴趣信息查询方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取用户的日志及其对应的情境信息包括：

3.根据权利要求2所述的方法，其特征在于，所述获取用户的日志为：获取用户设备和/或第三方设备上保存的日志。

4.根据权利要求2所述的方法，其特征在于，在不同设备间共享各设备传感器采集的数据信息及其对应的时间信息；

5.根据权利要求1到4中任一所述的方法，其特征在于，该方法进一步包括：对所述传感器采集的数据信息按照设定的标准、维度和/或粒度进行信息转换，并利用转换后的信息构成情境信息。

6.根据权利要求1所述的方法，其特征在于，步骤b中按照主题模型Topic Model进行所述语义分析，生成所述兴趣模型；

步骤b中的所述统计信息为概率或频次信息。

7.根据权利要求1所述的方法，其特征在于，步骤c中的统计信息为基于支持度和/或置信度的概率或频次信息。

8.根据权利要求1所述的方法，其特征在于，所述优先向所述第三方输出概率最高的兴趣包括：向第三方输出概率最高的兴趣；或者，按照概率由高到低的顺序，向第三方依次输出相应的兴趣。

9.根据权利要求1或8所述的方法，其特征在于，所述第三方根据接收的兴趣和所述关键词为用户提供服务。

10.根据权利要求9所述的方法，其特征在于，所述为用户提供服务为：进行检索、推荐或广告推送。