CN105027114A - 从在线用户活动推断事实 - Google Patents

从在线用户活动推断事实 Download PDF

Info

Publication number
CN105027114A
CN105027114A CN201380074245.2A CN201380074245A CN105027114A CN 105027114 A CN105027114 A CN 105027114A CN 201380074245 A CN201380074245 A CN 201380074245A CN 105027114 A CN105027114 A CN 105027114A
Authority
CN
China
Prior art keywords
user
webpage
url
fact
activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380074245.2A
Other languages
English (en)
Inventor
G.库特里卡
J.J.刘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN105027114A publication Critical patent/CN105027114A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

从在线用户活动推断事实包括响应于预确定的用户活动而执行网页的统一资源定位符的分析,基于分析将关于网页的数据映射到结构化对象,以及基于所映射的数据推断关于用户活动的事实。

Description

从在线用户活动推断事实
背景技术
在线广告计划包括用于定制以特定在线用户为目标的广告的机制。这样的计划考虑在线用户点入的不同网页并且集体地分析那些网页以理解用户的搜索意图。如果通过该点击分析识别到模式,计划将其广告调节成与计划感知为用户意图的内容更加一致。
附图说明
附图图示了本文所描述的原理的各种示例并且是说明书的一部分。所图示的示例仅仅是示例并且不限制权利要求的范围。
图1是根据本文所描述的原理的网络的示例图。
图2是根据本文所描述的原理的用于从在线用户活动推断事实的过程的流程图的示例图。
图3是根据本文所描述的原理的填充统一资源定位符对象的示例图。
图4是根据本文所描述的原理的填充网页内容对象的示例图。
图5是根据本文所描述的原理的咨询外部资源的示例图。
图6是根据本文所描述的原理的推断事实的示例图。
图7是根据本文所描述的原理的显示器的示例图。
图8是根据本文所描述的原理的用于从在线用户活动推断事实的方法的示例图。
图9是根据本文所描述的原理的用于从在线用户活动推断事实的系统的示例图。
图10是根据本文所描述的原理的推断系统的示例图。
图11是根据本文所描述的原理的用于从在线用户活动推断事实的过程的流程图的示例图。
具体实施方式
虽然在线广告目标市场选择(targeting)计划全局地考虑所有用户的点击,但是并非由在线用户做出的所有点击都与确定用户的意图相关。例如,用户可能点击网页并且确定网页与用户正在寻找的内容不相关。这样的不相关的网页对于确定以在线用户为目标的广告而言不是有用的。然而,这些不相关的网页包括在用于确定用户意图的计划计算中。
本文所描述的原理考虑预确定类型的用户活动以推断关于用户的事实。这样的事实可以用于对广告进行目标市场选择、定制在线推荐、自动填写用户简档或者利用所推断的事实的其它活动。这样的原理单独考虑每一个网页,其中用户力图留存网页的内容。留存网页的内容表明所讨论的网页与用户的搜索有关并且可以揭示关于用户的个人事实的较高可能性。这样的事实可以用于定制用户的网络体验。
本文所描述的原理包括用于从在线用户活动推断事实的方法。这样的方法包括响应于预确定的用户活动执行网页的统一资源定位符的分析,基于分析而将关于网页的数据映射到结构化对象,以及基于所映射的数据推断关于用户的事实。用户事实可以包括最近执行的用户在线活动、用户兴趣、用户状态、其它用户事实或其组合。
在以下描述中,出于解释的目的,阐述大量特定细节以便提供对本系统和方法的透彻理解。然而,对本领域技术人员将显而易见的是,本装置、系统和方法可以在没有这些特定细节的情况下实践。在说明书中对“示例”或类似语言的引用意指所描述的具体特征、结构或特性至少包括在该一个示例中,但是不一定在其它示例中。
图1是根据本文所描述的原理的网络(100)的示例图。在该示例中,用户接口(102)连接到网络(100)。用户接口(102)可以是个人计算机、台式计算机、膝上型计算机、电子平板、电话、个人数字设备、打印机、表、能够访问互联网的另一用户接口或其组合。用户可以通过到网络(100)的用户接口连接访问网页。网站主机(104)托管用户可以浏览的至少一个网站。
事实推断系统(106)通过网络(100)与用户接口(102)通信。然而,在其它示例中,事实推断系统(106)与用户接口(102)通信或者直接合并到用户接口(102)中。事实推断系统(106)在线追踪用户的活动。如果事实推断系统(106)确定用户已经执行预确定的用户活动,事实推断系统(106)将分析其中用户执行了预确定的用户活动的网页。预确定的用户活动包括其中用户留存网页内容的至少一部分的活动。例如,在用户打印、保存、复制、加书签、剪辑或以其它方式留存网页内容时,用户留存网页内容的至少一部分。
留存网页内容的至少一部分表明网页内容与用户的在线意图有关。另外,留存来自网页的信息可以揭示关于用户的事实。例如,当用户复制用于海鲜的烹饪食谱时,存在比用户仅仅点击包含海鲜食谱的网页时高得多的用户对海鲜感兴趣的可能性。另外,如果用户打印包含关于预订航班的信息的网页,网页揭示用户的地理位置和用户可能具有对其的某种连接的旅行位置。从用户的在线活动推断的事实还可以揭示关于用户的用户兴趣、年龄、性别、婚姻状态、职业、教育水平、爱好、技能、其它有用信息或其组合,其可以被广告匹配计划、在线推荐计划、在线简档计划、其它计划或其组合所利用。
事实推断系统(106)通过分析网页的统一资源定位符(URL)和网页的内容来从网页推断事实。事实推断系统(106)从事实推断系统(106)确定与得到关于用户的有意义的事实有关的网页提取所有数据。例如,事实推断系统(106)可以标识URL中的有意义的信息,诸如描述网页内容的关键词。诸如“.ru”或“.ua”之类的URL中的国家指示符可以揭示用户的位置。另外,诸如“.gov”或“.edu”之类的域名也可以揭示关于用户的信息。来自网页内容的关键词也揭示关于允许推断关于用户的事实的网页内容的信息。
事实推断系统(106)可以提取当提取该数据时事实推断系统最初未能理解的信息。在这样的情形中,事实推断系统(106)查询外部资源(108),诸如数据库,以理解含义。例如,事实推断系统(106)可以识别到网页具有引用机场代码的内容,但是事实系统(106)可能不知道所提取的代码表示哪些机场。在这样的示例中,事实推断系统(106)查询包含关于机场代码的信息的数据库以确定哪些机场包括在网页的内容中。在一些情形中,事实推断系统可以导致进行网络搜索以确定所提取的信息的含义。外部资源(108)可以包括数据库、互联网、在线资源、词典、百科全书、指南、手册、日历、目录、博客、索引、统计模型、其它信息源或其组合。另外,外部资源可以包括使用随时间识别所提取的信息中的模式的学习功能的学习机制,其允许事实推断系统理解将来提取的信息的含义。
图2是根据本文所描述的原理的用于从在线用户活动推断事实的过程的流程图(200)的示例图。在该示例中,通过在线用户活动分析器标识预确定的用户活动(202)。预确定的用户活动可以是留存包含在网页上的至少一些信息的用户发起的动作。这样的预确定的活动可以包括打印、保存、剪辑、复制或对网页的内容的至少一部分加书签。
响应于标识到预确定的用户活动,过程包括对网页类型分类(204)。网页类别类型可以包括电子邮件、个人页面、商务页面、公共页面、网站主页、具有敏感信息的网页、其它类型的页面或其组合。一些类别类型为了进一步进展而被清除,而其它类别类型触发没有进一步处理的进程的结束(206)。例如,电子邮件网页和具有敏感信息的网页可以从处理中被排除。以此方式,保护在线用户的个人信息。
如果为了处理而清除网页,分析URL(208)以用于可以是所推断的事实的基础的有意义的信息。这样的信息从URL提取,并且利用有意义的信息填充诸如电子文件之类的URL对象(210)。URL分析是基于URL通常表示网页的实际内容的文本概括的观察。该文本描述是有意义的并且是人类可读的,使得在线用户可以记住URL的至少一部分并且在适当字段中重新键入URL。其还可以表示站点的结构和组织以及特定网页的功能。URL分析本身是重要的,因为网页分析器可能由于网页的内容不是可访问的,不是可分析的,或者已经过期而能够仅从URL提取有用的信息。例如,如果用户预定旅程并且打印他的票据,分析器可以“读取”URL中的信息,但是可能不能够读取网页的实际内容。在另一示例中,可能不会如利用某些内容分析方法那样高效地分析具有图像的网页。
还分析网页的内容(212)。来自网页内容的有意义的信息可以包括关键词、关键词的频率、关键词在网页布局中的位置、图像说明、元标签、其它内容信息或其组合。该信息从网页提取并且用于填充内容对象(214)。
在URL对象(210)和内容对象(214)中的所提取的信息通过语义标注(216)被给出附加的含义。这样的标注包括将名称、属性、评论、描述、其它元数据或其组合附到所提取的信息。标注所提取的信息为非结构化数据或以结构化格式的半结构化数据给出更多含义。对于已经具有某种结构的那些URL和内容对象(210、214),语义标注可以提供附加的结构。语义标注可以告知计算机程序所提取的数据的含义和各种所提取的数据如何与彼此有关。分析器咨询外部资源(218),诸如数据库、互联网、其它信息源或其组合,以向未被理解的所提取的数据提供含义。
基于从URL提取的数据、从网页内容提取的数据和语义标注的组合,可以推断关于用户的事实(220)。例如,通过分析包含机场代码和日期的URL,最终用户事实可以表示用户已经预订旅程和关于该旅程的信息。将标注的所提取的数据插入到提供关于用户推断的事实的用户事实结构化对象(222)中。此外,所推断的事实可以用于推断关于用户的其它事实。这些事实可以包括用户的喜好、兴趣、专业等等。而且,所推断的事实可以包括用户执行的在线交易,诸如预订旅程、加入组织、参与在线组讨论、确定两个位置之间的驾车路线、其它活动或其组合。
用户事实是基于用户留存的网页的包含关于用户的有意义的信息的结构化对象。例如,如果网页具有针对孩童的在线游戏,所推断的用户事实可以是用户是父母并且有年幼的孩童。作为结果,推断机制是复杂的并且比仅仅将来自URL和内容对象的信息映射到表示事实的另一对象牵涉更多。推断引擎弄清楚来自从URL提取的数据、从网页内容提取的数据和语义标注的组合的线索如何定义某种类型的用户事实并且将如何填充用户事实的成分。例如,可以使用规则引擎、统计模型、其它机制或其组合来执行推断引擎。作为示例,URL可以是:http://www.travel-destination-website.com/flights#/EWR-MIA/2012-09-04/2012-09-11。在URL分析、内容分析和语义标注之后收集的信息可以包括{网站:travel-destination-website,旅程:飞行,机场代码:EWR,机场代码:MIA,日期:2012-09-04,日期:2012-09-11}。在该示例中,用户事实可以被构造如下:{类型:旅程,开始日期:2012-09-04,结束日期:2012-09-11,开始位置:EWR,开始类型:机场代码,结束位置:MIA,结束类型:机场代码,旅行:飞行}。
所推断的事实可以实时使用。例如,响应于用户从网页晒印海鲜食谱,计划可以在推断到该事实时立即将在线广告材料更改成关于烹饪食谱、海鲜、烹饪调料、烹饪硬件、其它有关项目或其组合。另一方面,所推断的事实可以随着时间的过去而被利用。例如,如果计划推断用户比其它目的地频繁飞往佛罗里达州的坦帕,计划可以包括对位于佛罗里达州的坦帕的酒店、汽车租赁、餐厅和其它服务的更多广告。
图3是根据本文所描述的原理的填充统一资源定位符(URL)对象(300)的示例图。在该示例中,网页的URL(302)为https://destination-travel-website.com/book.php?BISESSID=1223de0927ae0e33&hotelVendorid=MV&tripType=package&locationld=BOS&fsld=&pt+hf&fl=EWR&ptl=BOS&fd=2012-05-15&td=2012-05-21&roomld=MANORQUEEN。URL分析引擎(304)可以从该URL提取潜在有意义的数据。
例如,网站的名称(306)是指示网站关于旅行的destination-travel-website.com。另外,紧跟在.com域之后,URL包含动作动词“book”,其暗示网页具有预订(308)航班的能力。接着,字母的组(309)“BISESSID”看起来是某种类别的标题,并且随后的代码“1223de0927ae0e33”(310)看起来是标识号码。而且,“hotelVendorid”(312)看起来是另一类别的标题,并且“MV”(314)看起来是hotelVendorid类别(312)内的选项。接着,“tripType”(316)看起来是另一类别的另一标题,并且“package”(318)看起来是“tripType”类别内的选项。
另外,“locationld”(320)看起来是另一类别名称,并且“BOS”(322)看起来是locationld类别(320)内的选项。而且,“fl”(324)看起来是类别名称,并且“EWR”(326)看起来是“fl”类别内的类别。接着,“ptl”(326)看起来是类别名称,并且“BOS”(328)看起来是“ptl”类别内的选项。此外,“fd”(330)看起来是类别名称,并且“2012-05-15”(332)看起来是“fd”类别内的选项。而且,“td”(334)看起来是类别名称,并且“2012-05-21”(336)看起来是“td”类别内的选项。另外,“roomld”(338)看起来是类别名称,并且“MANORQUEEN”(340)看起来是“roomld”类别内的选项。
该数据全部被提取到URL对象中而不管是否理解信息的含义中的全部、一些或甚至任何一个。在该点处,URL对象(300)可以被格式化有尽可能多的结构。然而,在稍后阶段,可以将标注添加到未被理解的数据,标注将允许更多结构和更好的理解。
图4是根据本文所描述的原理的填充网页内容对象(400)的示例图。在该示例中,利用内容分析引擎(404)将来自网页的内容(402)的数据提取到网页内容对象(400)。
内容分析引擎(404)从网页内容(402)提取关键词并且可以通过段落、标头、页脚、图像说明或利用不同的组织结构来组织关键词。在图4的示例中,关键词(406)通过标头(408)、第一段落(410)、第二段落(412)、页脚(414)等组织。内容对象(400)还可以包括关键词频率、关键词位置、从网页内容提取的其它信息或其组合。
图5是根据本文所描述的原理的咨询外部资源(500)的示例图。在该示例中,咨询引擎(502)识别何时所提取的数据未被理解并且向外部资源(500)发送查询(504)。外部资源(500)可以是单个资源或包括外部信息的不同集合的多个资源。
外部资源(500)响应于查询(504)发送包括所请求的信息的语义标注(506)。而且,语义标注伴随有指示外部资源(500)关于响应的精确性多有信心的信心得分(508)。如果外部资源的信心低于信心阈值,外部资源从其它源继续搜索回答直到找到具有较高信心的语义标注或者直到达到时间阈值。在其它示例中,发送语义标注(506)而不管信心得分(508)的值。在其它示例中,没有信心得分与语义标注(506)一起被包括。
在一些示例中,将语义标注(506)与其它所提取的数据比较以确保语义标注(506)合理。在其中语义标注(506)在其它所提取的数据的上下文中不合理的示例中,外部资源(500)可以搜索附加的可能语义标注。在其它示例中,如果外部资源找到多个潜在语义标注,外部资源(500)向咨询引擎(502)发送回每一个潜在语义标注。咨询引擎(502)将语义标注转发到事实推断引擎(600,图6)以构造用户事实结构化对象(602,图6)。
图6是根据本文所描述的原理的推断事实的示例图。在该示例中,将从URL对象(604)提取的数据、内容对象(606)和外部资源语义标注(608)发送到事实推断引擎(600),其使用该信息来推断关于用户的至少一个事实。事实可以包括用户的搜索意图、用户的喜好、关于用户的状态、用户最近的在线活动、用户的位置、用户的婚姻状态、用户的教育状态、用户的专业、关于用户的其它信息或其组合。
在该示例中,用户事实结构化对象(602)填充有来自图3和4的示例的所推断的事实和来自外部资源的语义标注。在此,所推断的事实包括:1)网站(610)是目的地旅行网站,2)用户活动(612)是在线预订旅程,3)用于旅程的酒店住宿(614)包括停留在称为“MV”的酒店,4)旅程住宿(616)是套餐的一部分,5)动作的位置(618)是在位于波士顿的爱德华·劳伦斯·洛根将军国际机场(BOS),6)目的地机场(620)是新泽西州纽华克中的纽华克自由国际机场,7)返回机场(622)是BOS,8)启程日期(624)为2012年5月15日,9)返回航班日期(626)为2012年5月21日,以及10)房间规格(628)包括双人床。这些事实可以用于定制以用户为目标的动作,诸如在线广告、做出在线推荐、填写针对用户的简档、其它动作或其组合。
图7是根据本文所描述的原理的显示器(700)的示例图。在该示例中,监视器(702)包括显示器(700),其包括网页内容(704)。监视器(702)与向用户的处理器提供所推断的事实并且允许利用所推断的事实的事实推断引擎(705)通信。
显示器(700)还包括基于从用户从其留存网页内容中的至少一些的网页推断的事实的以用户为目标的广告(706)。在该示例中,所推断的事实包括用户预订了从马萨诸塞州波士顿到新泽西州纽华克的航班。因此,作为响应,经目标市场选择的广告(706)为到新泽西州纽华克的廉价航班打广告。
而且,显示器(700)包括基于用户预订了从波士顿的航班的所推断的事实的推荐(708)。因此,推荐(708)包括关于在位于波士顿的机场使用电子登机系统的信息。
事实推断引擎(705)还与包括关于用户的信息的用户简档引擎(710)通信。用户简档引擎(710)基于由事实推断引擎(705)提供的所推断的事实来填写关于用户的信息。用户简档可以是社交网络简档、专业简档、会员简档、另一类型的简档或其组合。
图8是根据本文所描述的原理的用于从在线用户活动推断事实的方法(800)的示例图。在该示例中,方法(800)包括响应于预确定的用户活动而执行(802)网页的URL的分析,基于分析将关于网页的数据映射(804)到结构化对象,以及基于所映射的数据推断(806)关于用户活动的事实。
在URL上执行分析可以包括基于URL中的信息将网页分类到网页类型中。一些网页类型属于从进一步分析排除的分类。在这样的情形中,分析响应于确定网页属于这样的分类而结束。这些分类可以包括电子邮件网页类型、可能包含敏感信息的网页类型、其它网页类型或其组合。如果网页类型落在这样的分类之外,分析可以包括从URL和网页的内容提取潜在有意义的信息。
方法还可以包括查询关于所映射的数据的含义的外部资源。对查询的回答可以包括随附的信心得分。
响应于推断出关于用户的事实,计划可以使用所推断的事实。例如,计划可以包括基于所推断的事实显示以用户为目标的广告,基于所推断的事实显示用户定制的推荐,基于所推断的事实填写用户简档,用于使用所推断的事实的其它机制,或其组合。
图9是根据本文所描述的原理的用于从在线用户活动推断事实的系统(900)的示例图。在该示例中,系统(900)包括用户活动确定引擎(902)、页面分类引擎(904)、URL分析引擎(906)、内容分析引擎(908)、外部资源咨询引擎(910)和事实推断引擎(912)。引擎(902、904、906、908、910、912)是指执行所指定的功能的硬件和程序指令的组合。引擎(902、904、906、908、910、912)中的每一个可以包括处理器和存储器。程序指令存储在存储器中并且使处理器执行引擎的指定功能。
用户活动确定引擎(902)确定用户何时执行预确定的用户活动以及在哪个网页上发生预确定的用户活动。预确定的用户活动可以包括诸如剪辑、打印、复制、保存、加书签等等之类的活动,其中网页内容的至少一部分被用户留存。
页面分类引擎(904)对网页分类以确定是否继续分析。URL分析引擎(906)分析网页的URL中的信息并且将有意义的信息提取到URL对象中。同样地,内容分析引擎(908)分析网页内容中的信息并且将有意义的信息提取到内容对象中。在其它示例中,单个引擎分析URL和网页内容二者并且将所提取的信息放置到单个对象中。
外部资源引擎(910)发送关于所提取的信息的查询,其中所提取的信息的含义不清楚。外部资源引擎(910)获取关于所查询的数据的回答并且将那些回答发送给事实推断引擎(910)。事实推断引擎(910)推断关于用户的事实。所推断的事实可以包括用户的搜索意图、由用户执行的活动、用户的位置、关于用户的其它事实或其组合。
图10是根据本文所描述的原理的推断系统(1000)的示例图。在该示例中,推断系统(1000)包括与存储器资源(1004)通信的处理资源(1002)。处理资源(1002)包括至少一个处理器和用于处理编程指令的其它资源。存储器资源(1004)一般表示能够存储诸如由推断系统(1000)使用的编程指令或数据结构之类的数据的任何存储器。被示出存储在存储器资源(1004)中的编程指令包括用户活动识别器(1006)、URL分析器(1010)、网页分类器(1012)、内容分析器(1014)、对象映射器(1016)、外部知识咨询器(1018)、事实推断器(1020)和事实利用器(1022)。被示出存储在存储器资源(1004)中的数据结构包括预确定的活动库(1008)。
存储器资源(1004)包括包含计算机可读程序代码以导致任务由处理资源(1002)执行的计算机可读存储介质。计算机可读存储介质可以是有形和/或非暂时性存储介质。计算机可读存储介质类型的非穷尽列表包括非易失性存储器、易失性存储器、随机存取存储器、基于忆阻器的存储器、只写存储器、闪速存储器、电可擦除程序只读存储器或各类型的存储器或其组合。
用户活动识别器(1006)表示当执行时使处理资源(1002)识别何时用户执行包括在预确定的活动库(1008)中的一个活动的编程指令。所述库(1008)的预确定活动可以包括允许用户留存包含在网页内容内的信息中的至少一些的那些活动。
URL分析器(1010)表示当执行时使处理资源(1002)响应于识别到预确定的用户活动而分析URL中的信息的编程指令。网页分类器(1012)表示当执行时使处理资源(1002)基于URL中的信息确定网页是否是为了进一步处理而清除的类型的编程指令。如果网页为了进一步处理而被清除,URL分析器(1010)从URL提取有意义的信息。内容分析器(1014)表示当执行时使处理资源(1002)从网页内容提取有意义的信息的编程指令。对象映射器(1016)表示当执行时使处理资源(1002)将所提取的数据映射到URL或内容对象的编程指令。
外部知识咨询器(1018)表示当执行时使处理资源(1002)咨询外部资源以理解所提取的信息的含义的编程指令。事实推断器(1020)表示当执行时使处理资源(1002)从所提取的信息和从外部资源提供的信息推断事实的编程指令。事实利用器(1022)表示当执行时使处理资源(1002)以某种方式利用所推断的事实的编程指令,诸如用于对广告进行目标市场选择、定制推荐、填写用户简档、利用信息的其它方式或其组合。
另外,存储器资源(1004)可以是安装包的一部分。响应于安装所述安装包,存储器资源(1004)的编程指令可以从安全包的源下载,所述源诸如是便携式介质、服务器、远程网络位置、另一位置或其组合。与本文所描述的原理兼容的便携式存储器介质包括DVD、CD、闪速存储器、便携式盘、磁盘、光盘、其它形式的便携式存储器或其组合。在其它示例中,已经安装了程序指令。在此,存储器资源可以包括诸如硬盘驱动器、固态硬盘驱动器等之类的集成存储器。
在一些示例中,处理资源(1002)和存储器资源(1004)位于相同的物理组件(诸如服务器或网络组件)内。存储器资源(1004)可以是物理组件的主存储器、高速缓存、寄存器、非易失性存储器的部分或者物理组件的存储器层级中的其它地方。可替换地,存储器资源(1004)可以通过网络与处理资源(1002)通信。另外,可以通过网络连接从远程位置访问诸如库之类的数据结构,而同时编程指令位于本地。因此,推断系统(1000)可以实现在用户设备上、服务器上、服务器的集合上或其组合。
图10的推断系统(1000)可以是通用计算机的部分。然而,在可替换的示例中,推断系统(1000)是专用集成电路的一部分。
图11是根据本文所描述的原理的用于从在线用户活动推断事实的过程的流程图(1100)的示例图。在该示例中,过程包括监视(1102)用户的互联网活动并且确定(1104)是否存在由用户执行的预确定的用户活动。响应于确定用户执行了某种预确定的用户活动,过程包括对其上发生预确定的用户活动的网页分类(1106)以及确定(1108)网站类型是否经常包含敏感信息。响应于确定网页类型经常包含敏感信息或者是不被进一步分析的另一类型,过程返回到监视(1102)用户的互联网活动。
如果网页类型为了进一步处理而被清除,过程包括将有意义的信息从网页的URL提取(1110)到URL对象中以及将有意义的信息从网页的内容提取(1112)到内容对象中。过程还包括确定(1114)是否存在关于所提取的数据的含义的问题。如果所有所提取的数据的含义被理解,过程包括推断(1116)关于用户的事实。如果至少一些数据的含义是不清楚的,过程包括向外部资源发送(1118)关于问题的查询以及从外部资源获取(1120)具有随附的信心得分的回答。这些回答在推断(1116)关于用户的事实时使用。在推断(1116)事实之后,过程包括利用(1122)用户事实。
虽然已经参考特定类型的网页分类描述了以上示例,但是依照本文所描述的原理,可以使用用于确定是否继续网页的分析的任何适当网页分类类型。另外,虽然已经参考特定类型的预确定的活动描述了以上示例,但是依照本文所描述的原理,可以使用任何适当类型的预确定的活动,特别是与仅仅点击网站相比具有揭示关于用户的事实的明显更大可能性的预确定的活动。
另外,虽然已经参考从URL和网页内容二者标识有意义的信息的特定方式描述了以上示例,但是根据本文所描述的原理,可以使用用于标识有意义的信息的任何适当的机制。而且,虽然已经参考特定格式、信息和结构描述了URL和内容对象,但是依照本文所描述的原理,可以使用任何适当的格式、信息或结构。
而且,虽然已经参考获取外部信息以向至少一些所提取的信息给出含义的特定方式描述了以上示例,但是依照本文所描述的原理,可以使用用于获取外部信息的任何适当机制。另外,虽然已经参考推断关于用户的事实的特定类型描述了以上示例,但是可以推断关于用户的任何适当类型的事实。
仅仅为了说明和描述所描述的原理的示例而呈现前述描述。本描述不意图是详尽的或者将这些原理限于所公开的任何确切形式。鉴于以上教导,许多修改和变型是可能的。

Claims (15)

1.一种用于从在线用户活动推断事实的方法,包括:
响应于预确定的用户活动而执行网页的统一资源定位符的分析;
基于所述分析将关于所述网页的数据映射到结构化对象;以及
基于所述所映射的数据推断用户事实。
2.权利要求1的方法,其中预确定的用户活动包括打印来自所述网页的内容,保存来自所述网页的内容,复制来自所述网页的内容,对所述网页加书签,剪辑来自所述网页的内容或其组合。
3.权利要求1的方法,其中所述用户事实包括用户的喜好、用户的动作、用户的状态、用户的位置或其组合。
4.权利要求1的方法,还包括基于所述用户事实显示以用户为目标的广告。
5.权利要求1的方法,还包括基于所述用户事实填写用户简档。
6.权利要求1的方法,还基于所述用户事实显示用户定制的推荐。
7.权利要求1的方法,其中响应于预确定的用户活动而执行所述网页的所述统一资源定位符的所述分析包括基于所述统一资源定位符将所述网页分类到网页类型中。
8.权利要求7的方法,其中基于所述统一资源定位符将所述网页分类到网页类型中包括确定所述网页是否属于从进一步分析排除的分类。
9.权利要求1的方法,其中基于所述分析将数据从所述网页映射到所述结构化对象包括将有意义的信息从所述统一资源定位符和所述网页的内容提取到所述结构化对象。
10.权利要求1的方法,还包括查询关于所述所映射的数据的含义的外部资源。
11.权利要求10的方法,其中查询关于所述所映射的数据的所述含义的外部资源包括从所述外部资源获取具有随附信心得分的回答。
12.一种用于从在线用户活动推断事实的系统,包括:
识别网页上的预确定的用户活动的用户活动确定引擎;
响应于识别到所述预确定的用户活动而分析统一资源定位符的统一资源定位符分析引擎;
响应于所述统一资源定位符分析而分析所述网页的内容的内容分析引擎;以及
基于所述统一资源定位符引擎和内容引擎的结果推断用户事实的事实推断引擎。
13.权利要求12的系统,还包括查询关于所述统一资源定位符和所述内容中的数据的外部资源。
14.一种用于从在线用户活动推断事实的计算机程序产品,包括:
有形计算机可读存储介质,所述有形计算机可读存储介质包括体现在其中的计算机可读程序代码,所述计算机可读程序代码包括程序指令,所述程序指令当被执行时使处理器:
响应于留存用户活动而执行网页的统一资源定位符和所述网页中的内容的分析;
基于所述分析将关于所述网页的数据映射到结构化对象;
基于所述所映射的数据推断用户事实;以及
在用户特定活动中利用所述所推断的事实。
15.权利要求14的计算机程序产品,其中所述用户特定活动包括基于所述用户事实显示以用户为目标的广告,基于所述用户事实填写用户简档,基于所述用户事实显示用户定制的推荐。
CN201380074245.2A 2013-01-03 2013-01-03 从在线用户活动推断事实 Pending CN105027114A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2013/020099 WO2014107150A1 (en) 2013-01-03 2013-01-03 Inferring facts from online user activity

Publications (1)

Publication Number Publication Date
CN105027114A true CN105027114A (zh) 2015-11-04

Family

ID=51062389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380074245.2A Pending CN105027114A (zh) 2013-01-03 2013-01-03 从在线用户活动推断事实

Country Status (3)

Country Link
US (1) US20150339712A1 (zh)
CN (1) CN105027114A (zh)
WO (1) WO2014107150A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919585A (zh) * 2015-12-24 2017-07-04 中移(杭州)信息技术有限公司 根据终端的统一资源定位符确定商品信息的方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150363791A1 (en) * 2014-01-10 2015-12-17 Hybrid Application Security Ltd. Business action based fraud detection system and method
US11270071B2 (en) * 2017-12-28 2022-03-08 Comcast Cable Communications, Llc Language-based content recommendations using closed captions
US11120349B1 (en) * 2018-03-06 2021-09-14 Intuit, Inc. Method and system for smart detection of business hot spots
WO2020085995A1 (en) * 2018-10-26 2020-04-30 Eureka Analytics Pte. Ltd. User affinity labeling from telecommunication network user data

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6338066B1 (en) * 1998-09-25 2002-01-08 International Business Machines Corporation Surfaid predictor: web-based system for predicting surfer behavior
US20020175936A1 (en) * 2001-05-08 2002-11-28 Tenembaum Samuel Sergio Method for gauging user intention to review/replay the contents of a web page
US20040220925A1 (en) * 2001-11-30 2004-11-04 Microsoft Corporation Media agent
CN101431524A (zh) * 2007-11-07 2009-05-13 阿里巴巴集团控股有限公司 一种定向网络广告投放的实现方法及装置
CN101542516A (zh) * 2006-10-05 2009-09-23 谷歌公司 基于位置的、内容定向的信息
US20100169175A1 (en) * 2006-10-30 2010-07-01 Koran Joshua M Optimization of Targeted Advertisements Based on User Profile Information
CN102483835A (zh) * 2009-07-31 2012-05-30 微软公司 从用户数据推断用户特定的位置语义

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6338066B1 (en) * 1998-09-25 2002-01-08 International Business Machines Corporation Surfaid predictor: web-based system for predicting surfer behavior
US20020175936A1 (en) * 2001-05-08 2002-11-28 Tenembaum Samuel Sergio Method for gauging user intention to review/replay the contents of a web page
US20040220925A1 (en) * 2001-11-30 2004-11-04 Microsoft Corporation Media agent
CN101542516A (zh) * 2006-10-05 2009-09-23 谷歌公司 基于位置的、内容定向的信息
US20100169175A1 (en) * 2006-10-30 2010-07-01 Koran Joshua M Optimization of Targeted Advertisements Based on User Profile Information
CN101431524A (zh) * 2007-11-07 2009-05-13 阿里巴巴集团控股有限公司 一种定向网络广告投放的实现方法及装置
CN102483835A (zh) * 2009-07-31 2012-05-30 微软公司 从用户数据推断用户特定的位置语义

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919585A (zh) * 2015-12-24 2017-07-04 中移(杭州)信息技术有限公司 根据终端的统一资源定位符确定商品信息的方法及装置

Also Published As

Publication number Publication date
US20150339712A1 (en) 2015-11-26
WO2014107150A1 (en) 2014-07-10

Similar Documents

Publication Publication Date Title
Arbia Spatial econometrics
Njelesani et al. Articulating an occupational perspective
Chen et al. Using social media images as data in social science research
Hu et al. A semantic and sentiment analysis on online neighborhood reviews for understanding the perceptions of people toward their living environments
Gillingham et al. Big data in social welfare: The development of a critical perspective on social work's latest “electronic turn”
US20230252094A1 (en) Computer-implemented system and method for updating user interest profiles
Sloan et al. Who tweets? Deriving the demographic characteristics of age, occupation and social class from Twitter user meta-data
Zhou et al. Crowdsourcing functions of the living city from Twitter and Foursquare data
Koltsova et al. Mapping the public agenda with topic modeling: The case of the Russian livejournal
He Improving user experience with case-based reasoning systems using text mining and Web 2.0
Hahmann et al. Twitter location (sometimes) matters: Exploring the relationship between georeferenced tweet content and nearby feature classes
US11675824B2 (en) Method and system for entity extraction and disambiguation
US20170097984A1 (en) Method and system for generating a knowledge representation
KR20160040633A (ko) 컨텍스트 단서를 이미지와 상관시켜 이미지를 분류하기 위한 시스템 및 방법
Khazaei Pool et al. The impact of congruence between self-concept and destination personality on behavioural intentions for visiting an Islamic-historical destination
Ramelli et al. Being prepared for acculturation: On the importance of the first months after immigrants enter a new culture
KR101462348B1 (ko) 모바일 메신저에 적용 가능한 태그를 이용한 재능 교환 및 공통 관심 사용자 매칭 시스템 및 그 방법
JP2014137757A (ja) 情報処理システム、情報処理装置、情報処理方法及びプログラム
US20110219299A1 (en) Method and system of providing completion suggestion to a partial linguistic element
Chamberlain Groupsourcing: Distributed problem solving using social networks
CN105027114A (zh) 从在线用户活动推断事实
Setlur et al. Automatic generation of semantic icon encodings for visualizations
Wang et al. Problems and solutions for American political coverage: Journalistic self-critique in the wake of the 2016 presidential election
Roshchina et al. User profile construction in the twin personality-based recommender system
Park et al. What Motivates Chinese Sports Fans to Subscribe to Athletes' Social Networking Service Accounts?

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151104