CN105022775A - 用于构建网页访问历史的设备和方法 - Google Patents

用于构建网页访问历史的设备和方法 Download PDF

Info

Publication number
CN105022775A
CN105022775A CN201510187758.5A CN201510187758A CN105022775A CN 105022775 A CN105022775 A CN 105022775A CN 201510187758 A CN201510187758 A CN 201510187758A CN 105022775 A CN105022775 A CN 105022775A
Authority
CN
China
Prior art keywords
theme
webpage
synoptic diagram
equipment
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510187758.5A
Other languages
English (en)
Inventor
洪锡珒
禹景久
卢尧韩
柳尚贤
李知炫
李昊潼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN105022775A publication Critical patent/CN105022775A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

提供一种用于构建网页访问历史的设备和方法。所述用于构建网页访问历史的设备包括:主题提取器,被配置为分析用户访问的网页以提取与网页相关的至少一个主题;映射器,被配置为将提取的所述至少一个主题映射到基于本体的数据结构的节点;概要图生成器,被配置为从所述数据结构中提取包括被映射的节点的子图,并基于提取的子图生成概要图。

Description

用于构建网页访问历史的设备和方法
本申请要求于2014年4月30日提交到韩国知识产权局的第10-2014-0052838号韩国专利申请的权益,针对所有目的,该韩国专利申请的全部公开通过引用合并于此。
技术领域
以下描述涉及一种允许用户基于访问历史来访问网页的设备和方法以及一种用于构建网页访问历史的设备和方法。
背景技术
随着便携式智能装置的广泛使用,现在人们能够使用他们的智能装置在任何地点容易地搜索任何所需求的信息。
许多便携式智能装置的用户通过安装在便携式智能装置中的网页浏览器,通过互联网搜索所需求的包括各种类型的信息的网页。当用户搜索网页时,在用户的头脑中记忆网页中包括的信息;然而,在用户通过太多网页进行搜索的情况下,或者在从用户浏览网页起经过很长时间的情况下,由于人脑的记忆局限,用户可能已经忘记已获得的信息或之前搜索过的网页。
因此,当用户已经在互联网上发现所需求的信息时,用户可记录必要的细节或检索网页的浏览历史等,以恢复之前获得的关于访问所需求的网页的知识或信息。然而,这样的方法需要花费精力来组织信息,或需要花费精力来从无组织的记录中恢复必要信息,因而是不方便的。
发明内容
提供此发明内容来以简明的形式介绍在下面的具体实施方式中进一步描述的选择的构思。此发明内容既不意图识别要求保护的主题的关键特征或必要特征,也不意图用来帮助确定要求保护的主题的范围。
在一个总体方面,一种用于构建网页访问历史的设备包括:主题提取器,被配置为分析用户访问的网页以提取与网页相关的至少一个主题;映射器,被配置为将提取的所述至少一个主题映射到基于本体的数据结构的节点;概要图生成器,被配置为从所述数据结构中提取包括被映射的节点的子图,并基于提取的子图生成概要图。
主题提取器可被配置为通过使用以下项中的至少一个来从网页中提取所述至少一个主题:主题词方法模型、词汇链方法模型、潜在语义分析(LSA)模型、概率潜在语义分析(PLSA)模型、完全成熟贝叶斯主题模型。
基于本体的数据结构可基于在所述设备外部预先生成的本体模型。
概要图生成器可被配置为通过将用于访问从中提取每个主题的网页的信息存储在每个主题被映射到的子图的每个节点中来生成概要图。
用于访问网页的信息可包括以下项中的至少一个:统一资源定位符(URL)、统一资源名称(URN)和超链接到URL或URN的网页的缩略图。
所述设备的总体方面还可包括:会话管理器,被配置为管理会话中的至少一个网页,以使概要图能够在会话中被生成。
所述设备的总体方面还可包括:访问历史采集器,被配置为采集用户访问的网页的访问历史。
所述设备的总体方面还可包括:概要图整合器,被配置为将多个概要图进行整合以生成整合的概要图。
在另一总体方面,一种构建网页访问历史的方法包括:分析用户访问的网页以从网页中提取至少一个主题;将提取的所述至少一个主题映射到基于本体的数据结构的节点;从数据结构中提取包括所述节点的子图;基于提取的子图生成概要图。
从网页中提取至少一个主题的步骤可包括:通过使用以下项中的至少一个来从网页中提取所述至少一个主题:主题词方法模型、词汇链方法模型、潜在语义分析(LSA)模型、概率潜在语义分析(PLSA)模型、完全成熟贝叶斯主题模型。
生成概要图的步骤可包括:通过将用于访问网页的信息存储在子图的节点中来生成概要图。
用于访问网页的信息可包括以下项中的至少一个:统一资源定位符(URL)、统一资源名称(URN)、超链接到URL或URN的网页的缩略图。
所述方法的总体方面还可包括:在从网页中提取所述至少一个主题之前,采集网页的访问历史。
所述方法的总体方面还可包括:在生成概要图之后,将生成的概要图与其它概要图进行整合。
在另一总体方面,一种用于构建网页访问历史的设备包括:主题提取器,被配置为从用户访问的至少一个网页中提取至少一个主题;语义关系分析器,被配置为分析提取的所述至少一个主题与提取的其它主题之间的语义关系;概要图生成器,被配置为基于语义关系生成概要图。
主题提取器可被配置为通过使用以下项中的至少一个来从每个网页中提取所述至少一个主题:主题词方法模型、词汇链方法模型、潜在语义分析(LSA)模型、概率潜在语义分析(PLSA)模型、完全成熟贝叶斯主题模型。
语义关系分析器可被配置为基于预先建立的本体模型分析主题之间的语义关系。
概要图生成器可被配置为:通过基于分析的主题之间的语义关系将每个主题与节点进行匹配,并通过将主题之间的语义关系与连接相应于每个主题的节点的边进行匹配,来生成语义关系图;通过将用于访问从中提取每个主题的网页的信息存储在语义关系图的与每个主题相应的节点中来生成概要图。
用于访问网页的信息可包括以下项中的至少一个:统一资源定位符(URL)、统一资源名称(URN)、超链接到URL或URN的网页的缩略图。
所述设备的总体方面还可包括:会话管理器,被配置为管理会话中的至少一个网页,以使概要图能够在会话中被生成。
所述设备的总体方面还可包括:访问历史采集器,被配置为采集用户访问的网页的访问历史。
所述设备的总体方面还可包括:概要图整合器,被配置为将多个概要图进行整合以生成整合的概要图。
在另一总体方面,一种用于网页访问的设备包括:主题提取器,被配置为从通过浏览器访问的网页中提取主题;映射器,被配置为将所述主题映射到基于本体的数据结构;数据结构更新处理器,被配置为利用用于访问网页的信息更新所述数据结构。
数据结构更新处理器可包括:概要图生成器,被配置为基于包括被映射到所述数据结构的主题的所述数据结构的部分,生成存储有用于访问网页的信息的概要图,其中,所述数据结构可存储在存储器中。
所述设备的总体方面还可包括:访问历史检索处理器,被配置为在显示屏上提供用于检索网页访问历史的用户界面。
访问历史检索处理器可被配置为允许用户选择时间段,并允许用户基于与网页相关的一个或更多个主题选择网页。
从以下具体实施方式、附图和权利要求中,其它特征和方面将是清楚的。
附图说明
图1是示出用于构建网页访问历史的设备的示例的框图。
图2A是示出从用户访问的网站提取主题的方法的示例的框图。
图2B是示出将提取的主题映射到数据结构的节点的方法的示例的框图。
图2C是示出从数据结构中提取子图并生成概要图的方法的示例的框图。
图3是示出显示概要图的用户界面屏幕的示例的框图。
图4是示出用于构建网页访问历史的设备的另一示例的框图。
图5是示出用于构建网页访问历史的设备的另一示例的框图。
图6是示出用于构建网页访问历史的设备的另一示例的框图。
图7是示出用于构建网页访问历史的方法的示例的流程图。
图8是示出用于构建网页访问历史的方法的另一示例的流程图。
图9是示出用于构建网页访问历史的设备的另一示例的框图。
贯穿附图和具体实施方式,除非另外描述或提供,否则相同的附图参考标号将被理解为指示相同的元件、特征和结构。为了清楚、说明和方便,附图可不按照比例绘制,并且附图中的元件的相对尺寸、比例和描绘可被夸大。
具体实施方式
提供以下具体实施方式以帮助读者全面理解在此描述的方法、设备和/或系统。然而,在此描述的系统、设备和/或方法的各种变形、修改和等同物对本领域普通技术人员来说将是显而易见的。所描述的处理步骤和/或操作的进程为示例;然而,除非步骤和/或操作需要按照特定顺序发生,否则步骤和/或操作的顺序不限于在此阐述的顺序,且顺序可按照本领域公知的那样变化。此外,为了更加清楚和简明,可省略对本领域普通技术人员来说公知的功能和结构的描述。
在此描述的特征可以以不同的形式被实施,而不解释为受限于在此描述的示例。相反,提供在此描述的示例将使本公开彻底和完整,并将本公开的完整范围传达给本领域普通技术人员。
本体是用于概念化感兴趣的特定领域的明确且规范的说明。本体使用特性或关系定义特定元素,并存储关于所述元素的知识。例如,在“男人是人”的知识中,“男人”和“人”是普通概念,并被称为类,“男人”的类包括在“人”的类中。因此,可利用指示更宽的类和更窄的类之间的层次的关系来描述这两个类。这样的关系特性可被描述成“是A”,并且这样的包含关系可被形成为具有若干层次。
存在各种形式的特性。例如,在“运动使人健康”的知识中,在“运动”和“健康”之间存在原因和效果的关系,这样的关系通常被称为“原因”。在另一示例中,如果特定概念具有特定特性,如在“夏天热”的例子中,“夏天”和“热”通过“具有特性”的关系特性被联系起来。这样的关系特性不是预定的,用户可根据本体模型的目的来定义特性。
本体可被应用于基于本体模型来构建数据结构。例如,数据结构可具有有向图结构,并且可包括多个节点和多个边,其中,节点可与类相应,边可与类之间的关系特性相应。
此外,网页指示互联网上的文档,并且在本公开中,可使用指示相同含义的网页和页面两者。
图1是示出用于构建网页访问历史的设备的示例的框图。
在此示例中,用于构建网页访问历史的设备100被配置为基于语义总结并构建用户访问的网页。设备100可被实施为固定终端或移动终端。然而,用于构建网页访问历史的设备100不限于此,并且可被实施为安装在固定终端或移动终端中的单独的设备。
固定终端可包括数字电视(TV)、智能TV、台式电脑等,移动终端可包括移动电话、智能电话、平板PC、膝上型电脑、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航仪等。
参照图1,用于构建网页访问历史的设备100包括:主题提取器110、映射器120和概要图生成器130。主题提取器110、映射器120和概要图生成器130可被实施为一个或更多个处理器。
主题提取器110可分析用户通过网页浏览器访问的网页,以从每个网页中提取至少一个主题。
例如,主题提取器110可依照句法分析包括在网页中的文本数据,并将名词提取为主题。
在另一示例中,主题提取器110可将频繁出现的单词提取为主题。
为此,主题提取器110可使用主题词方法模型、词汇链方法模型、潜在语义分析(LSA)模型、概率潜在语义分析(PLSA)模型、完全成熟贝叶斯主题模型等;然而,提取方法不限于此,可使用各种主题提取算法。
映射器120可将由主题提取器110提取的主题映射到基于具有概念的层次结构的本体模型的数据结构的节点。数据结构可存储在非暂时性计算机存储器中。
例如,如果主题提取器110在网页1中将“露营装备”提取为主题,并在网页2中将“露营装备”、“睡袋”和“帐篷”提取为主题,则映射器120将“露营装备”主题映射到相应于“露营装备”类的本体节点,将“睡袋”主题映射到相应于“睡袋”类的本体节点,将“帐篷”主题映射到相应于“帐篷”类的本体节点。
基于本体的数据结构可被预先设置于用于构建网页访问历史的设备100的外部服务器中,或可被设置于用于构建网页访问历史的设备100中。数据结构可基于在用于构建网页访问历史的设备100的外部生成的本体模型。
概要图生成器130可从基于本体模型的数据结构中提取包括每个主题被映射到的节点的子图,并可基于提取的子图生成概要图。
如上所述,基于本体的数据结构具有有向图结构并且包括多个节点,从而概要图生成器130可从所述数据结构中提取包括每个主题被映射到的节点的子图。
此外,概要图生成器130可将用于访问从中提取每个主题的网页的信息存储在子图的每个节点中以生成概要图。
例如,在上述网页1的主题为“露营装备”,并且网页2的主题为“露营装备”、“睡袋”和“帐篷”的情况下,概要图生成器130从基于本体的数据结构中提取包括“露营装备”主题被映射到的节点(以下称为露营装备节点)、“睡袋”主题被映射到的节点(以下称为睡袋节点)和“帐篷”主题被映射到的节点(以下称为帐篷节点)的子图。之后,概要图生成器130通过将用于访问从中提取“露营装备”主题的网页1和网页2的信息存储在子图的露营装备节点中,通过将用于访问从中提取“睡袋”主题的网页2的信息存储在子图的睡袋节点中,并通过将用于访问从中提取“帐篷”主题的网页2的信息存储在子图的帐篷节点中,来生成概要图。
用于访问网页的信息可包括(但不限于):统一资源定位符(URL)、统一资源名称(URN)、超链接到URL、URN的网页的缩略图等。
图2A至图2C是用于说明构建网页访问历史的方法的示例的示图。例如,图2A是示出从用户访问的网站提取主题的方法的示例的框图。图2B是示出将提取的主题映射到基于本体模型的数据结构的节点的方法的示例的框图。图2C是示出从基于本体模型的数据结构中提取子图并生成概要图的方法的示例的框图。
参照图2A,响应于用户通过网页浏览器顺序地访问六个网页211至216,主题提取器110分析被访问的网页211至216以从每个网页中提取主题220。
如图2A所示,主题提取器110分析网页1(211)以提取主题1,分析网页2(212)以提取主题1、主题2和主题3,分析网页3(213)以提取主题4,分析网页4(214)以提取主题5、主题6、主题7和主题8,分析网页5(215)以提取主题5和主题6,分析网页6(216)以提取主题6。
如上所述,主题提取器110可通过使用主题词方法模型、词汇链方法模型、潜在语义分析(LSA)模型、概率潜在语义分析(PLSA)模型、完全成熟贝叶斯主题模型等来提取主题;然而,提取方法不限于此。在不同的示例中,可使用各种主题提取算法来从每个页面中提取主题。
参照图2B,映射器120将由主题提取器110提取的主题220映射到与每个主题相应的基于本体模型的数据结构230中。数据结构230可存储在非暂时性计算机存储器中。
数据结构230具有有向图结构,并包括与类之间关系的特性相应的边和与类相应的节点。数据结构230可被设置于用于构建网页访问历史的设备100的外部或内部。
参照图2C,概要图生成器130从数据结构230中提取包括主题被映射到的节点的子图240,并将用于访问从中提取每个主题的网页的信息存储在子图的每个节点中,以生成概要图250。
如图2A至图2C所示,概要图生成器130从数据结构230中提取包括以下节点的子图240:主题1被映射到的节点241、主题2被映射到的节点242、主题3被映射到的节点243、主题4被映射到的节点244、主题5被映射到的节点245、主题6被映射到的节点246、主题7被映射到的节点247和主题8被映射到的节点248。与数据结构230相似,子图240可包括每个主题被映射到的节点和表示主题之间的关系的边。
此外,概要图生成器130通过以下操作来生成概要图250:将用于访问从中提取主题1的网页1(211)和网页2(212)的信息存储在主题1被映射到的节点241中,将用于访问从中提取主题2的网页2(212)的信息存储在主题2被映射到的节点242中,将用于访问从中提取主题3的网页2(212)的信息存储在主题3被映射到的节点243中,将用于访问从中提取主题4的网页3(213)的信息存储在主题4被映射到的节点244中,将用于访问从中提取主题5的网页4(214)和网页5(215)的信息存储在主题5被映射到的节点245中,将用于访问从中提取主题6的网页4(214)、网页5(215)和网页6(216)的信息存储在主题6被映射到的节点246中,将用于访问从中提取主题7的网页4(214)的信息存储在主题7被映射到的节点247中,将用于访问从中提取主题8的网页4(214)的信息存储在主题8被映射到的节点248中。
用于访问网页的信息可包括(但不限于):统一资源定位符(URL)、统一资源名称(URN)、超链接到URL或URN的网页的缩略图等。
图3是示出显示概要图的用户界面屏幕的示例的框图。
参照图3,用户界面屏幕300包括显示概要图的区域310、显示存储在用户选择的节点中的信息的区域320。此外,在区域310中,显示用于设置将被检索的网页访问历史的时间段的用户界面311。
在此示例中,如果检索的时间段设置为从2014年4月18日至2014年4月24日,则用于构建网页访问历史的设备100使用在用户设置的时间段期间的网站访问历史实时生成概要图,并在区域310中显示生成的概要图,或者在区域310中显示基于在用户设置的检索时间段期间的网站访问历史生成后被存储的概要图。
随后,一旦用户在显示在区域310中的概要图中选择相应于主题6的节点312,则显示存储在节点312中的信息,即,超链接到多个网页(网页4、网页5、网页6)的每个页面的缩略图321至323,其中,所述信息包括在时间段2014年4月18日至2014年4月24日期间用户访问的网页中关于主题6的信息。
一旦用户从缩略图321至323中选择网页4的缩略图321,则网页4被显示在用户界面屏幕300的区域320中。
图4是示出用于构建网页访问历史的设备的另一示例的框图。
参照图4,根据另一示例的用于构建网页访问历史的设备400,除了用于构建网页访问历史的设备100之外,还可选择性地包括:会话管理器410、访问历史采集器420和概要图整合器430。会话管理器410、访问历史采集器420和概要图整合器430可被实施为一个或更多个处理器。
会话管理器410可管理用户在会话中通过网页浏览器检索的大量的网页,从而可在会话中生成概要图。会话是指用户通过网页浏览器执行的一系列的检索任务。
访问历史采集器420可采集用户通过网页浏览器访问的网页的历史。
概要图整合器430可将多个概要图进行整合。
用于构建网页访问历史的设备400基于数据结构来总结网页访问历史,其中,所述数据结构是基于基本上具有概念的层次结构的本体模型的数据结构。因此,对于已检索出低级概念的主题,数据结构的低级节点大体上包括在概要图中,但是对于未检索出低级概念的主题,低级节点不包括在概要图中。
因此,在此实施例中,用于构建网页访问历史的设备400可使用概要图来提供指示尚未被大量检索的节点的附加检索的提示的信息。例如,用于构建网页访问历史的设备400可被用于预先检索关于尚未被大量检索的节点的信息,或采集其他用户检索的关于所述节点的信息。为此,概要图整合器430可采集多个概要图以生成整合的概要图。
图5是示出用于构建网页访问历史的设备的另一示例的框图。
参照图5,用于构建网页访问历史的设备500包括:主题提取器510、语义关系分析器520和概要图生成器530。
主题提取器510可分析用户通过网页浏览器访问的网页,以从每个网页中提取至少一个主题。
例如,主题提取器510依照句法分析包括在网页中的文本数据,以将名词提取为主题。
在另一示例中,主题提取器510可将在网页中频繁出现的单词提取为主题。
为此,主题提取器510可使用主题词方法模型、词汇链方法模型、潜在语义分析(LSA)模型、概率潜在语义分析(PLSA)模型、完全成熟贝叶斯主题模型等;然而,提取方法不限于此,在其它示例中,可使用各种主题提取算法来从文档中提取主题。
语义关系分析器520可根据基于本体的数据结构分析由主题提取器510提取的主题之间的语义关系。数据结构可被预先设置于用于构建网页访问历史的设备500的外部服务器中,或可被预先设置于用于构建网页访问历史的设备500中。
在基于本体的数据结构被预先设置于用于构建网页访问历史的设备500的外部服务器中的示例中,语义关系分析器520可通过包括用于构建网页访问历史的设备500的终端的通信模块与外部服务器进行通信。即,语义关系分析器520可通过终端的通信模块请求外部服务器来分析主题之间的语义关系,并可从外部服务器接收主题之间的语义关系的分析结果。在这种情况下,当接收到用于分析主题之间的语义关系的请求时,外部服务器基于预先建立的基于本体的数据结构分析主题之间的语义关系,并通过终端的通信模块将分析结果发送到语义关系分析器520。
在此实施例中,用于构建网页访问历史的设备还可包括用于与外部服务器进行通信的通信器(未示出)。在这种情况下,语义关系分析器520通过用于构建网页访问历史的设备的通信器与外部服务器进行通信。
概要图生成器530可基于语义关系分析器520的分析结果生成概要图。
概要图生成器530可通过基于由语义关系分析器520分析的主题之间的语义关系将每个主题与节点进行匹配,并通过将主题之间的语义关系与连接相应于每个主题的节点的边进行匹配来生成语义关系图。
概要图生成器530可通过将用于访问从中提取节点的每个主题的网页的信息存储在语义关系图的每个节点中来生成概要图,从而使从中提取每个主题的网页可被访问。
用于访问网页的信息可包括(但不限于):统一资源定位符(URL)、统一资源名称(URN)、超链接到URL或URN的网页的缩略图等。
图6是示出用于构建网页访问历史的设备的另一示例的框图。
参照图6,根据另一实施例的用于构建网页访问历史的设备600,除了用于构建网页访问历史的设备500之外,还可选择性地包括:会话管理器610、访问历史采集器620和概要图整合器630。会话管理器610、访问历史采集器620和概要图整合器630可被实施为一个或更多个处理器。
会话管理器610可管理用户在会话中通过网页浏览器检索的大量的网页,从而可在会话中生成概要图。会话是指用户通过网页浏览器执行的一系列的检索任务。
访问历史采集器620可采集用户通过网页浏览器访问的网页的历史。
概要图整合器630可将多个概要图进行整合。
图7是示出用于构建网页访问历史的方法的示例的流程图。
参照图7,根据实施例的用于构建网页访问历史的方法700在710分析用户访问的网页以从每个页面中提取至少一个主题。例如,主题提取器110依照句法分析包括在网页中的文本数据,以将名词提取为主题。在另一示例中,主题提取器110可将在网页中频繁出现的单词提取为主题。为此,主题提取器110可使用主题词方法模型、词汇链方法模型、潜在语义分析(LSA)模型、概率潜在语义分析(PLSA)模型、完全成熟贝叶斯主题模型等,然而,提取方法不限于此,可使用各种主题提取算法来从文档中提取主题。
随后,在720,将提取的主题映射到基于具有概念的层次结构的本体模型的数据结构的节点。例如,映射器120可将由主题提取器110提取的每个主题映射到基于具有概念的层次结构的本体模型的数据结构的节点。
接下来,在730,从数据结构中提取包括每个主题被映射到的节点的子图。例如,概要图生成器130可从基于本体模型的数据结构中提取仅包括每个主题被映射到的节点的子图。
之后,在740,基于提取的子图生成概要图。例如,概要图生成器130可通过将用于访问从中提取每个主题的网页的信息存储在子图的各个节点中来生成概要图。
用于访问网页的信息可包括(但不限于):统一资源定位符(URL)、统一资源名称(URN)、超链接到URL或URN的网页的缩略图等。
可在会话中生成概要图。会话是指用户通过网页浏览器执行的一系列的检索任务。
根据另一实施例,用于构建网页访问历史的方法700还可包括:在705,采集用户通过网页浏览器访问的网页的历史。
根据另一实施例,用于构建网页访问历史的方法700还可包括:在745,将生成的概要图与其它概要图进行整合。
图8是示出用于构建网页访问历史的方法的另一示例的流程图。
参照图8,根据另一实施例的用于构建网页访问历史的方法800包括:在805,采集用户通过网页浏览器访问的网页的网页访问历史,在810,分析用户访问的网页以从每个页面提取至少一个主题。例如,主题提取器510依照句法分析包括在网页中的文本数据,以将名词提取为主题。在另一示例中,主题提取器510可将在网页中频繁出现的单词提取为主题。为此,主题提取器510可使用主题词方法模型、词汇链方法模型、潜在语义分析(LSA)模型、概率潜在语义分析(PLSA)模型、完全成熟贝叶斯主题模型等;然而,提取方法不限于此,在其它示例中,可使用各种主题提取算法来从文档中提取主题。
随后,在820,可基于具有概念的层次结构的本体模型分析提取的主题之间的语义关系。例如,语义关系分析器520可基于本体模型来分析主题之间的语义关系,其中,所述本体模型可被预先设置于用于构建网页访问历史的设备500的内部,或被预先设置于用于构建网页访问历史的设备500的外部服务器中。
接下来,在830,基于分析的语义关系生成语义关系图。例如,基于语义关系分析器520的分析结果,概要图生成器530可通过将每个主题与节点进行匹配,并通过将主题之间的语义关系与连接相应于每个主题的节点的边进行匹配来生成语义关系图。
之后,在840,基于生成的语义关系图生成概要图。例如,概要图生成器530可通过将用于访问从中提取每个主题的网页的信息存储在语义关系图的每个节点中来生成概要图,从而使从中提取每个主题的网页可被访问。
用于访问网页的信息可包括(但不限于):统一资源定位符(URL)、统一资源名称(URN)、超链接到URL或URN的网页的缩略图等。
根据另一实施例,用于构建网页访问历史的方法800还可包括:在845,将生成的概要图与其他概要图进行整合。
图9是示出用于构建网页访问历史的设备的另一示例的框图。
参照图9,用于构建网页访问历史的设备900可被实施为这样的设备:所述设备为用户提供网页访问历史以使用户可使用所述网页访问历史访问网页。设备900可以是终端。例如,设备900可以是移动终端(诸如,智能电话、便携式电脑、平板PC、膝上型电脑、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航仪等)或固定终端(诸如,数字TV、智能TV、台式电脑等)。
参照图9,设备900包括处理器,并且处理器包括:主题提取器910、映射器920、数据结构更新处理器930和访问历史检索处理器940。设备900还包括输入/输出装置960和存储器950。输入/输出装置960允许用户与设备900进行通信。这样的输入/输出装置960的示例包括:显示屏、触摸屏、键盘、麦克风等;然而,输入/输出装置不限于此。输入/输出装置960可显示网页浏览器或用户可通过其浏览网页的其它用户界面。
主题提取器910可分析用户访问的网页以从每个网页中提取至少一个主题。例如,主题提取器910可依照句法分析包括在网页中的文本数据,并将名词提取为主题。在另一示例中,主题提取器910可将频繁出现的单词提取为主题。
映射器920可将由主题提取器910提取的主题映射到基于具有概念的层次结构的本体模型的数据结构。数据结构可存储在计算机存储器950中。
数据结构更新处理器930还可更新数据结构。例如,数据结构更新处理器930可包括概要图生成器,概要图生成器通过将用于访问网页的信息存储在子图的节点中来基于数据结构的子图生成概要图。概要图整合器可将多个概要图进行整合从而更新数据结构。尽管图9中示出存储器950,但是应该理解的是,该存储器可包括多个单独的存储器。
访问历史检索处理器940可为用户提供用于检索网页访问历史的用户界面。参照图3描述了这样的用户界面的示例。参照图1至图8所示的示例而提供的描述适用于图9所示的用于构建网页访问历史的设备900。
以上描述的方法和/或操作可被记录、存储或固定在一个或更多个包括程序指令的计算机可读存储介质中,其中计算机实施所述程序指令以使处理器运行或执行所述程序指令。所述介质还可包括单独的或与程序指令结合的数据文件、数据结构等。计算机可读存储介质的示例包括:磁介质(诸如,硬盘、软盘和磁带)、光介质(诸如,CD ROM盘和DVD)、磁光介质(诸如,光盘)、专门配置以存储并执行程序指令的硬件装置(诸如,只读存储器(ROM)、随机存取存储器(RAM)、闪存)等。程序指令的示例包括诸如由编译器生成的机器代码和包含可由计算机使用解释器执行的高级代码的文件。所描述的硬件装置可被配置为用作一个或更多个软件模块以执行上述操作和方法,反之亦然。此外,计算机可读存储介质可被分布在通过网络连接的计算机系统中,并且计算机可读代码或程序指令可以以分散方式被存储和执行。
以上已经描述了多个示例。然而,应该理解,可进行各种修改。例如,如果所描述的技术以不同的顺序被执行和/或如果在所描述的系统、构架、装置或电路中的组件以不同的方式进行组合和/或由其它组件或它们的等同物替换或补充,则可获得恰当的结果。因此,其它的实施方式落入权利要求的范围内。

Claims (26)

1.一种用于构建网页访问历史的设备,所述设备包括:
主题提取器,被配置为分析用户访问的网页以提取与网页相关的至少一个主题;
映射器,被配置为将提取的所述至少一个主题映射到基于本体的数据结构的节点;
概要图生成器,被配置为从所述数据结构中提取包括被映射的节点的子图,并基于提取的子图生成概要图。
2.如权利要求1所述的设备,其中,主题提取器被配置为通过使用以下项中的至少一个来从网页中提取所述至少一个主题:主题词方法模型、词汇链方法模型、潜在语义分析(LSA)模型、概率潜在语义分析(PLSA)模型、完全成熟贝叶斯主题模型。
3.如权利要求1所述的设备,其中,基于本体的数据结构基于在所述设备外部预先生成的本体模型。
4.如权利要求1所述的设备,其中,概要图生成器被配置为通过将用于访问从中提取每个主题的网页的信息存储在每个主题被映射到的子图的每个节点中来生成概要图。
5.如权利要求4所述的设备,其中,用于访问网页的信息包括以下项中的至少一个:统一资源定位符(URL)、统一资源名称(URN)、超链接到统一资源定位符或统一资源名称的网页的缩略图。
6.如权利要求1所述的设备,还包括:会话管理器,被配置为管理会话中的至少一个网页,以使概要图能够在会话中被生成。
7.如权利要求1所述的设备,还包括:访问历史采集器,被配置为采集用户访问的网页的访问历史。
8.如权利要求1所述的设备,还包括:概要图整合器,被配置为将多个概要图进行整合以生成整合的概要图。
9.一种构建网页访问历史的方法,所述方法包括:
分析用户访问的网页以从网页中提取至少一个主题;
将提取的所述至少一个主题映射到基于本体的数据结构的节点;
从所述数据结构中提取包括节点的子图;
基于提取的子图生成概要图。
10.如权利要求9所述的方法,其中,从网页中提取至少一个主题的步骤包括:通过使用以下项中的至少一个来从网页中提取所述至少一个主题:主题词方法模型、词汇链方法模型、潜在语义分析(LSA)模型、概率潜在语义分析(PLSA)模型、完全成熟贝叶斯主题模型。
11.如权利要求9所述的方法,其中,生成概要图的步骤包括:通过将用于访问网页的信息存储在子图的节点中来生成概要图。
12.如权利要求11所述的方法,其中,用于访问网页的信息包括以下项中的至少一个:统一资源定位符(URL)、统一资源名称(URN)、超链接到统一资源定位符或统一资源名称的网页的缩略图。
13.如权利要求9所述的方法,还包括:在从网页中提取所述至少一个主题之前,采集网页的访问历史。
14.如权利要求9所述的方法,还包括:在生成概要图之后,将生成的概要图与其它概要图进行整合。
15.一种用于构建网页访问历史的设备,所述设备包括:
主题提取器,被配置为从用户访问的至少一个网页中提取至少一个主题;
语义关系分析器,被配置为分析提取的所述至少一个主题与提取的其它主题之间的语义关系;
概要图生成器,被配置为基于语义关系生成概要图。
16.如权利要求15所述的设备,其中,主题提取器被配置为通过使用以下项中的至少一个来从每个网页中提取所述至少一个主题:主题词方法模型、词汇链方法模型、潜在语义分析(LSA)模型、概率潜在语义分析(PLSA)模型、完全成熟贝叶斯主题模型。
17.如权利要求15所述的设备,其中,语义关系分析器被配置为基于预先建立的本体模型分析主题之间的语义关系。
18.如权利要求15所述的设备,其中,概要图生成器被配置为:
通过基于分析的主题之间的语义关系将每个主题与节点进行匹配,并通过将主题之间的语义关系与连接相应于每个主题的节点的边进行匹配,来生成语义关系图;
通过将用于访问从中提取每个主题的网页的信息存储在语义关系图的与每个主题相应的节点中来生成概要图。
19.如权利要求18所述的设备,其中,用于访问网页的信息包括以下项中的至少一个:统一资源定位符(URL)、统一资源名称(URN)、超链接到统一资源定位符或统一资源名称的网页的缩略图。
20.如权利要求15所述的设备,还包括:会话管理器,被配置为管理会话中的至少一个网页,以使概要图能够在会话中被生成。
21.如权利要求15所述的设备,还包括:访问历史采集器,被配置为采集用户访问的网页的访问历史。
22.如权利要求15所述的设备,还包括:概要图整合器,被配置为将多个概要图进行整合以生成整合的概要图。
23.一种用于网页访问的设备,所述设备包括:
主题提取器,被配置为从通过浏览器访问的网页中提取主题;
映射器,被配置为将所述主题映射到基于本体的数据结构;
数据结构更新处理器,被配置为利用用于访问网页的信息更新所述数据结构。
24.如权利要求23所述的设备,其中,数据结构更新处理器包括:概要图生成器,被配置为基于包括被映射到所述数据结构的主题的所述数据结构的部分,生成存储用于访问网页的信息的概要图,其中,所述数据结构存储在存储器中。
25.如权利要求24所述的设备,其中,所述设备还包括:访问历史检索处理器,被配置为在显示屏上提供用于检索网页访问历史的用户界面。
26.如权利要求25所述的设备,其中,访问历史检索处理器被配置为允许用户选择时间段,并允许用户基于与网页相关的一个或更多个主题选择网页。
CN201510187758.5A 2014-04-30 2015-04-20 用于构建网页访问历史的设备和方法 Pending CN105022775A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2014-0052838 2014-04-30
KR1020140052838A KR102244298B1 (ko) 2014-04-30 2014-04-30 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법

Publications (1)

Publication Number Publication Date
CN105022775A true CN105022775A (zh) 2015-11-04

Family

ID=53040382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510187758.5A Pending CN105022775A (zh) 2014-04-30 2015-04-20 用于构建网页访问历史的设备和方法

Country Status (5)

Country Link
US (1) US10521474B2 (zh)
EP (1) EP2940604A1 (zh)
JP (1) JP6611458B2 (zh)
KR (1) KR102244298B1 (zh)
CN (1) CN105022775A (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160070446A1 (en) 2014-09-04 2016-03-10 Home Box Office, Inc. Data-driven navigation and navigation routing
US10552008B2 (en) * 2015-06-24 2020-02-04 International Business Machines Corporation Managing a domain specific ontology collection
TWI537751B (zh) * 2015-08-12 2016-06-11 國立雲林科技大學 非揮發性電腦可讀取儲存媒體、影像自動描述系統與方法
KR101931859B1 (ko) * 2016-09-29 2018-12-21 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
US11711372B2 (en) 2020-03-16 2023-07-25 AVAST Software s.r.o. Network resource privacy negotiation system and method
US20220012365A1 (en) * 2020-07-11 2022-01-13 AVAST Software s.r.o. System and method for differentiated privacy management of user content
KR102232927B1 (ko) * 2020-11-23 2021-03-26 주식회사 하비비커뮤니케이션 토탈 캠핑 앱 기반의 토탈 캠핑 플랫폼 제공 시스템
US11842153B2 (en) * 2021-07-28 2023-12-12 Microsoft Technology Licensing, Llc Computing system for auto-identification of secondary insights using reverse extraction
KR102600305B1 (ko) * 2022-10-07 2023-11-09 주식회사 커피챗 머신러닝 기반 학습된 모델을 이용한 사용자 맞춤형 대화 파트너 매칭 제공 추천 시스템 및 그 동작 방법
KR102600307B1 (ko) * 2022-10-11 2023-11-09 주식회사 커피챗 사용자별 대표 활동 로그 추출 방법과 머신러닝 모델의 병합을 적용한 사용자 및 대화 파트너 매칭 제공 최적화 시스템 및 그 동작 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000617A (zh) * 2006-12-06 2007-07-18 华为技术有限公司 一种媒体内容管理系统及方法
CN103455487A (zh) * 2012-05-29 2013-12-18 腾讯科技(深圳)有限公司 一种搜索词的提取方法及装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050257400A1 (en) * 1998-11-06 2005-11-24 Microsoft Corporation Navigating a resource browser session
US6711585B1 (en) 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US7406459B2 (en) * 2003-05-01 2008-07-29 Microsoft Corporation Concept network
KR20060034187A (ko) 2004-10-18 2006-04-21 원인호 솔라셀판 커텐과 이를 내장한 틀
JP4576211B2 (ja) 2004-11-22 2010-11-04 日立オムロンターミナルソリューションズ株式会社 文書情報検索システム
KR100704508B1 (ko) 2004-12-14 2007-04-09 한국전자통신연구원 N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법
US9817902B2 (en) 2006-10-27 2017-11-14 Netseer Acquisition, Inc. Methods and apparatus for matching relevant content to user intention
KR100771577B1 (ko) 2007-02-16 2007-10-30 드림아이 커뮤니케이션즈(주) 웹페이지 접속 이력정보 관리방법
US8326847B2 (en) * 2008-03-22 2012-12-04 International Business Machines Corporation Graph search system and method for querying loosely integrated data
JP5150341B2 (ja) 2008-04-10 2013-02-20 株式会社東芝 データ作成装置及び方法
JP5238437B2 (ja) 2008-09-30 2013-07-17 株式会社東芝 ウェブ閲覧目的分類装置、ウェブ閲覧目的分類方法、及びウェブ閲覧目的分類プログラム
KR101087224B1 (ko) 2008-11-20 2011-11-25 후레쉬푸드주식회사 락토바실러스 퍼멘텀 js 균주를 함유하는 소스
JP5077210B2 (ja) 2008-12-04 2012-11-21 富士通モバイルコミュニケーションズ株式会社 携帯型情報処理装置
KR101082814B1 (ko) 2008-12-29 2011-11-11 한양대학교 산학협력단 키워드를 이용한 온톨로지 정보 검색 방법 및 장치
KR101048546B1 (ko) 2009-03-05 2011-07-11 엔에이치엔(주) 온톨로지를 이용한 컨텐츠 검색 시스템 및 방법
WO2011013191A1 (ja) 2009-07-27 2011-02-03 株式会社 東芝 関連性提示装置、方法およびプログラム
CN102812562B (zh) 2010-01-25 2016-02-24 Lg化学株式会社 光伏组件
US8600967B2 (en) * 2010-02-03 2013-12-03 Apple Inc. Automatic organization of browsing histories
US9135354B2 (en) * 2010-04-07 2015-09-15 Yahoo! Inc. Method and system for topical browser history
WO2011136491A2 (ko) 2010-04-27 2011-11-03 서울대학교산학협력단 용어체계 기반의 데이터 개체 정의지원 시스템
KR101097191B1 (ko) 2010-04-27 2011-12-21 서울대학교산학협력단 용어체계에 기반하는 데이터 개체 정의지원 시스템
US20120066073A1 (en) * 2010-09-02 2012-03-15 Compass Labs, Inc. User interest analysis systems and methods
JP5741242B2 (ja) 2011-06-21 2015-07-01 コニカミノルタ株式会社 プロファイル更新装置およびその制御方法、ならびに、プロファイル更新用プログラム
KR101144371B1 (ko) 2011-07-15 2012-05-10 엔에이치엔비즈니스플랫폼 주식회사 웹페이지에 대한 방문기록을 도식화하는 방법 및 시스템 그리고 상기 방문기록을 이용한 추가정보 제공 방법 및 시스템
GB2498762A (en) * 2012-01-27 2013-07-31 Qatar Foundation Computing user traffic at the website based on user actions
KR20120119885A (ko) 2012-09-17 2012-10-31 삼성전자주식회사 사용자의 검색 히스토리를 이용한 컨텐츠 분류 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000617A (zh) * 2006-12-06 2007-07-18 华为技术有限公司 一种媒体内容管理系统及方法
CN103455487A (zh) * 2012-05-29 2013-12-18 腾讯科技(深圳)有限公司 一种搜索词的提取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SOUMEN CHAKRABARTI等: "Using Memex to archive and mine community Web browsing experience", 《COMPUTER NETWORKS》 *

Also Published As

Publication number Publication date
US20150317408A1 (en) 2015-11-05
JP2015212947A (ja) 2015-11-26
US10521474B2 (en) 2019-12-31
KR102244298B1 (ko) 2021-04-23
KR20150125442A (ko) 2015-11-09
EP2940604A1 (en) 2015-11-04
JP6611458B2 (ja) 2019-11-27

Similar Documents

Publication Publication Date Title
Khder Web scraping or web crawling: State of art, techniques, approaches and application.
CN105022775A (zh) 用于构建网页访问历史的设备和方法
US10180967B2 (en) Performing application searches
US11172040B2 (en) Method and apparatus for pushing information
CN109241403B (zh) 项目推荐方法、装置、机器设备和计算机可读存储介质
KR102355212B1 (ko) 마이닝된 하이퍼링크 텍스트 스니펫을 통한 이미지 브라우징
US20150356202A1 (en) Methods and apparatus for identifying concepts corresponding to input information
US11580177B2 (en) Identifying information using referenced text
US20130339840A1 (en) System and method for logical chunking and restructuring websites
CN105786897B (zh) 用于提供基于情境感知的用户关注信息的情境感知本体构建方法
CN112417133A (zh) 排序模型的训练方法和装置
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
CN114741587A (zh) 一种物品推荐方法、装置、介质及设备
Fung et al. Discover information and knowledge from websites using an integrated summarization and visualization framework
CN109408725B (zh) 用于确定用户兴趣的方法和装置
Gao et al. Robust web data extraction based on weighted path-layer similarity
US20160148095A1 (en) Electronic calculating apparatus, method thereof and non-transitory machine-readable medium thereof for sensing context and recommending information
ElGindy et al. Capturing place semantics on the geosocial web
Banu et al. A novel ensemble vision based deep web data extraction technique for web mining applications
de Vasconcelos et al. Rum: an approach to support web applications adaptation during user browsing
Markellos et al. Semantic web search for e-government: the case study of intrastat
Asuquo et al. Explainable Machine Learning-Based Knowledge Graph for Modeling Location-Based Recreational Services from Users Profile
Srivastava et al. Ranking Academic Institutions
Tvarozek et al. Bridging semantic and legacy web exploration: Orientation, revisitation and result exploration support

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151104