CN105378729A - 生成用于支持在线服务的资源 - Google Patents

生成用于支持在线服务的资源 Download PDF

Info

Publication number
CN105378729A
CN105378729A CN201480039648.8A CN201480039648A CN105378729A CN 105378729 A CN105378729 A CN 105378729A CN 201480039648 A CN201480039648 A CN 201480039648A CN 105378729 A CN105378729 A CN 105378729A
Authority
CN
China
Prior art keywords
concept
classification
rank
page
identify
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480039648.8A
Other languages
English (en)
Inventor
P·苏巴希奇
H·S·申
R·苏基坦
尹红风
S·慕克吉
秋永和计
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of CN105378729A publication Critical patent/CN105378729A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种用于分析按类别整理的概念的数据库的系统和方法,其中,每个概念是在线文本文档,从而确定概念之间的数值关系,并且确定类别的层级。

Description

生成用于支持在线服务的资源
相关申请
本申请要求2013年11月27日提交的美国临时专利申请61/910,000的权益,通过引用将该临时申请的全部内容并入本文中。
技术领域
本公开大体上涉及数据库处理,并且更具体地,涉及具有被分为类别的概念的数据库的处理以加权数据库内的概念的相似性。
背景技术
如果可以智能地处理用户交互以为用户进行推荐,那么在线服务可以增加其受欢迎程度。例如,运行在网页服务器上的应用可以基于其当前使用而为用户推荐其他网页。在这方面,当前存在大量的百科式数据库,例如维基百科,其提供和概念相关的大量信息,概念例如“纽约”或“麦当娜”等等。如果这种数据库可以被自动地分析以确定概念之间的关系,那么给用户的推荐就更加准确,这支持了用户的交互和参与。
由于发现在线数据库中的概念之间的关系是如此有价值,已经花费了不少的努力以试图提供这种关系分析。但不幸地是,当前的分析仅仅是针对特定数据库在个案基础上开发。这种应用一般仅对于单种语言使用是有效的,并且难以或者不可能转换成其他语言。因此,常规应用中针对概念关系的资源的更新涉及大量的人工干预。
因此,现有技术中需要一种能够处理数据库以发现数据库中的概念之间的关系的应用。
发明内容
一方面,提供了一种系统来分析按类别整理的概念的数据库。该系统配置为执行包括下列步骤的方法:为每个类别,计算第一概念的数量,第一概念的类别为直接包括第一概念的第一级类别;计算第二概念的数量,该第二概念的类别仅通过第二概念为类别中的转而包括第二概念的其他类别的成员而包括第二概念;依此类推,直到计算第n概念的数量,其中,第n概念的类别是第n级类别,n为复数正整数。此外,该方法包括:对于每个类别,将类别分类为具有最高计数的级别;及最后,该方法包括:对于以各个级别分类的类别,至少基于类别的概念的网页排名,确定那些具有最重要概念的分类的类别,从而为每个具有最重要概念的级别确定一组分类的类别。
通过下述详细说明,可以更好地理解本文公开的系统和方法的其他特征和优势。
附图说明
图1A示出了根据本公开实施方式的用于系统的模块的集合,该系统用于分析数据库以确定其概念和类别之间的关系。
图1B示出了图1A的用于系统的其他模块。
图2示出了通过图1A的系统分析的数据库中的一组类别的循环。
图3A示出了针对确定通过图1A的系统分析的数据库的类别等级的用于第一概念的计数过程。
图3B示出了被应用于另一概念的图3A的计数过程。
图4是根据本发明实施方式的用于分析概念按类别整理的数据库的方法的流程图。
图5是示例性计算机系统的框图,其可以配置成实施图1A和1B的系统。
通过参阅下文的详细说明将最佳地理解本发明的实施方式及其优势。应该意识到,类似的附图标记用于标识一个或多个附图中的类似元件。
具体实施方式
下文列出的详细说明连同附图旨在描述各种配置,并且不意图代表可以实践本文描述的概念的仅有配置。为了提供对各种概念的透彻理解,详细说明包括具体细节。然而,本领域技术人员显而易见的是,这些概念可以在没有这些具体细节的情况下实施。在一些例子中,为了避免模糊这些概念,公知的结构和部件以框图形式示出。
百科数据库的用于提供额外在线资源的概念性分析与统计学方法不同。例如,托管商业网站的应用通常会统计学地审查交易,从而一旦购买了一件商品,应用可以推荐购买了相同商品的其他用户也购买的相关商品。但这种分析与商品本身以及其与相关商品的概念性关系是无关的。本文公开的系统和方法不仅使用用户网页浏览的过去行为,还分析数据库以用数字表征数据库中的概念的相互关联性。在这种方式中,如果用户正在阅读具有给定概念的网页,则具有相关概念的网页可以被智能地推荐给用户。
如本文所使用的,“概念”是具有与之相关的文本信息的数据库实体,该文本信息会包括至数据库中的其他概念的链接。概念的数据库的一个实例是维基百科,其中,每个概念被表示为文章。这些文章被按类别整理。每个类别是相关文章的集合。尽管下述分析将致力于维基百科中的概念的分析,但应该意识到,本文公开的分析可以广泛地应用到具有概念的其他数据库,每个概念是可能包括至数据库中的其他概念的链接的文本数据库条目。概念的类比是电子表格数据库中的记录。通常,每项记录是电子表格中包含多个字段的行。因此,与数据库实体或“概念”相关的词与电子表格数据库的行(或记录)的字段相似。
公开了一种系统以执行本文公开的资源生成。该系统包括多个模块。每个模块可以由单个计算机或者计算机的集群来实施。可选地,可以利用ASIC或者配置的现场可编程门阵列来实施各个模块。图1A示出了示例性系统100的高级概览。系统100运行以从数据库105生成资源。下述讨论将假设数据库105是维基百科数据库,但是应该意识到,系统100可以以同样的方式来分析类似的数据库。在维基百科中,某些文章并不专用于概念。例如,“NewYork”的因特网搜索将导向专用于关于纽约的状况的文本文章的维基百科页面。但相反,其他维基百科页面是消除歧义的页面。例如,术语“Madonna”是有歧义的,因为其可以指地方、流行乐艺术家或者宗教人士。对于这种歧义的概念,维基百科可以提供“消除歧义页面”,其列出了具有相同名字的各种概念。这种消除歧义的页面本身不提供和一个概念与另一个概念之间的关系有关的信息,因此,系统100可以提供消除歧义页面抽取器模块110以识别表单120中的所有的维基百科消除歧义页面或参考。
维基百科为每个分离的网页或文章提供了参考编号。为了通过其参考编号识别所有的概念和类别,系统100可以包括页分析器、抽取器、以及配置为生成概念表单125的过滤器模块115。该概念表单125是维基百科中所有概念(也就是说,分离的网页)的表单,包括消除歧义页面。此外,模块115生成维基百科的所有类别的表单。在这方面,维基百科表单中每个实质的(非消除歧义页面)列出了一个或多个类别。例如,用于“NewYork”的维基百科页面表明该概念包括在六个维基百科类别中:前英殖民地、纽约、美国的州、中大西洋、美国东北部以及美国东海岸的州。如这种示例性类别组所示,概念也可以是独立的“NewYork”概念和类别所示的类别。每个类别包括一个或多个概念,它们等同于维基百科中特定主题下的文本内容的独立的文章或网页。
分析器、抽取器以及过滤器模块115还生成概念参考映射140。在这方面,维基百科中的每个概念可以包括至其他维基百科概念的超链接。概念参考映射140列出了维基百科中每个概念对其他概念的所有这种参考。但是,注意到,一些超链接不涉及超链接中的文本参考所指示的概念。例如,上述的用于“NewYork”的维基百科页面包括“人口第三多”,其并不导向“人口第三多”的概念,而是导向涉及“按人口统计的美国的州和地区的表单”的概念的页面网页。如本文所使用的,通过超链接(其以与相应的概念不同的方式被表达)从一个概念到另一概念的这些参考被表示为重新定向。模块115还为每个概念生成概念重新定向映射,以列出概念可能具有的至其他概念的任何重新定向。如下文将进一步解释的,这些重新定向为可用于识别相关概念的给定概念提供了和同义词有关的额外信息。
概念参考映射140为每个概念识别包括消除歧义页面在内的所有参考的概念。由于已经在表单120中识别了消除歧义页面,消除歧义模块145可以轻易地过滤概念参考映射140以形成过滤的概念参考映射150,其仅列出参考的实质概念,而不包括任何消除歧义参考。如本文所述的,概念参考映射150可以以本文所述的各种方式使用以使维基百科中给定的实质概念与另一实质概念相关。出于简洁的目的,下面的讨论中所使用的术语“概念”将被理解为涉及实质概念(不是消除歧义页面的概念)。
注意到,英文版的维基百科有超过340万篇涉及相应概念的文章。这些繁多的概念实际上是无法用其原始形式来管理的。但是,本文公开的技术和系统克服处理了这种复杂性,因此,如果用户表明对给定的概念感兴趣,则从概念参考映射150确定的相关概念可以被识别给用户。注意到这种技术的能力,因为例如用户可能是正在浏览网页或者向服务器做出与维基百科无关的请求。但是,用户对这些应用的输入可以被分析以识别概念。进而,这些概念可以被处理以识别相关概念。为了达成此目的,系统100可以包括相似度计算模块155。模块155可以实施多种算法以用数字表征概念之间的关系。例如,模块155可以使用概念参考映射150来为每个概念计算该概念和所有余下概念的相似度估计。例如,考虑确定给定概念A和另一概念B之间的相似度的问题。首先,模块155可以首先确定概念A所参考的概念(表示为RC(A))和概念B所参考的概念(表示为RC(B))之间是否存在任何交集,如在交集C(A)∩RC(B)中所识别的。如果这些参考的概念之间没有交集,则认为概念A和B之间没有关系。如果存在交集,则模块155还计算RC(A)和RC(B)的并集,如RC(A)∪RC(B)所表示的,并且确定表达式log((RC(A)∩RC(B)/RC(A)∪RC(B)以给定概念A和B之间的相似度分值。这种相似度分值与概念之间的相似度成反比,因为,最紧密相关的概念被认为对应于与参考的概念的并集相同的参考的概念的交集(log1等于0,不考虑对数的底数)。由于交集相对于并集变小,因此,最终比的对数变得越来越负,从而对数的相反数变得越来越正。对于每个概念,因此可以生成相关概念的顺序分值。在一些实施方式中,阈值可以应用于顺序分值以确定与给定概念最紧密相关的概念的子集。不管是否应用阈值,相似度计算模块可以由此以这种方式为维基百科中的每个概念生成相关概念的顺序表单165。相似度计算模块155可以实施替代算法以代替或结合刚讨论的对数公式。例如,相似度计算模块155可以使用Jaccard公式或者PMI公式以计算概念之间的数值相似度。此外,相似度计算模块155可以使用给定概念的类别成员来将该类别中的额外成员选为相关概念。
除了通过相似度计算模块155处理过滤的概念参考映射150以确定类似概念之外,系统100可包括概念重要性计算模块160。在一个实施方式中,概念重要性计算模块160可以使用页面排名算法来确定给定概念的重要性。如本领域已知的,页面排名算法是应用于来自链接至给定概念的其他概念的向内链接的递归过程。因此,模块160可以给维基百科中的每个概念一个页面排名分数,如排名的概念的表单170中所编译的。在应用中,表单170可以根据一些阈值来过滤,从而过滤掉不那么重要的概念。如果用户浏览包括多个概念的网页,则可以通过确定概念的页面排名分值是否超出期望阈值而识别更加重要的概念。注意到,这种过滤是限制性的,因为其降低了可能与给定用户和系统100交互所呈现的概念相关的概念的数量。相比之下,应用表单165来寻找与给定概念相关的概念是广泛的,因为其增加了可能涉及用户与系统100的交互的概念的数量。在这方面,用户与系统100的“交互”在本文中被限定为包括对系统100呈现一些内容。该内容可以是声音查询或基于文本的查询,例如“查找PaloAlto的意大利餐厅”。可选地,内容可以是用户正在浏览的给定网页或新闻文章中的文本。不管如何呈现该内容,系统100都可以对其进行分析以确定该内容的相关概念和类别。由于表单165导致相关概念的数量的增加,而表单170导致相关概念的数量的缩小,因此这些表单可以以迭代的用于相对于给定用户与系统100的交互而首先增加(或缩小),并且然后缩小(或增加)相关概念的数量。
系统100还可以包括层级抽取器和过滤器模块185,如图1B所示,其处理来自维基百科的类别链接文件175,该类别链接文件列出了包括在每个类别中的概念以及类别和-类别之间的关系。因此,模块185可以抽取概念-类别映射191,,其列出了每个类别的概念,,还抽取类别-类别映射192,其识别包括在其他类别中的类别。识别类别的一个问题在于:诸如维基百科的数据库是开源的并且由独立编辑者的社区而形成,其可能具有冗余或重复的类别。例如,一个类别可以被命名为“ComputerScience”,而另一类别可以被命名为“Computerscience”。这种重复的类别可以通过模块185合并,例如通过比较不具有任何大写字母的类别名字的字符串。模块185因此用于过滤掉冗余的类别。注意到,表单192中识别的类别-类别关系可以是循环的,例如图2中示出的示例性类别集200。具体地,“捷克共和国–斯洛伐克关系”的类别205包括“捷克斯洛伐克”的类别210,但是进而其本身是包括在“捷克共和国的双边关系”的类别235中的类别。类似地,类别235进而包括在“捷克共和国的对外关系”的类别230中,类别230又转而包括在“捷克共和国政府”的类别225和“捷克共和国的政治”的类别220。最终,类别220包括在“捷克共和国”的类别215中,其又进而包括在上述的类别205中。这种循环代表了与确定下文进一步讨论的类别层级有关的问题。
在基于用户与系统100的交互而推荐其他概念和类别方面,系统100也可以使用由其浏览统计所确定的概念的人气。例如,系统100可以包括人气抽取模块190,如图1B所示,其处理由维基百科提供的每小时浏览统计文件180以生成人气权重概念表单195。在剔除或减少概念的数量方面,表单195可以与表单170一起使用,或者替代表单170,其中,所述概念基于与系统的给定用户交互来识别。
系统100生成的概念的各种表单以及排名以及其种类可以以十分有利的方式来使用以生成与用户与系统100的交互相关的资源(概念和类别)。例如,映射191可以用于识别包括重要概念的类别,这些重要概念又转而由用户的交互的识别。在这方面,注意到概念和类别之间的关系是分层级的,因为某些概念仅通过其包括在其他类别中而包括在给定类别中。例如,再次参考图2,“捷克斯洛伐克的解体”的概念是包括在类别205中的维基百科文章中的一个。因此,类别205可以被视为这个概念的“第1级”类别。但是,相同的概念不是类别235的直接成员,即使类别235包括类别205。然而,“捷克斯洛伐克的解体”至类别235的这种间接关系可以由系统100有利地使用以识别重要的相关概念。由于该概念仅仅是从类别235移除的概念,类别235可以被认为是捷克斯洛伐克的解体概念方面的“第二级”类别。进而,相对于同一概念,类别230将是第3级类别,而类别225将是第四级类别。因此,系统100可以解决概念集200以确定它们相对于给定概念的级别。但是集200的循环性质存在一个问题,因为类别205不仅直接地包括“捷克斯洛伐克的解体”的概念,还是相对于该同一概念的第8级类别。类似地,如果系统100继续沿着集200形成的循环无限地迭代,那么类别205也可以被视为是第15级类别。为了防止沿着类别的给定循环的不定循环,每个这种循环集应该通过中断循环中的一个类别-类别关系而被强制成为非循环的。例如,如果类别215不再被视为包括类别220(删除循环中的边界),则集200不再循环,从而最终类别的层级变得有限且有界。可选地,如果从集200中删除类别220(删除循环中的节点及其边界),则最终层级也是有限且有界的。边界或节点的这种删除可以是基于语义的。例如,类别210涉及不再存在的国家“捷克斯洛伐克”,并且因此该节点及其边界可以被删除。这种删除对于现时的旅行和观光来说可能是精确的,但是如果用户的查询或与系统100的交互涉及历史,这种删除自然是不期望的。然而,应该意识到,典型的数据库将具有相对少的这种类别循环布置。例如,维基百科的英文版本具有超过400,000个类别,但仅有大约20至30个这种循环。因此,人类操作人员可以针对如何拆散这种相对小的循环集而不招致过重的负担做出恰当的语义决定。
不管如何使所有的类别成为非循环的,最终的非循环类别可以被有利地分析以确定其层级等级,如图3A和3B所示。相对于这种层级,诸如图3A中的概念300的概念被认为处于第0级。由于类别305直接包括概念300,因此,类别305可以被视为相对于类别300的第1级类别。类似地,类别310不直接包括概念300,但是间接包括该概念,因为类别305转而包括在类别310中。由于与类别305相比,类别310仅仅在层级中高“1级”,因此类别310可以被认为是相对于概念300的第2级类别。但是,如图3B所示,另一概念315是类别310的直接成员,从而,类别310是相对于概念315的第1级类别。注意到不明确性,因为给定类别(例如类别310)可以相对于一个概念是一个级别,但是可以相对于另一概念是另一级别。这种不明确性使得不可能直接将一个类别与另一个类别相比较,因为类别的相对有效性由于其在层级中变得更高而减小了。例如,可以想像:“所有概念”的类别太过宽泛,以致于不能为其包含的概念提供任何有用的信息。因此,级别越来越高的类别提供了与其包含的概念相关的越来越少的信息。因此,这种层级可能在一些级别被随意地终止,例如,在一种实施方式中,系统100可以计算不高于第4级类别。
不管在计算类别层级的额外级别方面的阈值大小如何,级别的不明确使得难以将一个类别与另一个进行直接比较。具体地,由于第1级类别将比第2级类别(其又比第3级类别提供更多的信息,依此类推)包含和其概念有关的更多信息,通过比较将给定的第1级类别与仅有的其他第1级类别相比较,可以更加准确地进行第1级类别的排名。类似地,第2级类别的比较应该仅与其他第2级类别进行,依此类推。但是,由于给定的类别占据了什么级别的不明确性,进行同一级别比较在原始类别上是不可能的。为了解决这种不明确性,系统100可以包括类别排名计算模块136,如图1A中所示。再次参考图3A和3B,模块136可以使用概念-类别映射191和类别-类别映射192来为每个概念确定直接或间接包括类别的任何类别的相对级别。为每个概念确定其被包括(直接地或间接地)在给定类别中的次数进行计数。例如,图3A的概念300直接包括在类别305和306中。因此,类别305和306中的每一个都得到了相对于第1级分类的1的计数。另一方面,概念300间接地通过类别305和类别306而成为类别310的成员,因此,类别310接收相对于第2级分类的2的计数。如果另一分类(未示出)包括类别310,该类别将接收相对于第3级分类的2的计数。因此,每个概念可以被认为是对直接或间接包括概念的类别的级别分类进行“投票”,其中,投票是导致相应类别的计数,如图3A所示。在这种在逐个概念基础上进行的级别分类中,如果类别直接包括相应的概念,其被给予接近第1级分类的计数。相反,如果给定类别仅通过相应概念直接包括在一个或多个转而包括相应概念的类别中而间接地包括相应概念时,给定类别被给予接近第2级分类的计数。类似地,如果给定概念仅通过相应概念直接包括在一个或多个转而包括在一个或多个第二类别(其又包括在给定概念中)的第一类别中而间接地包括相应概念时,给定概念被给予接近第3级分类的计数。以这种方式,每个额外的级别分类通过中间类别而涉及另一“跃距(hop)”。
来自概念315的计数在图3B中示出。在这种情况下,类别305相对于第1级分类得到另一计数。相比于概念300的第2级分类,类别310从概念315得到相对于第1级分类的计数,因为概念315直接包括在类别310中。概念300和315之间相对于分类的冲突由来自各个概念的计数(如上所述,其可以被类推成为给定的分类级别进行投票)的总数确定。例如,在所有的概念都被模块136处理之后,假设给定类别在级别1具有30的计数,在级别2具有132的计数,在级别3具有20的计数,并且在级别4具有0的计数。由于最高计数在级别2,因此,模块136将类别分类为级别2类别,即使相同的类别在级别1和级别3也具有混杂的计数。当所有类别以这种方式被分类之后,模块136随后可以在类别排名映射137中列出分类的类别。然而,注意到维基百科的英文版具有超过400,000个类别。即使这些类别全部由模块136分类,鉴于类别这种程度的多样性,类别排名映射137仍然是不实用的。因此,类别排名计算模块136也可以利用排名概念映射170来过滤分类的类别。例如,模块136可以平均化给定分类的类别中的所有概念的概念排名,并且将平均值与阈值相比较。随后,模块136可以在类别排名映射137中仅包括超出期望阈值的那些分类的类别。考虑图137的突出的实用性——诸如维基百科的数据库中的多种类别首次被智能地分类成过滤的级别,从而每个过滤的级别包括具有显著排名的概念的类别。
随后,来自系统100r的最终资源可以以无数种方式用于识别对应于用户与系统100的交互的相关概念和类别。例如,假设利用对应于用户当前使用的网页的文本文档来呈现系统100。一般而言,特别是随着文档的词数的增加,理解写入的文档对于机器来说一项艰巨的任务。但是系统100使用诸如维基百科的数据库作为文档的人类理解的代理,因为维基百科是一种如此庞大的数据收集,以至于其反映了与维基百科没有关系的文档中的什么是重要的以及相关的。例如,系统100可以被配置成为数据库105中的概念生成倒排索引。然后,用户文档中的词可以针对倒排索引被处理以找出与文章最相关的那些概念。这些概念随后可以利用映射165扩展,并且利用映射170收缩,,如前所述。此外,来自映射137的对应于最终类别的类别也可以被识别。在这种方式中,可以由系统100以近实时的方式轻易地生成用于用户文档的相关概念和类别的表单。系统100可以链接到以同样的方式生成相关概念和类别的其他文档的数据库。通过将来自用户文档的相关概念和类别与其文档数据库中的文档的相应概念和类别相比较,系统100可以智能地且快速地为用户推荐相关文档,这极大地增加了用户与系统100的交互和满意度。因此,通过使用独立数据库(例如维基百科)的已经分析的结构作为文档的人类理解的代理,克服了分析文档的复杂度,从而智能地将用户导向相关文件。现在将讨论一种用于查找涉及给定用户与系统的交互的分析数据库的方法。
现在参考图4,提供了一种分析数据库以找出其概念之间的关系示例性方法的流程图。该方法包括步骤400:该系统配置为执行包括下列步骤的方法:为每个类别,计算第一概念的数量,第一概念的类别为直接包括第一概念的第一级类别;计算第二概念的数量,该第二概念的类别仅通过第二概念为类别中的转而包括第二概念的其他类别的成员而包括第二概念;依此类推,直到计算第n概念的数量,其中,第n概念的类别是第n级类别,n为复数正整数。图3A和3B中的属于相对于概念300和315的特定级别的类别305、306和310的计数是步骤400的实例,其中,n为2。然后,应该理解,n是任意正整数,并且可以按需增加。例如,在其他实施方式中,整数n可以等于4或更大。
该方法还包括步骤405,其包括对于每个类别,将类别分类为具有最高计数的级别。通过类别排名计算模块136基于类别的最大计数将类别分为n个级别中的相应级别是步骤405的实例。最后,该方法包括步骤410:对于以各个级别分类的类别,至少基于类别的概念的网页排名,确定那些具有最重要概念的分类的类别,从而为每个具有最重要概念的级别确定一组分类的类别。通过模块136按照形成类别排名映射137所讨论地根据类别概念的页面排名过滤分类的类别是步骤410的实例。
如前所述,可以利用一个或多个计算机来实施系统100,或者替代地,可以利用配置的FPGA或ASIC来实例化系统100。用于实施系统100的一个或多个模块的适当计算机系统500在图5中示出。管理员可以利用显示器511、键盘504和音频/视频I/O505来配置系统500。系统500包括通过总线502耦接到指令的存储器514的至少一个处理器。总线502还通过网络接口506和通信链路518耦接至网络550,例如因特网。在这种方式中,用户的交互(例如由系统500托管的网页上的文档的文本、文本搜索查询或者语音搜索查询)可以由系统500从网络550轻易地接收。存储在存储器514中的指令可以以Java或者其他适当的程序语言写入,其中,这些指令由处理器512执行以实施本文讨论的各种模块。
现在,本领域技术人员将意识到,取决于当前特定的应用,可以在本公开的材料、装置、配置和设备的使用方法中(或对它们)进行许多改进、替换和改变,而不脱离本公开的精神和范围。鉴于这点,本公开的范围不应该被限制于本文所示出和描述的特定实施方式的范围,这是因为这些实施方式仅仅是通过其一些实例来展示,本公开的范围应该与随附权利要求及其功能性等价物的范围完全相当。

Claims (20)

1.一种用于按类别整理的在线文本概念的数据库的机器实施的方法,包括:
为每个类别,计算第一概念的数量,第一概念的类别为直接包括第一概念的第一级类别;计算第二概念的数量,该第二概念的类别仅通过第二概念是类别中的转而包括第二概念的其他类别的成员而包括第二概念;依此类推,直到计算第n概念的数量,其中,第n概念的类别是第n级类别,n为复数正整数;
对于每个类别,将类别分类为具有最高计数的级别;及
对于以各个级别分类的类别,至少基于类别的概念的页面排名,确定那些具有最重要概念的分类的类别,从而为每个具有最重要概念的级别确定一组分类的类别。
2.如权利要求1所述的机器实施的方法,其中,类别的子集具有循环安排,该方法还包括在将类别分类之前中断类别的子集的循环安排。
3.如权利要求1所述的机器实施的方法,还包括:
对于每个概念,识别该概念所超链接到的所有其他概念,以为每个概念生成参考概念的映射。
4.如权利要求3所述的机器实施的方法,还包括:
从用户接收输入;
分析该输入以识别输入所推荐的概念的第一集合;以及
通过参考概念的映射参考概念的第一集合以识别与概念的第一集合相关的额外概念。
5.如权利要求1所述的机器实施的方法,其中,在线文本概念的数据库包括维基百科。
6.如权利要求5所述的机器实施的方法,还包括:将页面排名算法应用于每个概念以确定每个概念的页面排名。
7.如权利要求6所述的机器实施的方法,还包括:
从用户接收输入;
分析该输入以识别输入所推荐的概念的第一集合;以及
根据第一集合中的每个概念是否超出阈值页面排名概念,减少概念的第一集合,从而形成具有重要页面排名的概念的减少的集合。
8.如权利要求7所述的机器实施的方法,还包括:
分析数据库的使用统计以识别每个概念的使用人气,其中,减少概念的第一集合以形成概念的减少的集合还包括将使用人气阈值应用于概念的第一集合,从而仅第一集合中的使用人气超出使用人气阈值的概念能够属于概念的减少的集合。
9.如权利要求2所述的机器实施的方法,还包括:
通过使用所有的非大写字母从每个类别生成字符串;及
比较来自所有类别的字符串,从而识别具有相同字符串的那些类别;及
将具有相同字符串的任何类别合并成单个相应的合并的类别。
10.如权利要求5所述的机器实施的方法,还包括:
从每个概念形成倒排索引。
11.如权利要求10所述的机器实施的方法,还包括:
从用户接收文本输入;及
将文本输入中的词与倒排索引相比较,以识别与文本输入相关的相关概念的集合。
12.如权利要求所述的机器实施的方法,还包括:
将相关概念与每个级别具有最重要概念的分类类别的集合相比较,以识别包括相关概念的分类类别的减少的集合。
13.如权利要求12所述的机器实施的方法,还包括:使用相关概念的集合以及分类类别的减少的集合来向用户推荐与其文本输入相关的内容。
14.如权利要求3所述的机器实施的方法,还包括:
分析参考概念的映射,以识别来自每个概念的参考概念和所有余下概念的参考概念之间的任何交集,从而确定所有概念之间的以相似度为权重的概念关系。
15.一种有形计算机可读介质,其包含存储于其上的程序指令,其中,一个或多个处理器执行程序指令使得一个或多个处理器执行下述步骤:
对于按类别整理的在线文本概念的数据库,为每个类别,计算第一概念的数量,第一概念的类别为直接包括第一概念的第一级类别;计算第二概念的数量,该第二概念的类别仅通过第二概念是类别中的转而包括第二概念的其他类别的成员而包括第二概念;依此类推,直到计算第n概念的数量,其中,第n概念的类别是第n级类别,n为复数正整数;
对于每个类别,将类别分类为具有最高计数的级别;及
对于以各个级别分类的类别,至少基于类别的概念的页面排名,确定那些具有最重要概念的分类的类别,从而为每个具有最重要概念的级别确定一组分类的类别。
16.如权利要求15所述的有形计算机可读介质,其中,一个或多个处理器执行程序指令还使得一个或多个处理器执行下述步骤:
对于每个概念,识别该概念所链接到的所有其他概念,以为每个概念生成参考概念的映射。
17.如权利要求16所述的有形计算机可读介质,其中,一个或多个处理器执行程序指令还使得一个或多个处理器执行下述步骤:
从用户接收输入;
分析该输入以识别输入所推荐的概念的第一集合;以及
通过参考概念的映射参考概念的第一集合以识别与概念的第一集合相关的额外概念。
18.一种系统,包括:
分析器模块,其配置成用于在线文本页面的数据库,每个页面被导向分离的概念,其中,页面被按类别布置,以为每个概念识别该概念所超链接到的所有其他概念,从而生成列出每个概念的所有参考概念的概念参考映射;
消除歧义页面抽取器模块,其配置为识别数据库中所有的消除歧义页面,消除歧义页面列出了以相同的方式表达但对应于不同的文本页面的概念;及
消除歧义模块,其配置为过滤参考概念的映射以移除消除歧义页面,从而形成过滤的概念参考映射;及
相似度计算模块,其配置为处理过滤的概念参考映射,从而至少基于每个概念的参考概念和以相似度为权重的概念的参考概念之间的交集,为每个概念识别以相似度为权重的概念的表单。
19.如权利要求18所述的系统,其中,该系统还被配置为处理来自用户的输入,以识别与输入相关的概念的集合,并且相对于以相似度为权重的概念的表单进一步处理概念的集合,从而将相关概念的集合识别为概念的集合。
20.如权利要求18所述的系统,还包括类别排名计算模块,其被配置为:
为每个类别,计算第一概念的数量,第一概念的类别为直接包括第一概念的第一级类别;计算第二概念的数量,该第二概念的类别仅通过第二概念是类别中的转而包括第二概念的其他类别的成员而包括第二概念;依此类推,直到计算第n概念的数量,其中,第n概念的类别是第n级类别,n为复数正整数;
对于每个类别,将类别分类为具有最高计数的级别;及
对于以各个级别分类的类别,至少基于类别的概念的页面排名,确定那些具有最重要概念的分类的类别,从而为每个具有最重要概念的级别确定一组分类的类别。
CN201480039648.8A 2013-11-27 2014-11-25 生成用于支持在线服务的资源 Pending CN105378729A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361910000P 2013-11-27 2013-11-27
US61/910,000 2013-11-27
PCT/US2014/067479 WO2015081131A1 (en) 2013-11-27 2014-11-25 Generating resources for support of online services

Publications (1)

Publication Number Publication Date
CN105378729A true CN105378729A (zh) 2016-03-02

Family

ID=53199616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480039648.8A Pending CN105378729A (zh) 2013-11-27 2014-11-25 生成用于支持在线服务的资源

Country Status (6)

Country Link
US (1) US9646099B2 (zh)
EP (1) EP3074890A4 (zh)
JP (1) JP6440733B2 (zh)
KR (1) KR101778901B1 (zh)
CN (1) CN105378729A (zh)
WO (1) WO2015081131A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11610248B1 (en) * 2019-06-19 2023-03-21 Amazon Technologies, Inc. Type ambiguity detection system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1794240A (zh) * 2006-01-09 2006-06-28 北京大学深圳研究生院 基于自然语言理解的计算机信息检索系统及其检索方法
US20070027772A1 (en) * 2005-07-28 2007-02-01 Bridge Well Incorporated Method and system for web page advertising, and method of running a web page advertising agency
EP1959362A1 (en) * 2007-02-13 2008-08-20 Sap Ag Method and system for analyzing similarity of concept sets
CN102129479A (zh) * 2011-04-29 2011-07-20 南京邮电大学 一种基于概率潜在语义分析模型的万维网服务发现方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415283B1 (en) * 1998-10-13 2002-07-02 Orack Corporation Methods and apparatus for determining focal points of clusters in a tree structure
US8229957B2 (en) * 2005-04-22 2012-07-24 Google, Inc. Categorizing objects, such as documents and/or clusters, with respect to a taxonomy and data structures derived from such categorization
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
EP2537348A2 (en) * 2010-02-19 2012-12-26 Thomson Licensing Enhanced content search
US8595234B2 (en) * 2010-05-17 2013-11-26 Wal-Mart Stores, Inc. Processing data feeds
US8725739B2 (en) * 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070027772A1 (en) * 2005-07-28 2007-02-01 Bridge Well Incorporated Method and system for web page advertising, and method of running a web page advertising agency
CN1794240A (zh) * 2006-01-09 2006-06-28 北京大学深圳研究生院 基于自然语言理解的计算机信息检索系统及其检索方法
EP1959362A1 (en) * 2007-02-13 2008-08-20 Sap Ag Method and system for analyzing similarity of concept sets
CN102129479A (zh) * 2011-04-29 2011-07-20 南京邮电大学 一种基于概率潜在语义分析模型的万维网服务发现方法

Also Published As

Publication number Publication date
JP2016538676A (ja) 2016-12-08
US20160026723A1 (en) 2016-01-28
EP3074890A1 (en) 2016-10-05
EP3074890A4 (en) 2017-09-06
KR101778901B1 (ko) 2017-09-26
KR20160127707A (ko) 2016-11-04
US9646099B2 (en) 2017-05-09
WO2015081131A1 (en) 2015-06-04
JP6440733B2 (ja) 2018-12-19

Similar Documents

Publication Publication Date Title
EP3745276A1 (en) Discovering a semantic meaning of data fields from profile data of the data fields
US10725981B1 (en) Analyzing big data
AU2022201654A1 (en) System and engine for seeded clustering of news events
Stvilia et al. A framework for information quality assessment
US8898140B2 (en) Identifying and classifying query intent
US9361320B1 (en) Modeling big data
CN101506767B (zh) 相对于分类体系来分类诸如文档和/或聚类的对象以及从这种分类导出的数据结构
US10216829B2 (en) Large-scale, high-dimensional similarity clustering in linear time with error-free retrieval
US20090089044A1 (en) Intent management tool
US10255363B2 (en) Refining search query results
US20140101124A1 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
US20180203917A1 (en) Discovering data similarity groups in linear time for data science applications
US20180203916A1 (en) Data clustering with reduced partial signature matching using key-value storage and retrieval
US20120239657A1 (en) Category classification processing device and method
KR20170043365A (ko) 빅데이터를 이용한 중요 판례 추출 및 정리 방법
Ko et al. Semantically-based recommendation by using semantic clusters of users' viewing history
US20160246794A1 (en) Method for entity-driven alerts based on disambiguated features
Kotenko et al. The intelligent system for detection and counteraction of malicious and inappropriate information on the Internet
CN105378729A (zh) 生成用于支持在线服务的资源
Singh et al. Sentiment analysis of social networking data using categorized dictionary
Kumar et al. Semantic web-based recommendation: Experimental results and test cases
Wang et al. Enterprise search with development for network management system
Touparis Predicting Stocks Movement using Social Media Analytics
Barila et al. Towards Useful Information from Unstructured Data Mining
Sonone et al. Multi-modal Topic Modelling and Summarization with Dense Block Detection: A Review

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160302