CN102326144A - 使用感兴趣领域确定的信息提供建议 - Google Patents
使用感兴趣领域确定的信息提供建议 Download PDFInfo
- Publication number
- CN102326144A CN102326144A CN2009801566466A CN200980156646A CN102326144A CN 102326144 A CN102326144 A CN 102326144A CN 2009801566466 A CN2009801566466 A CN 2009801566466A CN 200980156646 A CN200980156646 A CN 200980156646A CN 102326144 A CN102326144 A CN 102326144A
- Authority
- CN
- China
- Prior art keywords
- speech
- user
- information
- relevant
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
描述了一种用于确定和使用与感兴趣领域相关的信息的技术,比如,为了自动地确定领域中特定词之间的关系,自动地分析与该领域相关的文档和其它信息。这种自动确定的信息可以用于帮助用户从感兴趣领域(比如,具有与特定用户的词相关和/或其它词相关的内容的文档,所述其它词被确定是与所述特定用户的词足够地相关)中获得信息。例如,通过使用有关用户对一个或多个词所指定的偏好或其它兴趣的信息,以及通过基于所生成的所述领域的特定词之间的关系概率表示来识别用户可能感兴趣的其它特定词,可以自动地为用户生成建议。
Description
相关申请的交叉引用
本申请要求序列号61/122,282,提交日2008年12月12日、发明名称“确定感兴趣领域的相关信息”的临时美国专利申请的权益,此处一并作为参考。
技术领域
下文的公开总体上涉及自动为用户确定信息。
背景技术
随着大量可用信息的涌现,定位与用户的兴趣匹配的文档和其它信息可能是困难的。一种尝试定位文档的选择包括使用各种基于web的搜索引擎来执行搜索。典型的web搜索包括用户向搜索引擎提供包括一个或多个搜索词的搜索查询,以及搜索查询在某些情况下也包括一个或多个逻辑搜索操作符(比如,“AND”,“OR”,“NOT”,需要特定搜索词的指示,等等),每个操作符与一个或多个搜索词相关。在接收到这种搜索查询之后,典型地搜索引擎至少识别一些与该搜索查询(比如,该内容包括每个所需搜索词)的内容匹配的可用文档,生成一个或多个Web页(该Web页包括到一个或多个所识别文档的链接),以及提供作为该搜索查询的搜索结果的一个或多个所生成Web页给用户。此外,不同的用户输入相同的搜索串,典型地接收相同的搜索结果。
搜索引擎使用各种技术来识别文档,该文档内容匹配特定的搜索词。例如,一些搜索引擎在接收到搜索请求之前自动执行预处理以创建将词映射到web页的索引,该网页内容包括这些词。这种预处理典型地使用叫做“网页爬虫”的自动化程序,该网页爬虫在网页上爬行以识别文档来索引,比如通过从已知网页的链接跨越到新的网页链接。此外,一些搜索引擎使用文档的手动分类来跟踪与特定类和/或词相关的网页,比如通过类 和子类的等级分类。因此,来自搜索引擎的搜索结果在一些情形下可以基于来自自动预生成的索引的信息,和/或,基于来自手动预生成的类目录信息。
但是,现存的搜索引擎和其它用于识别用户感兴趣信息的技术遇到了各种问题。
附图说明
图1A-1C示出了用于确定关于感兴趣领域的相关信息的技术示例。
图2A-2M示出了用于自动确定和使用关于感兴趣的示例领域的相关信息的技术示例。
图3示出了用于确定与感兴趣领域有关的相关信息的计算系统示例的框图。
图4示出了特定领域相关性确定服务例程的示例实施例的流程图。
图5示出了领域分析管理器例程的示例实施例的流程图。
图6示出了中间词(inter-term)相关性确定管理器例程的示例实施例的流程图。
图7示出了相关文档确定管理器例程的示例实施例的流程图。
图8A-8B示出了词关系建议产生管理器例程的示例实施例的流程图。
图9A-9N示出了用于自动确定特定用户在一个或多个感兴趣领域中可能感兴趣的特定用户信息的技术的示例,比如基于自动确定关于感兴趣领域的至少之一的相关信息。
具体实施方式
描述了用于确定和使用关于感兴趣的主题和目标区域(这里也涉及感兴趣的领域)的相关信息的技术。至少在一些实施例中,该技术包括自动分析文档和其它与一个或多个相关感兴趣领域相关的内容项以自动确定在该领域中关于词的信息,比如确定特定词之间的关系,以及确定哪个内容项具有与特定词相关的内容。这样自动确定领域的相关信息于是可以用于各种方法中,包括帮助用户获得对于那些用户可能正面正面感兴趣的 信息(比如具有与特定用户词相关的内容的内容项和/或被确定与特定用户词充分相关的其它项)和/或帮助用户避免对那些用户可能负面感兴趣的信息。例如,在至少一些实施例中,自动确定领域的相关信息可以用于产生特定词之间的Bayesian网络或其它概率表示,这使得与一个或多个词相关的用户专有偏好的信息和/或其它特定于用户的信息可以用于自动确定用户也可能对其它特定词感兴趣的概率,比如用于向这个用户提供特定于用户的建议或其它提议。下面更详细地讨论,词、偏好和内容项可以在多种实施例中具有多种形式。而且,在至少一些情况下,该技术可以结合计算机实现的特定领域相关性确定(“DSRD”)服务来使用,该服务自动确定关于感兴趣领域的相关信息,和/或,使用这种经确定的相关信息来提供建议和其它提议信息,该其它提议信息可能是特定用户感兴趣的。下面将更详细地描述。
在至少一些实施例中,所描述的技术包括自动分析文档和/或其它关于感兴趣领域的内容项以自动确定该领域内的关于相关词的信息,以使能够确定在特定词之间的相关关系(比如,确定领域内的多词的主题,或更一般地确定领域内的概念,每个概念可以包括一个或多个词或与一个或多个词相关)。在至少一些实施例中,至少基于部分使用与感兴趣领域有关的内容项中的各种词,可以自动确定词之间的关系。以及对各种内容项的分析可以包括产生索引,该索引使特定内容项的内容与特定词相关。因为以下讨论涉及的各种内容项是“文档”,所以应该理解所描述的技术可以使用广泛类型的内容项,例如包括,文本文档(比如,网页、字处理文档、放映幻灯片以及其它表示,emails以及其它电子消息等等)、图像、视频文件、音频文件、软件代码、固件和其它逻辑、遗传密码(每个伴有一个或多个基因信息序列)、其它生物数据等等。此外,内容项可以是一个或多个文件类型或其它数据结构(比如流数据),可以包括文档片段、或其它大文档的片或部分、或其它内容项;以及这种内容项的内容可以包括文本,和/或,各种其它类型的数据(比如,音频信息的二进制编码;视频信息的二进制编码;图像信息的二进制编码;物理属性的测量结果;数学等式以及数学数据结构;其它类型的文字数字的数据结构,和/或符号数据结构;加密数据;等等)。因此,包括在内容项的内容中的词或其它与 内容项关联的词在多种实施例中可以具有各种形式,包括单独的文字,多个文字的组合(比如,多词短语;确定的关系中的多字元组,比如语义三元组包括主体、客体和主体与客体之间的偏好关系;等等);或在一些实施例中,如在其它地方更详细讨论的其它类型的可识别的数据、特征、性质或其它属性;该其它属性是这些内容项的部分内容,或与这些内容项相关的其它内容。此外,在至少一些以下讨论中,除非有其它指示,通常,相关性构成了词之间的关系,所述相关性旨在覆盖一个或多个词的组,这使得特定的关系可能位于一个或多个第一词的第一组(比如,与具有一个或多个相关词的第一概念有关,或相反,与由专门串或多个词的其它组合构成的第一多词主题或第一合成词有关)与一个或多个第二词的第二组(比如,与具有一个或多个相关词的第二概念有关,或相反,与第二主题或第二合成词有关)之间。此外,如以下更详细的描述一样,在一些实施例中,所描述的技术包括:识别一个或多个反映用户已知偏好的词;以及比如至少部分基于已知偏好词和可能的附加的偏好词之间的关系,自动尝试识别未被明显识别出的附加的反映用户附加偏好的词。这种已知的偏好词和/或可能的附加偏好词在多种实施例中可以具有各种形式(如上所述,词可以反映任何类型的可识别数据、特征、性质或其它属性,其它属性是部分感兴趣内容,或其它属性是其它部分与这些内容相关),这种已知的偏好词和/或可能的附加偏好词可以反映正面兴趣(比如偏好的)的特定词和/或负面兴趣(比如不偏好的)的特定词。此外,用户的已知偏好可以不仅包括由用户明显识别的作为正面或负面兴趣的词,还可以在一些实施例中包括为特定用户推断(比如基于用户的动作,比如搜索或另外地选择特定的词)的一些正面或负面兴趣的词,或更一般地可以包括任何已知的信息或其它与特定用户相关的信息(比如,用户的人口统计学信息,比如年龄、性、性别等等;用户的成就或活动等等)。
至少在一些实施例中,选择专有领域的一组文档,通过DSRD服务的实施例来自动分析。例如,该组文档可以是包括对于特定领域所有可用文档的文集,或包括能表示该领域的足够多文档的文集。此外,要分析的文档可以从一个或多个源获得,比如从web网站,web网站包括了专用于一个或多个领域全面的特定信息(比如,假设“all-baseball-now.com” 网站包括关于棒球的全面的信息,“espn.com”网站包括关于各种运动的多样化信息,“imdb.com”网站包括关于各种电影和电视节目的多样化信息,维基百科全书的网站“wikipedia.org”以及维基百科通用媒体集合网站“commons.wikipedia.org”以及维基百科新闻发布网站“wikinews.org”包括各种关于大量领域的信息,等等)。在一些实施例中,每个文档具有至少部分所分析的文本信息。
至少在一些实施例中,用于领域的文档的自动分析可以包括:分析文档的内容以确定与领域相关的词之间的关系,在一些实施例中,包括使用数据挖掘技术或其它技术,识别主题或其它与领域相关的概念。例如,如果所分析的文档与棒球领域相关,词对于特定运动员、特定队、特定联盟(比如,棒球大联盟,高校棒球联盟,等等)、特定事件或情况(比如特定年的全明星比赛或世界杯,使用类固醇的争议,等等)、特定赛季、特定纪录(累积的全垒打纪录)是专有的。此外,词之间的关系可以至少反映一些这种信息,比如识别关系,该关系对应于指定队中的多个运动员、具有历史竞争的多个队、与特定事件或纪录相关的特定运动员或队等等。
至少在一些实施例中,用于领域的文档的自动分析以识别相关词包括:索引文档来确定在每个文档中存在什么词,然后分析一些和所有这些词对文档的重要性。例如,至少在一些实施例中,基于对文档的内容的词的独特性对文档做出文档中每个词的相关度的初始决定,比如通过使用词频-反文档频率(“TF-IDF”)分析法。此外,如在下面将更详细地讨论,在文档组中通篇使用的一个或多个词的组合可以经选择来表示主题或其它领域概念(比如,对于最相关的词和/或词间关系),相对于一个或多个文档的主题或概念的一个或多个有关的词的确定的相关度被用来确定相对于主题或概念的一个或多个文档的相关度。虽然以下的一些示例和实施例讨论了以多种方式使用多词主题,但是应该理解这种讨论等于应用到了确定具有一个或多个相关词的概念的用途中,如在其它地方更详细地讨论。此外,如在其它地方更详细地讨论,在一些实施例中,被分析的词或被分析的与文档或其它内容项关联的其它信息可能包括其它类型的信息、包括不包含在内容项的内容中的信息,比如,与内容项相关的元数据,和/或,与内容项对应的一个或多个用户关联的信息。
此外,在一些实施例中,用于领域的文档的自动分析以识别相关词包括一种或多种其它技术,可以考虑不使用TF-IDF分析,而采用类似的技术来确定相对于文档内容的文档中每个词的相关度。例如,在一些实施例中。自动分析一个或多个文档内容可以包括:执行统计分析以识别相对于其它内容的一个或多个文档的内容中(比如领域中的其它文档,用于表示领域内容的基本集合)具有区别的词,以识别统计离群值(比如,被认为具有相对于其它词来说具有高信噪比的词),或否则识别相对于其它词相关的词。此外,在领域文档变化的情况下(比如基于新文档变为可用以反映目前的新闻或其它近来可用的信息),自动分析变化的文档可以在一些实施例中用于识别新的相关词(比如,由变化的文档引入的新相关词、在变化的文档中相关度增加的先前存在的词)。这种新相关词可以在一些实施例中反映感兴趣的“热门话题”,以及变化的文档用于识别这种新相关词在多种实施例中可以具有各种形式(比如,新闻供应;社交网络网站网页;博客发布;选择信息共享系统,比如Twitter;等等)。此外,以下将更详细地描述,当特定词识别为相关时(比如,对于新相关词),所描述的技术可以识别特定用户(这种特定词与该用户相关),以及向这些用户提供经识别为与这些特定词相关的文档或其它内容(比如,通过推送或否则向这些用户提供所识别内容的建议;包括:响应于这些特定用户的请求,提供作为部分信息的经识别的内容给这些特定用户;等等)。识别与特定词相关的特定用户可以在多种实施例中以多种方式执行,比如,通过识别已知偏好包括这些特定词的特定用户,通过分析有关一个或多个用户的已知用户偏好的信息来确定概率,特定词是反映这些用户的未知用户偏好的附加词,等等。
如以上所述,生成文档词分析信息可以在多种实施例中以多种方式执行,在一些实施例中使用TF-IDF分析法。这种TF-IDF分析法使用需分析的文档的向量空间表示,其中,每个文档被当作是类似于“bag ofword”(词的袋子),而没有考虑文档中词的角色(比如,没有考虑语法、句子结构、段落结构、标点符号等)。在这种情形下,文档表示可以主要地或完全地反映文档中词的词频(“TF”),这使得可以有效地将文档映射到数学上直线的高维向量空间。此外,当确定文档中词的相关度时,可以 考虑和使用与领域的各种文档相关的特定词的区别性,比如通过考虑文集的文档或其它组文档中特定词如何到处存在的。尤其是,在至少一些实施例中,文档d中的词i的词频与跨过领域的文档中的词i的逆文档频率(“IDF”)可以如下表示:
用于词或文档的词频-逆文档词频(“TF-IDF”或“TF.IDF”)得分可以通过使词和文档的TF得分与词的IDF得分相乘来确定。对于特定词i和特定文档d的TF-IDF(i,d)得分(也示出为“TF-IDFi,d”或“TF.IDFi,d”)可以用作为如何重要的标准,其中,向量空间表示中的词描述了文集中该文档的指针,以反映这个词对这个文档的相关度。衡量标准是高排列的词经常出现在特定文档中,而不经常出现在作为整体的文集中。
至少在一些实施例中,用于领域的文档的自动分析包括:分析所选文档的内容以确定哪个文档具有与所识别的词相关的内容和/或领域的确定的主题相关的内容。例如,在至少一些实施例中,可以执行所选文档相关性的初始确定,进而确定每个文档与每个或所有的词或主题的相关度,如在下面更详细地讨论,例如,基于相对于特定文档的内容的主题内特定词的相关性。此外,在一些实施例中,所选文档被分析为文档相关性确定的部分是与先前被分析的文档相同,以便确定词间关系;但是在其它实施例中,一些或所有所选文档相关性确定的文档与中间词相关性确定文档不同(比如,如果文档相关性确定文档包括在先前的中间词相关性确定中不可用的新文档;如果中间词相关性确定文档是用于训练目的而选择的文档的特定子集,比如由于表示为领域;等等)。此外,在至少一些实施例和情形下,可以将多个相关文档的组和相关的一些或所有词和/或主题一起分析,比如为了分析的目的,可以将多个相关文档当作单个文档,而在其它情形下,为了分析的目的,可以将特定文档分为多个部分,将每个部分当作与一些或所有词和/或主题相对的区别文档。下面包括的附加细节涉及分析领域的文档,以确定与所识别的词和/或所确定的主题相关的文档。
至少在一些实施例中,在自动分析领域的文档以确定它们与特定词 的相关性之后,这种相关性信息可以进一步用于识别特定词之间的关系。例如,至少在一些实施例中,两个词之间的关系可以至少部分基于这些词与各种文档的单独相关性来确定(比如,与一个或多个共用文档均高度相关的两个词很可能被确定为彼此之间高度相关,以及,均不与任何相同文档高度相关的两个词很可能被确定为彼此之间相关度很小)。因此,在至少部分基于TF-IDF得分来识别特定文档与特定词的相关性的实施例中,词之间的关系确定可以相似地至少部分基于TF-IDF得分。如在下面更详细地讨论生成得分或其它词的相关性关系的表示的特定方式,包括非基于TF-IDF得分的方式。
通过关于在一个或多个领域中或跨过一个或多个领域的词之间的关系的DSRD服务来自动确定相关消息之后,这种自动确定相关性信息可以以多种方式用于多种实施例中。比如,至少在一些实施例中,关于一个或多个领域的词间关系的相关性信息用于自动生成贝叶斯网络或其它所选词之间关系的概率表示,比如所识别的是最强的关系或否则最相关的关系。如在下面更详细地讨论,这种概率表示信息的生成可以多种方式执行;以及可以包括:选择各种特定第一词,每个第一词具有与其它第二词足够高的经评定的相关度,从这些第一词到相应第二词表示为影响;可以包括生成表示这些所表示的影响的强度的概率信息。特别地,如在下面更详细地讨论,贝叶斯网络的结构反映了依赖每个节点的概率,并且提供了在每个节点的状态上执行推论的框架。在生成概率表示信息之后,该信息可以用于自动确定概率或可能性的其它度量,其中,特定用户在特定目标词中具有正面或负面的偏好或其它兴趣(是否正面或负面正面),,在一个或多个其它词中给出这个用户的已知正面正面或负面的偏好、或其它兴趣。因此,这种特定用户在特定词中的已知偏好或兴趣可以当作这个用户在这种目标词的其它未表述的偏好或兴趣(比如,用户意识到的但DSRD服务不知道的其它偏好或兴趣,用户未明显意识到的其它偏好或兴趣,等等)的可能性的证据,可以从此推断特定目标词的特定未表述偏好或兴趣。
在一些实施例中,基于用作证据的在一个或多个其它词中特定用户的已知或推测兴趣确定在一个或多个目标词中的该特定用户的可能兴趣还可以至少部分基于关于其它用户的信息,该其它用户具有在证据词或目 标词中已知或推测的程度的兴趣,比如以类似于协作滤波技术的方式(比如,如在下面更详细地讨论,基于用户反馈和自动学习技术)。但是,在其它实施例中,执行基于在一个或多个其它证据词中特定用户的已知或推测兴趣确定在一个或多个目标词中的该特定用户的可能兴趣,而没有使用证据词和目标词中的有关用户的感兴趣程度的任何信息,或一般来说,在这个实施例中,在某些情况中,没有使用任何目标词中的有关其它用户感兴趣程度的任何信息,由于缺少有关在兴趣范围中用户偏好的数据,所描述的技术可以特别用于解决所谓的“冷开始”建议问题,其中,典型地对协同滤波在开始阶段不能够进行推断以及其它建议技术。如下面的详细讨论,使用这种从对领域相关文档的分析中自动生成相关性信息还可以用于一些实施例和情形中以扩展能力,以便针对新的兴趣的领域提供有意义的用户专用的建议或其它提议,对于新的兴趣的领域,仍很少有或没有用户偏好信息是可用的,例如,通过为一个或多个其它领域调节可用的偏好信息,所述一个或多个其它领域至少与新领域有某些重叠。此外,如在下面讨论的,即使基于其它证据词中的已知兴趣来执行初始确定可能感兴趣的目标词而没有使用证据词和目标词中的有关用户实际感兴趣程度的任何信息,后续的确定可以被更新,以将证据词和目标词中已知道的有关用户实际感兴趣程度的信息合并。
在确定了有关在一个或多个领域中或跨越了一个或多个领域中的词之间的概率关系的这种相关性信息之后(比如使用概率表示这些中间词的关系),相关性信息可以多种方式使用,包括:基于与特定词相关的用户偏好或感兴趣的信息,帮助人类用户(或其它实体)获得用户可能感兴趣的文档和/或其它信息的建议或其它提议。例如,基于用户已知兴趣,可以将对于用户偏好是未知的一个或多个特定目标词自动选择为该用户的可能兴趣,例如,所确定的兴趣的概率或兴趣的其它可能性的目标词大于所限定阈值,否则,基于使用确定的概率词间关系和给出的这些已知兴趣满足一个或多个特定标准。可以多种方式使用这种自动选择的目标词,包括向这个用户提供兴趣的建议或其它提议或信息的指示(比如,与这些所选目标词相关的文档指示;这些所选目标词的指示,比如由用户选择以指示感兴趣或不感兴趣的这个目标词,或指示特定目标词应当与其它已知词 合并为共用主题的部分,所选目标词与其它已知词是特别相关的;等等)。此外,自动确定的相关性信息可以多种方式用于多种实施例中,比如通过从用户接收一个或多个词以及向该用户显示相关信息(比如,包括所接收词的主题,等等),通过向用户显示自动确定的主题或其它词间关系的列表以浏览或选择或其它反馈,等等。因此,基于领域内的文档自动确定相关性信息可以被DSRD服务或其它辅助服务使用,以帮助DSRD服务外部的人类用户或其它实体(比如,自动化程序)获取与明显兴趣或所推断兴趣的一个或多个词相关的内容,比如,响应于搜索查询,通过推送或者向用户提供非明确请求的相关性信息(比如,基于先前所接收信息的特定偏好),等等。此外,有关各种词的相互关联度的信息可以多种方式在多种实施例中显示给用户。
此外,至少在一些实施例中,以多种方式跟踪和使用信息,该信息是有关用户或其它实体如何使用经自动确定的中间词相关性信息和/或文档相关性信息。例如,在至少一些实施例中,有关使用经自动确定的中间词的信息和/或文档信息可以由DSRD服务用作与经自动确定的中间词和/或文档相关性信息相关的反馈。例如,可以使用这种反馈来修改初始确定的特定词的相关性和词间关系,和/或修改初始确定的确定的词与特定文档的相关性,然后,这种经修改的确定的相关性信息可以由DSRD服务或其它辅助服务以与如初始确定相关性信息相类似的方式使用。相似地,例如,可以使用这种反馈来修改贝叶斯网络、决策树、和/或词间关系的其它概率表示,以及这种经修改的确定的词间关系概率表示可以由DSRD服务或其它辅助服务以与如初始确定概率表示信息相类似的方式使用。以这个方式,可以使用一次反馈事件或连续的或其它重复反馈环路来反复提高由DSRD服务执行的自动相关性确定。这将在下面更详细地描述,在一些实施例中,反馈可以用于学习或修改经自动确定的词间关系信息和/或文档相关性信息,比如通过使用所配置的神经元网络或其它自适应模型或系统,和/或通过更新所配置的贝叶斯网络或决策树或其它概率表示数据结构。此外,至少在一些实施例中和情形下,所配置的神经元网络或其它自适应系统可以多种方式自动扩展来使用有关成为可用的新文档的信息和/或经确定的新词间关系的信息。
为了说明目的,以下将描述一些示例和实施例,其中,以特定方式分析特定类型的信息,以及其中,以特定方式使用与特定领域相关的确定的信息。为了说明目的提供这些示例,以及,为了简洁,这些示例是简化的。以及应该理解,本发明的技术可以用于很多种其它情形,其中的一些情形将在下面更详细地描述。例如,当以下描述对特定文本文档的分析时,可以相似地分析和使用其它形式的信息。此外,当所描述的特定算法和技术用于确定在一个或多个领域内或跨越一个或多个领域的相关词间关系和/或主题、用于确定与词和/或主题相关的特定文档、以及基于实际使用和其它反馈知道改善的相关性时,可以其它方式使用其它算法和技术。
图1A-1C示出了自动的特定领域相关性确定服务的示例,该服务使用所描述的技术来确定与感兴趣领域相关的相关性信息,以及向用户和其它实体提供相关信息和功能。特别地,图1B示出了DSRD服务105的实施例,以及流向或流出DSRD服务105的示例数据的高层描述作为确定和使用相关特定领域信息的部分。在这个示例中,DSRD服务105评估和分析与一个或多个感兴趣领域相关的各种文档,以确定与每个领域相关的相关性信息。虽然在其它实施例中仅可以确定一种类型的相关性信息,但是在这个示例中,所确定的相关性信息由DSRD服务105生成,该信息包括与一个或多个领域中的每个领域内的有关相关的词间关系的信息170(比如关于多词主题的信息)、以及哪个文档具有与各种词相关的内容的信息180。如在其它地方更详细地讨论,根据图1C,所确定的中间词相关性信息170可以包括以各种形式存储的数据,包括一个或多个中间词神经元网络、一个或多个贝叶斯网络或词之间关系的概率表示、一个或多个封装了有关特定词之间概率或其它关系的信息的决策树,等等。
在这个示例中,DSRD服务105提供了至少一些所确定的相关词间关系信息170和/或至少一些所确定的相关文档信息180给用户使用,比如通过指示与特定用户查询词相关的文档、通过指示其它词(该其它词可以与特定用户词相关)的建议,等等。虽然这里没有示出,但是在其它实施例中,DSRD服务15可以不以一个或多个其它方式提供所确定的相关词间关系信息170和/或所确定的相关文档信息180给用户140和/或其它实体,比如通过一个或多个其它中间服务(比如,其它服务从DSRD服务 105获得相关的特定领域的信息,并且以多种方式使用该信息)。此外,在这个示例中,DSRD服务105可从确定的相关特定领域信息170和/或180的用户140(或其它实体)获得与使用有关的各种反馈或其它信息190,而不管是从用户140直接获得,还是从一个或多个其它中间服务获得,以及可以使用这个反馈来改善所确定的相关特定领域信息170和/或180。应该理解,接收反馈信息和/或将接收的反馈信息用到确定的相关特定领域的信息可以多种方式在多种实施例和情形下发生,包括以递增的方法和以动态的方法、或替换为以批方法(比如,从其它中间服务收集这种信息并周期性地将这种信息提供给DSRD服务105)。在另外的地方更详细地描述与各种数据流和DSRD服务105的动作相关的附加细节,包括在图2A-2M和图9A-9N中讨论的示例实施例。
图1A示出了关于图1B中DSRD服务105的一个实施例的附加示例细节。特别地,在图1A的示例中,经由示例DSRD服务105访问和分析的文档可以包括在网络100上可访问的领域文档160(比如,可从一个或多个网站或其它信息服务中公共访问)和/或DSRD服务105专门访问的可选领域文档135(比如,由服务105生成或否则由服务105提供的领域文档;第三方源可访问但是不能公共访问的可用领域文档,比如对支付访问可用或基于服务105和第三方源之间的限定关系;等等)。此外,在确定一个或多个领域的相关信息之后,DSRD服务105还与网络100上的各种用户140和/或一个或多个可选其它服务150交互(比如,其它与用户交互的辅助服务140以及使用由DSRD服务105提供的信息的辅助服务140)。
此外,在这个示例中,DSRD服务105包括几个模块(每个模块提供一些DSRD服务105的功能),包括领域分析管理模块110、相关文档确定管理模块120、中间词相关性确定管理模块130、词关系建议生成管理模块125。特别地,领域分析管理模块110执行各种动作来获得和自动分析领域相关文档的内容,这使得这种所分析信息可由模块120和130使用。相关文档确定管理模块120使用所分析的文档信息来确定与特定词或其它主题相关的文档,比如产生图1B中的领域文档相关性信息180(在图1A中未示出,但是可以存储在一个或多个存储设备中,也未在图1A中 示出)。相似地,虽然在其它实施例中可以不基于文档相关的信息来确定至少一些词间关系信息,但是中间词相关性确定管理模块130使用所分析的文档信息来确定与该领域相关的词间关系,以使得生成图1B中的领域中间词相关性信息170(在图1A中未示出,但是其可以存储在一个或多个存储设备中,也未在图1A中示出)。然后,词关系建议生成管理模块125基于词间关系生成用于确定特定用户建议或其它提议的信息,比如生成图1C中词间关系信息的概率表示170a和/或170b(未在图1A中示出,但是可以存储在一个或多个存储设备中,也未在图1A中示出)。由模块125生成的信息可以至少部分基于来自模块130经确定的词间关系信息,以及模块125还可以在一些实施例中选择使用所生成的信息来为用户确定特定用户的建议或其它提议。在这个示出的实施例中,模块120、130和/或125可以向用户或可选其它服务150提供所生成的特定领域相关性信息和/或所确定的特定用户建议或其它提议,比如通过所提供的用户可以交互使用的GUI(“图形用户接口”)和/或通过所提供的API(“应用程序接口”),软件程序可以通过该API编程交互。在其它实施例中,可以引入其它模块,比如模块127(未示出),该模块确定与特定所指示的感兴趣词相关的内容项;或DSRD服务105的一个或多个模块(未示出)可能不通过一个或多个GUI和/或一个或多个API与用户140和/或可选的其它服务交互,其中,一个或多个GUI和/或一个或多个API由DSRD服务105提供(例如,代表其它模块110-130)。
DSRD服务105可以多种方式实现,包括在一个或多个计算系统(未在图1A中示出)上执行的具有软件指令的一个或多个软件模块,以及可以在一个或多个本地或远程存储设备(未示出)上存储各种信息。例如,在一些实施例中,DSRD服务105可以在单个计算系统上实现,而在其它实施例中,DSRD服务105可以分布式的方式实现(比如,不同模块110-130的每个在不同的计算系统上执行,但是,可以直接或通过共享的数据位置交互;一个或多个模块110-130的每个分布在多个计算系统上,以使得在不同计算系统上具有多个模块的备选执行,该计算系统工作在与相同模块的其它备选执行相关的不同数据集合;等等),比如,使用云计算技术和/或以对等网络的方式。相似地,用户140、其它服务150和领域文档160 可以使用或与计算设备或系统(未示出)相关来执行各种所描述的交互和/或存储各种所描述的信息。此外,在一些实施例中可以由非辅助的实体提供DSRD服务105和其它服务150,而在其它实施例中,DSRD服务105和一个或多个其它服务150可由单一操作器提供(例如,彼此联合)。此外,图1A中示出的网络100可以具有各种形式,例如,可能由各种不同团体操作的所链接网络的公共访问网络(比如,因特网)。在其它实施例中,网络100可以为私有网络,例如,社团或大学网络,其对于非授权用户是完全或部分不能访问的。在另一个实施例中,网络100可以包括一个或多个能访问因特网和/或被因特网访问的私有网络,以及至少在一些实施例中,一些或所有网络100还可以包括宽带或广播有线或无线链接(比如,蜂窝电话链接;使用Wi-Fi、Wi-MAX、蓝牙、广播模拟或数字电视、EVDO、卫星或其它无线网络或通信协议等等的无线计算机连接;)。
此外,各种用户140和其它实体可以多种方式与DSRD服务105交互来做出请求和指定各种信息。例如,用户可以注册或订阅DSRD服务105和/或可选的其它服务150,以使得能提供各种词相关的偏好以及可以在稍后的请求中使用的其它信息。在这个实施例,在用户与DSRD服务105交互注册后,可以向用户发布一个或多个标识符(例如,密码、令牌、用户名,等等),标识符与用户相关并且稍后当做出其它请求时使用,比如对于特定查询的搜索结果的请求。此外,在一些实施例中,可选其它服务150可以注册或不与DSRD服务105交互来建立附属关系,以使得允许其它服务150获得对由DSRD服务105生成的至少一些特定领域相关性信息的访问。此外,各种费用可以与使用DSRD服务相关,以使得DSRD服务可以响应于至少一些由请求人支付费用的交易请求,例如,提供特定领域相关性信息给可选其它服务150以从其它服务105获取费用,或提供特定领域相关性信息给用户140以从用户获取费用。在其它实施例中,DSRD服务105可以其它方式获得费用;比如,从特定领域文档和其它内容的提供者执行与该内容相关的相关性确定,和/或,提供这种领域特定文档的特定用户的建议和其它内容给特定用户,从其它第三方,比如广告商和零售商(比如,向至少一些用户140提供广告或其它所指示的内容),等等。
图1C示出了由图1A和1B的DSRD服务105可以执行的有关动作的一个实施例的附加示例细节。特别地,图1B示出了DSRD服务105分析一个或多个领域的各种领域文档105以生成各种领域词间关系相关性信息170的实施例,可选地,信息170可以基于来自各种用户140的反馈来修改和/或补充。如图1C中示出的附加细节,至少在一些实施例中,所生成的领域中间词相关性信息170可以包括至少一些词之间的至少一些关系的概率表示170a(比如,贝叶斯网络),进一步,信息170a的生成可选地作为预处理的部分,使得稍后的运行时间使用所生成的信息。因此,在这个示例中,在第一时间可以发生生成信息170a,在稍后的第二时间,至少一些所生成信息170a的副本170b可以用于运行时间的动作,该活动包括基于部分所生成的信息170b来生成特定用户的建议或其它提议。例如,副本170b可以配置为或优化为运行时间使用,比如在表示各种部分的每个决策树中编码所生成的贝叶斯网络的特定分部170a,这将在关于图9A-9N中更详细地描述。此外,使用所生成的信息170b确定和提供特定用户建议和其它提议可以多种方式执行,包括通过DSRD服务105和/或通过一个或多个其它服务。
在这个示例中,在运行时间处理期间,为了特定用户145获取信息195,例如,信息195指示与领域相关的一个或多个词的用户145偏好,领域文档160对应于一个或多个词。用户145可以是用户140之一,如关于图1B中所讨论的,用户145可选地提供反馈以作为生成信息170a的部分,或用户145可以替换为不相关的用户。此外,关于针对特定词的用户已知偏好(或其它兴趣)信息195可以多种方式获得,比如,基于作为搜索查询部分由用户所指示的词,用户选则的词表示用户感兴趣的话题,用户指定文档部分中的此时感兴趣的词,从用户档案或与该用户相关的其它信息中提取词,等等。执行运行时间处理动作的服务(未示出)可以使用特定用户词偏好信息195和非特定用户词间关系信息170b来识别一个或多个附加特定用户词175,以便基于各种词间关系来推测用户词175是用户的兴趣,可选地使用信息来表示每个附加词将是特定用户145兴趣的相应概率。
在识别出附加词175之后,可以多种方式使用它们,包括:可选地 向用户145提供特定用户建议或其它提议185。所述特定用户建议或其它建议可以在多种实施例中具有各种形式,例如,至少在一些实施例中,一些或所有用户特定建议/提议可以是一些或全部附加推测词175,比如,使用户145指定附加推测词的特定的一个是实际感兴趣或者实际不感兴趣、指定附加推测词的特定的一个应该与兴趣195的已知词结合作为共用主题的一部分,等等。在其它实施例中,一些或所有用户特定建议/提议可以是特定领域文档或基于兴趣175的一些或所有附加推测词从一组候选领域文档165选择的其它内容项,比如,使包括将这些所选领域文档作为搜索结果的部分提供给用户145、否则使得用户获得访问所选领域文档的路径。如在其它地方将更详细地讨论,候选领域文档165可以是各种类型,比如包括用于生成词间关系信息170a和170b的一些或所有领域文档160、不包括任何领域文档160但包括与该领域文档160对应的相同的一个或多个领域相关的其它文档、包括与一个或多个附加领域相关的文档,该附加领域不同于领域文档160相应的一个或多个初始领域(比如,附加领域包括文档,这些文档至少具有与初始领域的词重叠的词,比如,尽管对于附加领域的实际用户兴趣具有有限的信息或不具有信息,为初始领域自动扩展所确定的词间关系,以为附加领域提供初始建议或其它提议),等等。虽然未在图1C中清楚明白地解释,但是在一些实施例中,可以从用户获取附加信息,这些附加信息反映了在一个或多个兴趣的附加推测词中用户的正面兴趣或负面兴趣,例如,基于用户的选择或响应于可选地提供特定用户建议185的其它指示,如果情况是这样,则基于从用户获得的这个附加信息,可以使用可选的反馈187来更新用户已知兴趣词195。在其它实施例中,可以随时地更新用户特定信息195,即使在没有来自用户的特定确认信息或其它指示时也可以更新,比如,如果是用户兴趣的附加词的概率超过了限定阈值或否则足够高。此外,虽然未在图1C中示出,如参考图1B更详细地讨论,可以使用来自用户和其它实体的反馈在一些实施例中相似地更新领域中间词相关性信息170a和170b。
虽然图1C示出了使用所自动确定的关于单个用户145的词间关系信息170,但是应该理解可以在各种时间向各种用户提供生成或提供的特定用户的建议或其它提议。相似地,可以在各种时间更新所生成的信息170a 和/或170b(比如,周期性地,当新领域文档160变为可用时,基于所接收的用户反馈,等等),使用所生成信息170b的最新版本来向特定用户145提供信息。此外,如在其它地方更详细地讨论,可以在其它实施例中(比如,搜索查询词扩展,识别共同拼写错误的修改,阐明特定用户的偏好,确定特定领域的多词主题,等等)以各种其它方式来使用所自动确定的词间关系信息170。
图9A-9N示出了用于生成示例领域词间关系的概率表示的技术示例,以及用于以多种方式(比如,可以通过DSRD服务的实施例来自动部分或全部执行)使用这个所生成的概率表示信息的技术示例。
特别地,图9A示出了示例神经元网络995e,该网络模拟所确定的词间关系相关性信息,在这个示例中基于对感兴趣示例领域的特定领域文档的示例文集的分析,生成该信息。特别地,如参考示例附图2A和2B更详细地讨论,在这个示例中,所述感兴趣领域涉及棒球,以及可用的特定领域文档的示例文集包括各种类型的文档(比如,新闻文章,运动员传记,队概况,等等)。此外,如参考图2C-2M更详细地讨论,可以多种方式分析和使用来自文集文档的示例的特定文档信息(比如,部分基于对文集中相对于文档的词之间的关系加以表示的TF-IDF值),包括确定领域文档相关性信息和领域中间词相关性信息,类似于图1A-1C的讨论。图2C-2M还提供示例使用关于所自动确定的针对词间关系的相关性信息的细节,比如,基于所自动确定的词间关系信息提供建议和/或基于用户反馈更新所自动确定的词间关系信息。
在这个示例中,图9A的中间词神经元网络995e是基于图2K的示例中间词神经元网络295c的,如参考图2K更详细地讨论该神经元网络295c的构造。例如,以与图2K中基于词的输入和输出节点280和283相类似的方式,图9A的中间词神经元网络995e包括各种基于词的输入节点980和基于词的输出节点983,以及在基于与图2K中示出的相似的中间词相关性值298的方式下,图9A还示出了中间词相关性信息999基于特定所选的示例输入节点980来指示对特定输出节点983的特定中间词相关性值。在这个例子中,以与所选图2K中输入节点280a和280c相似的方式,选择对应于词“邦德”和“类固醇”的输入节点980a和980c。参考图2K, 特定输出词的中间词相关性值298是基于相对于所选领域文档的这个特定输出词的平均非归一归一化TF-IDF值,以及基于确定是与所选输入词尤其相关来选择这些领域文档。因此,图2K的示例中间词神经元网络295c至少部分基于词与文集中所选文档的相关性来确定词之间的相关性,正如代表特定领域文档的图2K的内部节点290的部分反映的一样。相反,图9A的示例中间词神经元网络995e没有明显指示任何对应的特定基于文档的内部节点。因此,虽然在一些实施例中,图9A的内部节点985可以对应于图2K的内部节点285和290的组合,比如,如果用于输出节点983的确定的相关性值999是基于词与文集文档的相关性,那么在其它实施例中,针对图9A输出节点983的中间词相关性确定可以不基于各种词对应的文档,和/或,可以不基于TF-IDF值的方式来确定词彼此之间的相关性和/或词与文档之间的相关性。而且,应该理解,即使针对图9A的输出节点的中间词相关性决定开始是基于确定的各种词对应的文档,和/或,开始基于使用TF-IDF值确定的相关性信息,但这种中间词神经元网络的链接、它们关联的权重和合成输出节点值可以基于反馈随后进行修改,因此,中间词神经元网络的当前版本不再基于这些初始确定。更一般地,如参考图2I更详细地讨论,图9A中的内部节点985的一个或多个层可以代表各种计算,以作为基于特定所选输入词980生成针对特定输出节点983的中间词相关性数值999的部分执行该计算。因此,虽然为了简洁的目的,在图9A中仅示出了内部节点985的单一集合,但是应该理解,一些这种神经元网络可以具有内部节点的附加层。此外,图9A的中间词神经元网络995e还包括各种中间节点链接982和988,图2I-2L的讨论包括关于如何确定和使用这种作为中间词神经元网络的部分的链接的附加细节(比如,如何确定与一些或所有这种链接相关联的权重,以及如何使用反馈来更新权重和/或链接)。
图9B示出了与图9A的神经元网络995e相似的中间词神经元网络995f,但是仅选择了单一输入节点980c(对应词“类固醇”)。因此,图9B的中间词相关性值905与图9A的相关性值999不同,图9B中对于节点983b和983d(对应于词“汉克亚伦”和“本垒打”)的值显著下降,以及图9B中相关性值905e显著升高(对应词“控告”)。可以直观地理 解这些相关性值的变化,基于先前所选输入词980a(对应词“邦德”)对应于输出节点983b和983d相对高的相关性,相关性值显著下降,以及基于先前所选输入词980a(对应词“邦德”)对应于输出节点983e相对低的相关性,相关性值显著升高。在实施例中,中间词相关性值是基于输出词对所选文档(该文档与所选输入词最相关)的相关性,中间词相关性值905的变化可以是部分基于不同组的文档,该文档被选为与图9B的单个所选输入词“类固醇”相关联,该单个所选输入词与图9A的所选输入词“类固醇”和“邦德”的先前组合相关联(比如,将参考图2E和9D讨论,使得仅图2A-2B的示例文档3和4被选作与图9B中的单个所选输入词“类固醇”尤其相关,而不是与图9A中所选输入词“类固醇”和“邦德”相关的先前组合的所有示例文档1-4相关)。此外,在图9B的示例中,示出的相关性值905a是针对输出节点983a(对应词“邦德”)的,而在图2K中未示出对于相似输出节点283a的信息298中的相应相关性值,比如基于输入节点280a是图9A中所选输入节点之一(虽然在其它实施例中,如果选择了多个输入词/节点,那么可以针对每个输出节点不计算和显示这种相关性值)。此外,图9B包括对应于词“坎塞科”的附加输入和输出节点980f和983f,该词“坎塞科”虽然不是与参考图9A讨论的词“邦德”和“类固醇”的组合特别相关的词(如图2E的行274f和列272e所示),但是是针对单个输入词“类固醇”高度相关的词。
图9C示出了示例简化的定向非循环图(“DAG”)990,该图代表了参考图9A-9B和2A-2M所讨论的示例领域的至少一些重要词间关系,比如,该关系可以用作贝叶斯网络的部分,该贝叶斯定理网络包括代表重要词间关系的概率表示。虽然以下的各种细节关于如何自动生成示例领域的DAG和相应贝叶斯网络,但是应该理解在这些示例中示出的网络结构和其它概率表示信息不是旨在精确地反映实际的文档文集(该文集完全捕获棒球领域感兴趣的各种信息)——替代地,这种例子中使用的信息是部分基于参考图2A-2B所讨论的示例领域文档1-5的,该信息由于受限的数据量可以产生与网络结构和其它概率表示信息相关的来自实际棒球领域的差异。
在图9C的示例中,示出了各种图节点990a-990h,该图节点对应于 图9B中示出的七个示例词以及附加示例词“亚特兰大勇士队”。在示例图990中,所示出的图节点990a(对应于词“邦德”)是直接依赖于其它五个图节点或否则受其它五个图节点的影响的,这五个图节点是图节点990b,990c,990d,990e,990g(分别对应于“汉克亚伦”,“类固醇”,“本垒打”,“控告”,以及“巨人”)。这五个其它节点的一些,它们自己可以直接依赖于其它图节点或否则受其它图节点的影响(比如,图节点990d受图节点990b的影响,图节点990c受图节点990e的影响,等等)。此外,在这个示例中,图节点990a-990h中的每个还可以具有由图节点确定或与图节点相关的相关联概率信息992或994,比如,先验概率信息992和条件概率信息994,尽管在一些实施例中可以不使用这种先验概率信息992。此外,虽然在其它实施例中图节点可以表示其它类型的值(比如,多于两个离散值,在特定范围内的连续值,等等),但是在这个示例中,各种图节点990a-990h被视作每个图节点仅具有两个可能值的离散随机变量。图9F和9G提供了关于这种所确定的概率信息和可能的节点值的附加细节。在其它实施例中,构造的图990可以替换为具有其它形式,比如不是DAG(比如,包括一个或多个循环)、具有至少一些节点是连续的随机变量或否则是具有非离散随机变量的形式,等等。以及更一般地,词间关系可以非图的形式来表示。
为了构建在这个例子中的示例图990,首先连续地选择示例领域的每个词作为代表示例领域的中间词神经元网络(比如,图9B的中间词神经元网络995f)的独立输入节点,以及选择具有最高相关性的中间词相关性值的输出节点作为代表具有所选输入节点的重要词间关系的候选者,以使对应所选输出节点的词很可能受针对所选输入节点的词的影响。在中间词相关性是至少部分基于词对文集中文档的相关性的实施例中,独立的选择各种输入词可以导致选择不同的文档来作为与这些所选输入词最相关的文档,如参考图9A和9B所讨论的。此外,虽然可以为一些或所有未示出的示例词相似地选择各种其它文集文档,以及可以为各种未示出的其它示例词相似地选择文档,但是,图9D示出了指示示例文档1-5中特定一个的示例信息910,可以选择该示例文档1-5来与八个示例词中的每个一起使用。如在其它地方更详细地讨论地,可以在多种实施例中以多种方 式选择需要使用的特定文档,例如,以下:固定数量或比例的文档(比如,十个,一千,等等),比如根据所选输入词对文档的TF-IDF相关性值归类,根据由相应网络(比如图2L的神经元网络295a)确定的词对文档的相关性值归类,或者以其它方式;所有文档是在TF-IDF值之上的固定值,固定词对文档的相关性值或其它值,或在这种TF-IDF值的百分比之上,这种词对文档相关性值或为所有文集文档所选的输入词的其它值的百分比;选择所有文集文档但是改变它们的影响(例如,根据文档对所选输入词的相关性将每个文档的贡献加权到最相关候选的其它词,比如基于所选输入词和文档的TF-IDF值,基于由相应网络确定的词对文档相关性值,或者替代地以其它方式);等等。如其它地方所讨论的,虽然TF-IDF值用作图2A-2M示例的部分,比如初始化相应网络的词对文档的相关性值,但是在其它实施例中,可以其它方式来确定词对文档的相关性和/或词对其它词的相关性。在这个例子中,例如可以基于具有的TF-IDF值或针对所选输入词的词对文档的大于0.400的相关性值来选择相关文档。在为每个所选输入词选择相关文档(和/或所选相对权重用于一些或所有可能文档中的每个文档)之后,通过使用TF-IDF值或针对其它词对这些所选相关文档的词对文档的相关性值可以确定每个其它输出词与所选输入词的相关性,例如,基于这种TF-IDF值的平均值或词对文档的相关性值。关于创建中间词相关性神经元网络来模拟这些信息的附加细节包含在图2I-2L中,包括:在初始创建以反映各种用户反馈之后修改这种中间词神经元网络,所述反馈会引起各种中间词相关性值与仅基于文集文档分析来确定的初始TDF-IF值不同。此外,可以多种方式而非以输出词的TF-IDF值的平均值的方式或以对于这些文档的词对文档的相关性值的方式来确定特定输出词对多个相关文档的相关性。
因此,对于这个示例以及仅使用这五个示例文档1-5的目的在于,图9E的其它输出词“本垒打”对图9E的所选输入词“控告”924b的相关性可以是0.267(如图9D的行914b所示出的,TF-IDF值或针对词“本垒打”对示例文档3的词对文档的相关性值,文档3是五个示例文档中唯一选作与输入词“控告”相关的文档),而其它词“控告”922b对所选输入词“本垒打”924a的相关性可以是0.000(如图9D的行914a所示出的, TF-IDF值的平均值或针对词“控告”对示例文档1和2的词对文档相关性值的平均值,文档1和2是五个示例文档中选作与输入词“本垒打”相关的示例文档)。如所示出的图2E的示例信息920,以这种方式,先前构建的代表了这种中间词信息的中间词神经元网络可以用于为每个独立所选的输入词924提供所确定的针对其它词922的中间词相关性信息。此外,虽然在图9E的示例中未示出这种归一归一化,但是在一些实施例中,归一归一化各种所确定的中间词相关性值(比如,在0至1之间)。
为每个所选的输入词确定针对各种输出词的各种中间词相关性信息之后,可以基于具有足够高的中间词相关性值来选择与各种输入词最相关的输出词。此外,在这个示例中,如果所选的两个词是彼此相关的,那么仅选择具有较高中间词相关性的关系表示在图中,以便提供这两个词之间提供最大影响的导向。以这种方式,可以使用图9E的表920中的信息来识别图9C的图990的结构(除了词“亚特兰大勇士队”以外,该词未在图9E中列出),以及选择中间词相关性值来识别为了方便以粗体示出的词之间的影响关系。应该理解,在期望的非循环图的实施例中,如果需要防止循环,那么就可以采取附加的措施,比如去除一个或多个影响链接,或在其它实施例中替代为以其它方式,该影响链接为循环的部分(比如,影响链接具有该循环中最低相应中间词相关性值)。此外,如在其它地方更详细地讨论,可以在多种实施例中以多种方式选择在输入词和输出词之间的用于图中的特定词间关系,例如,以下:固定数量或根据中间词相关性值归类的输出词对于每个输入词(比如,十,一千,等等)的百分比;所有输出词大于固定的这种中间词相关性值或所有输出词大于这种中间词相关性值对所选输入词和所有可能的输出词的百分比;等等。为了简单的目的,在这个示例中,选择具有中间词非归一归一化的相关性值大于0.400的输出词。此外,允许输入词影响图中的任意特定输出词,还可以在多种实施例中以多种方式限制输入词,例如,固定数量或这种输入词影响每个输入词(比如,十,一千,等等)的百分比。
在以这种方式确定图9C的示例词间关系图990的结构之后,可以多种方式确定示例的概率信息992和/或994。图9F示出了先验概率信息992b和992g(分别对应“汉克亚伦”和“巨人”)的示例,在这个示例中, 这两个概率信息被当作仅具有两个值的离散随机变量,对应于用户在该词中具有偏好或其它兴趣,或替换地在这个词中不具有偏好或其它兴趣(或具有负面偏好或兴趣)。如前所述,在其它实施例中,先验概率信息可以具有不包括两个值的离散随机变量的形式(比如,具有多于两个离散值的离散随机变量,具有在特定范围内的连续值的连续随机变量,等等)。因此,例如,指定用户(该用户对词“汉克亚伦”感兴趣)的在先概率992b在这个示例中被识别为5%,以及对词“汉克亚伦”不感兴趣的相应概率值为95%。指定用户(该用户对词“巨人”感兴趣)的在先概率992g在这个示例中被识别为10%(以及因此,对词“巨人”不感兴趣的相应概率值为90%,为了简洁的目的未示出)。可以多种方式自动地评估这种先验概率信息,比如使用整个文集文档上的词的IDF值作为用户可能感兴趣的词的反面表示(比如,将最低IDF值赋予兴趣词的最高在先概率,比如,预定的最大在先概率;以及将渐增IDF值成比例地给予其它感兴趣词的较低在先概率),或以其它方式替代。在其它实施例中,可以不确定和使用这种先验概率信息。
图9G还示出了条件概率信息994a和994d(分别对应词“邦德”和“本垒打”)的示例,在这个示例中将这两个概率信息当作仅具有两个值的离散随机变量。因此,例如,关于词“本垒打”的条件概率信息994,其在这个示例中仅受词“汉克亚伦”的影响,条件概率信息994d示出了针对于用户对词“汉克亚伦”感兴趣的每个可能值指定用户对词“本垒打”感兴趣的概率。在这个示例中,如果指定用户对词“汉克亚伦”感兴趣,那么指定用户也对词“本垒打”感兴趣的概率是88%,但是如果指定用户对词“汉克亚伦”不感兴趣,那么指定用户对词“本垒打”感兴趣的概率将下降到23%。以相似的方式,对于词“邦德”的条件概率信息994a,其在这个示例中直接受每个词“汉克亚伦”、“巨人”、“本垒打”、“类固醇”和“控告”的影响,条件概率信息994d示出了针对于用户对其它的五个词(“邦德”依赖于该五个词或否则受该五个词的影响)感兴趣的每个可能的组合值,指定用户对词“邦德”感兴趣的概率(尽管仅示出了可能组合的子集,没有示出对词“类固醇”和“控告”的信息)。
可以多种方式自动确定这种条件概率信息994a和994d。例如,可以 独立地连续选择可能的词值的每个组合,以及将每个组合用作所构建的代表领域的中间词相关性神经元网络(图9B的中间词相关性神经元网络995f)的输入,该网络具有用于跟踪输出词“邦德”的各种相应相关性值。然后可以多种方式将这些相应相关性值转换为概率值(比如,将输出词“邦德”的相应最高中间词相关性值给予对输入词组合感兴趣的最高概率值,比如,预定最大概率;以及将输出词“邦德”的相应渐降中间词相关性值成比例地给予对其它输入词组合感兴趣的较低概率值),或以其它方式替代,如在其它地方更详细地讨论。例如,在一个特定实施例中,将中间词神经元网络看作是限定了词空间的马尔可夫层(Markov Blanket),为以下形式:
p(d|t:U,V,α,γ)=∫d(params)(forwardcomputation of d throughNN)exp(-E(d))
等式6
其中d是输出词,其中,U,V,α,γ和E(d)是在关于图2I-2L中所详细讨论的中间词神经元网络的参数。例如,E(d)是中间词相关性神经元网络的成本函数,如下:
等式7
给定中间词神经元网络的参数U,V,α,γ的确定性集合,那么假定固定值是由迪拉克δ函数给出的概率密度函数的积分,剩下的评估问题作为对值t的积分,假定是词节点d的父节点。假定神经元网络的参数是固定值,那么可以确定的解该积分,导致以下结果:
等式8
其中,等式6中概率密度函数的归一归一化导致S形的或柔和的(SoftMax)函数来保证概率在范围0至1之间。因此,由p(d|t)给出了对于父节点值的每个组合t的词d的条件概率表(比如,使用数字1来表示正面兴趣,以及数字0或-1表示负面兴趣或中性兴趣)。此外,对于词的组,可以计算在父节点的全集合之上的词集合的联合概率。如在其它地方更详细地讨论,为了运行效率(以及将来自用户偏好的大的集合的证据内置在模块中,可以生成决策树,并将该决策树用作参数化可生成的模块。
此外,对于具有限定证据集合(偏好词)的指定用户,可以通过执行对生成证据的子图、偏好中的特定词、以及词X的推断来确定用户对其它词X偏好的可能性。在这种情况下,其中X与所确定网络结构中的所有证据节点断开,没有结果的指示可以被返回。当存在生成证据和词的图时,可以在图中执行大概地推断(比如,使用Gibb采样,基于马尔代夫链卡洛采样仿真,使用变化方法,等等),以便通过非证据初始化的节点估计该用户给定证据的词X的概率的边界。在其它实施例中,比如,如果所生成的贝叶斯网络是足够小的,和/或,响应时间的速度是不重要的,那么可以替代为在至少一些情形下执行正确的推断。
因此,一旦确定附图9C的图990中的中间词图结构和概率信息,那么就可以将该图用作贝叶斯网络,该网络的信息是感兴趣领域的重要词间关系的概率表示。因此,附图9H以与附图9C的图990相似的方式示出了这种贝叶斯网络的子集970。在这个示例中,已经获得了关于指定示例用户(用户X)偏好的证据,该证据包括对词“汉克亚伦”和“本垒打”的正面偏好、但是对词“巨人”的负面偏好(或无偏好),这些偏好分别反映在新特定用户证据的节点993b、993d和993g中,并被添加到了贝叶 斯网络子集970中。此外,在这个示例中,仅示出了与目标词“邦德”相关的贝叶斯网络的子集和可用证据——因此,分别对应于词“控告”和“类固醇”的节点990e和990c在这种情形下不会用来基于缺乏用户对这些词的感兴趣的证据以确定用户X对词“邦德”感兴趣的概率(尽管在其它实施例中,可以考虑关于先验概率信息992e和/或条件概率信息994c的信息,该信息可以影响被用户偏好的这些节点的概率)。因此,指定的特定用户证据993b、993d和993g(以及忽略节点990e和990c的影响),所做出的对特定用户的确定是用户X具有92%的对目标词“邦德”感兴趣的概率(由附图9G的行994a-f中的信息994a反映,为了示例的目的,再次忽略节点990e和990c的影响),如在这个示例中由所确定的偏好概率值996a所示出的。相似地,也可以做出的确定是用户对贝叶斯定理网络的其它词节点的偏好的概率、指定用户X偏好的可用证据,比如对节点990h(对应于词“亚特兰大勇士队”)和/或其它节点,但是这种确定未在图9H中示出。一旦为一个或多个这种目标节点确定了偏好概率,那么就可以选择特定的目标节点以当作是非常可能代表特定用户的附加偏好,该附加偏好仍然没有被用户表达或对于DSRD服务不可用,比如在这个例子中,具有未表达的对词“邦德”的偏好。可以多种方式选择这种特定目标节点,例如,以下:固定数量或由所确定的偏好概率值归类的这种目标词的概率;大于固定的这种所确定偏好概率值的所有目标词的值或者大于对于所有可能目标词的这种所确定的偏好概率值的百分比;等等。
如先前所讨论的,也可以生成一个或多个决策树,每个决策树表示贝叶斯网络子集或表示词间关系信息的其它概率表示。图9I示出了决策树915的示例,该决策树被构建来表示图9H中示出的贝叶斯网络的部分(该部分是节点990a、990b、990d和990g,为了简单化,再次假定对于这个示例,其它节点990e和990c对相应于词“邦德”的节点990a没有影响)。决策树的各种八个端节点917h-917o对应于图9G的8行994a-h至994a-a,以及如图9G的信息994a的列994a-4所示,对于每个这种端节点具有与词“邦德”对应的图节点990a的相应的偏好概率值。决策树的附加决策节点915a-915g对应于三个决策树节点990b、990d和990g的变化值,在这个示例中,三个决策树节点990b、990d和990g被认为对图 节点990a的偏好概率值有影响。因此,通过使用针对用户X的图9H的特定用户证据993b、993d和993g,可以指定的方式遍历决策树915,如下:通过沿着从决策节点915a左边的箭头(对应于词“汉克亚伦”的正面偏好),接着通过沿着从决策节点915b后边的箭头(对应于词“巨人”的负面偏好或中性偏好),以及然后沿着从决策节点915e左边的箭头(对应于词“本垒打”的正面偏好),进而到达表示对词“邦德”具有92%的偏好概率值的端节点917j。应该理解可以多种方式生成、编码和编译这种决策树以提高运行时间中针对特定用户的特定偏好证据的处理的速度。
此外,如其它地方所讨论的,在一些实施例中,可以将针对一个或多个第一领域的所确定的中间词相关性信息扩展到一个或多个第二领域(例如,通过对这些第一领域和/或对应这些第一领域的用户反馈的文档分析来获得),对于该第二领域,仅有限的或没有用户偏好信息是可用的。附图9J示出了与附图9C的图990相似的示例图960,但是,在这个示例中,图960已经被扩展了,以便识别相对于来自感兴趣的第二领域的新词的中间词相关性信息。特别地,在这个示例中,分析各种文档或其它内容项对应于美国的电影领域,以及在电影领域中的新词和棒球领域的现有词之间识别各种重要的中间词概率关系。在这个示例中,与电影相关的词对应于电影的题目,因此,所扩展的图960是贝叶斯网络,该网络不仅包括图节点990a-990h,还包括对应于九个示例电影的新图节点960a-960i(此外,对于用作该示例的一部分,添加对应于词“奥克兰运动家”和“马克麦奎尔(Mark McGwire)”的两个附加的与棒球领域相关的节点990i和990j,这两个节点影响之前示出的现有节点990g和990f)。
特别地,在这个扩展实施例中,从现有的图节点990d自动识别对多部与棒球相关的电影的影响,在所述电影中,“本垒打”是情节的重要部分,在这个示例中,所述电影包括电影“公牛达勒姆”、“自然”以及“汉克亚伦:追求梦想”。可以与之前所讨论的相似的方式来确定自动识别的影响,比如,通过分析包括电影情节的概要和/或评论家对电影的评论的内容项,以及识别词“本垒打”对这些电影的重要相关性——此外,如在其它地方更详细地讨论,在没有关于任何用户对词“本垒打”和任何所指示的电影感兴趣的任何信息时(或更一般地,在没有关于任何用户对任何 电影偏好的信息时),可以选择地执行这种附加影响的自动识别。此外,在这个示例中,还确定了各种其它重要的中间词概率关系,比如如下:在与棒球相关的电影“公牛达勒姆”和与棒球相关的电影“印第安纳州人”之间(比如,基于两部电影均是在最佳的与运动相关的电影的列表上,或否则对于第二和/或第一领域,将两部电影在内容项上进行比较);在“自然”和“虎豹小霸王”之间(比如,根据两部电影均是罗伯特雷德福作为主演);从“自然”和“印第安纳州人”到“下坡赛车”(比如,基于这两部电影中的主演也是后者电影的主演);在“自然”和“普通人类”之间(比如,基于罗伯特雷德福是一部电影中的主演以及是另一部电影的导演);在“普通人类”和“愤怒的公牛”之间(比如,基于这两部电影在同一年被提名为最佳图片,和/或否则是一起被讨论的);等等。应该理解,可以在多种实施例中以多种方式识别电影之间的关系、与棒球相关的词与电影之间的关系。此外,给定这种所扩展的贝叶斯网络,可以使用给定的用户在与棒球相关的领域中的偏好来识别可能的目标电影,该目标电影也是用户偏好的。例如,给定在图9H中所讨论的用户X的证据(包括对词“汉克亚伦”和“本垒打”的偏好),可以推测用户X可能对诸如“汉克亚伦:追求梦想”、“自然”和“公牛达勒姆”之类的电影具有偏好,也可能对其它相关电影有偏好(比如“印第安纳州人”,“普通人类”,等等)。
如参考附图9F-G和其它地方所讨论的,可以在多种实施例中以多种方式确定用于贝叶斯网络的概率信息或其它所确定的与一个或多个领域相关的概率关系数据结构,包括:基于对领域文档的分析,以及可选地,没有任何实际用户在特定词间关系中的兴趣的反馈,此外,如前所述,如果这种实际用户感兴趣的信息是可用的,那么可以随时将实际用户的信息合并到来自自动化文档分析的所自动确定的词间关系消息中(比如,作为初始创建概率信息的一部分;更新仅基于自动的文档分析来初始确定的概率信息;等等);以及在一些情形和实施例中,可以用实际用户感兴趣的信息替代根据自动化文档分析所自动确定的词间关系信息(比如,如果足够的实际用户感兴趣信息变为可用)。图9K示出了图9F的先验概率信息992b的更新示例以及图9G的条件概率信息994a的更新示例,比如,如果基于来自自动化文档分析的所自动确定的词间关系信息生成概率信息 992b和994a的初始版本,以及概率信息992b和994a的更新版本至少部分基于实际用户感兴趣的信息。例如,图9K示出了与用户对词“汉克亚伦”的兴趣相关的所更新的先前概率信息992b反映了指定的用户对词“汉克亚伦”感兴趣的18%的当前在先概率,从指定的用户对词“汉克亚伦”感兴趣的之前的5%的在先概率更新而来。此外,图9K中所更新的条件概率信息示出了对于行994a-a(从0.12到0.09)和994a-f(从0.92到0.87)中指定用户对词“邦德”感兴趣的概率994a-4进行的更新,如果与这些行的输入值的组合相关的实际用户兴趣变为可用,则可以相似地更新其它行的值。还可以将这种所更新的概率信息用于相应贝叶斯网络的更新版本和/或决策树的更新版本,如参考图9L和9M更详细地讨论。
因此,至少在一些实施例中,可以获得和使用所自动确定的关于领域的词间关系的信息(比如,基于对领域文档的分析),以及可以获得和使用不同实际用户感兴趣信息,该信息反映领域词间关系。在这两种类型的信息均是可用的情形下,可以多种方式组合这两种信息。例如,如先前所讨论的,图9A和9C示出了中间词网络的示例,基于对领域文档的自动化分析可以生成该中间词网络,以及可选地,基于用户的反馈可以修改该中间词网络。虽然在此处未示出,但是在一些实施例中,可以生成一个或多个相似的中间词网络,该中间词网络反映用户实际感兴趣的信息,但是可选地,在一个或多个方式中,该中间词网络不同于由自动化文档分析所生成的中间词网络。例如,与图9C相比,可以基于实际的用户感兴趣信息生成相似的中间词网络,但是该中间词网络缺少图9C中从词“控告”990e到“邦德”990a的现有链接(例如,基于少量的用户或基于无用户,该用户实际上指示了对于同时的这两个词的正面兴趣和/或负面兴趣),以及所述中间网络还包括与图9C中从词“坎塞科”990f到“邦德”990a相关的新链接(比如,基于少量的用户或基于无用户,该用户实际上指示了对于同时的这两个词的正面兴趣和/或负面兴趣,比如至少部分基于乔斯坎塞科的本垒打的能力)。此外,这种相似的实际用户感兴趣的中间词网络可以包括特定词的不同相关度(比如,如条件概率表中所反映的和/或对于实际用户感兴趣的中间词网络的先验概率信息),是否替代或除了一个或多个结构上的差异之外,该差异在与自动化文档分析的中间词网络 相关的实际用户感兴趣中间词网络中。如果对应于相同领域的自动化文档分析的中间词网络和实际用户感兴趣的中间词网络的数据均是可用的,那么对于相同的领域,可以多种方式使用该数据。比如,为了根据指定的已知用户偏好的特定集合生成建议的特定集合,可以在一些实施例中使用这些已知的用户偏好来独立评估这两种类型的网络,以及将来自这两个网络的结果可以集合在一起。可替换地,可以多种方式使用对应于这两种类型图的数据来构建单个集合中间词网络,以及可以使用该单个集合中间词网络提供对应于已知用户偏好的特定集合的建议。例如,构建该单个集合中间词网络可以包括:使用关于实际用户感兴趣网络的结构信息以及来自自动化文档分析的中间词网络的数据指定词之间的相关度;或者更一般地,所述构建该单个集合中间词网络可以包括:使用来自网络之一的数据以削减和/或补充其它网络的结构;和/或更一般地,所述构建该单个集合中间词网络可以包括:使用来自网络之一的数据来调整针对其它网络的词间关系的强度或影响。因此,如上所讨论的,在至少一些实施例中,可以自动地将中间词相关性信息(该信息从对文集文档的自动化分析中获得)与关于用户的中间词相关性数据(该数据以其它方式获得,比如协作滤波,等等)集成,在单独使用任何一个这种技术时提供潜在的益处。
应该理解的是可以在多种实施例中以多种方式对所确定的概率信息进行更新,以及该更新可以反映各种因素。例如,对词“汉克亚伦”的先验概率信息992b的更新可以反映所初始分析的领域文集中的文档主要集中在当前的新闻上,所以,当前用户在至少一些历史队员上的兴趣可以高于由所分析的领域文集文档所指示的兴趣、可以反映相对于初始分析的领域文集文档对应的时间对词“汉克亚伦”近来增长的兴趣。当基于对领域文集文档的自动分析,将实际用户感兴趣信息与所自动确定的用户感兴趣信息组合时,可以多种方式执行该组合,比如,通过加权一种或两种类型的用户感兴趣信息(比如,将较大的权重给予被认为是更精确的信息类型,将较大的权重给予最近的信息类型,等等)。作为一个简单化示例,基于对领域文集文档的自动化分析来确定用户感兴趣信息可以被当作是来自10个用户的实际用户感兴趣信息的等价物,以使得如果确定20个实际用户中有5个对词“汉克亚伦”感兴趣,那么在这个示例中指示了更新 的先验概率信息(即,(5+0.05*10)/(20+10)=0.183)。可选地,指定给实际用户感兴趣信息的权重可以基于实际用户的数量而改变,比如,仅对第一批少量用户的实际用户兴趣给出了有限的权重(比如,使得防止异常信息对所组合的概率信息产生异类效应),随着用户数量的增加按照指数级增加该权重,以及可选地,当实际用户的数量满足足够的数量时,基于对领域文集文档的自动分析,最终抛弃或忽略(或给予非常小的相对权重)所自动确定的用户感兴趣信息。可以与更新先验概率信息992b相似的方式来更新针对输出词“邦德”的条件概率信息。例如,参见关于行994a-f的词“邦德”的概率994a-4的变化,可以基于一个或多个用户来减少该概率,确定该一个或多个用户对词“汉克亚伦”和“本垒打”感兴趣(对应于行994a-f中的列994a-1和994a-3的“是”值),以及对词“巨人”实际上没有兴趣(或负面兴趣)(对应于行994a-f中列994a-2的“否”值),以及还对词“邦德”实际上没有兴趣(或负面兴趣)。
图9L示出了所更新的决策树918的数据结构,该决策树与图9I的决策树915相似,具有相同的决策节点915a-915g,但是图9L示出的端节点918h-918o反映了对应于词“邦德”的当前条件概率信息。特别地,在这个示例中,相对于图9I中的节点917j和917o以更新了节点918j和918o;以及在这个示例中,节点918j示出了图9K中列994a-4和行994a-f中的所更新的概率值87%;以及在这个示例中,节点918o示出了图9K中列994a-4和行994a-a中的所更新的概率值9%。因此,当实际用户感兴趣的信息变成可用以更新概率信息(比如图9K的信息994a)时,可以更新相应的决策树信息以在将来使用。因此,例如,根据所更新的决策树918的节点918j,将确定附加用户对词“邦德”具有的偏好或具有的其它兴趣的概率是87%,所述附加用户被决定是对词“汉克亚伦”和“本垒打”具有偏好或具有其它兴趣,但是对词“巨人”不具有偏好或不具有其它兴趣(或负面偏好或兴趣)。
在与图9L相似的方式中,图9M示出了所更新的贝叶斯网络部分970b的数据结构,该部分970b与图9H的贝叶斯网络的部分970相似,具有相同的图节点990a-990e和990g,但是具有图9M中示出的证据节点997b、997d和997g,这些证据节点为新用户反映证据(在这个例子中, 用户是Y),该新用户具有与图9H中的示例用户X相同的所指示的偏好信息。特别地,在这个示例中,相对于图9H中的用于相同节点条件概率信息表,已经更新了针对图9M中的图节点990a(对应词“邦德”)的条件概率表信息994a(未示出),例如,在这个例子中,反映了图9K中列994a-4和行994a-f中的所更新的概率值87%(也反映图9K中列994a-4和行994a-a中的所更新的概率值9%)。可以相对于图9H中的相同的图节点来相似地更新针对图9M中的图节点990b(对应于词“汉克亚伦”)的先验概率信息992b(未示出),以反映图2K中所更新的先验概率信息992b,但是在这个示例中未使用所更新的先验概率信息992b。因此,因为实际用户感兴趣信息变为可用以更新概率信息时(比如图9K的信息994a),所以可以更新对应的贝叶斯网络的信息(比如对于贝叶斯网络的部分970b)以用于将来。因此,在这个示例中,关于用户Y,确定其对词“汉克亚伦”和“本垒打”(如证据节点997b和997d所示出)有偏好或其它兴趣,但是对词“巨人”(证据节点997g所示出)没有偏好或其它兴趣(或负面偏好或兴趣)。如图9M中所确定的偏好概率值996b所示出的,确定用户Y对词“邦德”有偏好或其它兴趣的概率是87%。
因此,可以更新与词间关系的概率表示相对应的信息(例如,可以至少部分地基于与领域有关的文档的自动分析来确定)以反映变为可用的实际用户感兴趣信息,例如,如图9K-9M所示出的方式。此外,在一些情形下,这种实际用户感兴趣信息可以识别附加的词间关系,该附加的词间关系仅基于先前可用的信息没有在事前被确定为是足够相关的,如果是这样的话,可以更新所生成的词间关系的概率表示来反映附加的词间关系。如一个示例一样,可以更新中间词相关性神经系统网络或其它中间词相关性信息的表示来反映实际用户感兴趣的信息,以及基于所更新的中间词相关性信息,可以新生成词间关系的概率表示。在其它实施例和情形下,可以其它方式更新至少一些类型的所生成的词间关系概率表示的信息。
如前所关注的,图2A-2M示出了用于确定和使用与一个感兴趣示例领域相关的相关性信息的技术示例,比如,该技术示例可以由DSRD服务的实施例自动执行,以及该技术示例包括与图9A-9J中所讨论的各种示 例相关的附加细节。
例如,图2A和2B示出了有关是特定示例的感兴趣领域的一部分的几个文档的概要信息示例,以及,可以由与该领域相关的该文档的DSRD服务的实施例生成该示例词分析信息。特别地,如示例概要信息200所示出的,该示例的感兴趣领域涉及棒球,以及在这个示例中,该领域可用的特定领域文档的文集包括1000个文档(比如,新闻文章、运动员传记、队概况,等等)。
在这个示例中,信息200包括出现在文集中的较少的示例词的概要以及这些示例词的IDF信息。特别地,所示出的几个词202a中的每一个具有唯一的词ID 202b,这些词包含在文集中多个文档202c的表示中,以及IDF值202d对应于这些词和文集文档。也可以生成和存储各种其它的概要信息,但是在这个示例中未示出。此外,在这个示例中,表200的每行204反映了区别的词,比如,行204a对应于共用词“the”,该词呈现在文集中1000个文档的每一个中,因此具有IDF值零。在这个示例中,基于IDF值分类行204,以使后续的词具有渐增的IDF值,这反映了后续的词比先前的词出现在较少的文集文档中,因此也与它们出现的这些文档具有更大的的其别。在其它地方包括关于计算IDF值的附加细节。此外,在一些实施例中,作为对文档词分析的一部分,可以去除一些共用词和其它所指示的词(比如,词“the”),因此,可以在这种概要信息200中不示出这些词,或者可以将这些词用于稍后确定与相关性相关的信息。此外,在这个示例中,一些词202a包括多个相关词的短语,比如“本垒打”和“汉克亚伦”,而其它有时可以一起使用的词(比如“巴里邦德”和“博比邦德”)以独立词示出。应该理解的是可以多种方式确定这些多词集合词,比如,基于它们一起重复使用和没有独立使用来自动地确定、基于该领域共用词字典中这些词的内含物和其它相似信息来自动地确定、基于来自DSRD服务的操作者的输入来至少部分地以手动的方式来确定,等等。如在其它地方更详细地讨论,在其它实施例中,至少最开始,每个词语可以被当作是独立词,以及可选地,基于词被用户一起重复使用的这些词的中间相关的已知相关性在随后组合在一起作为共用多词主题的一部分。
在图2A和2B中示出了其它示例表210、220、230、240和250,每 个表反映了文集中的一个示例文档,这些表包括关于这些文档中示例词的多种信息和对于这些词和文档的相应词相关性信息。特别地,在这个示例中,对应于示例文档1的信息210是与巴里邦德相关的新闻文章,所述Barry邦德为旧金山巨人打球的同时创造了2007年的职业本垒打(“HR”)记录,超过了由汉克亚伦保持的前记录。当邦德继续保持该本垒打记录的同时,也有关于在棒球大联盟(Major League Baseball)中有关运动员中类固醇争论的重要的新闻报道,稍后邦德被指控,该指控涉及到他使用类固醇的声明。
每个在表210中的不同的项214对应于出现在1500字的文档中的词212a的示例子集,例如,词“邦德”在项214a中、词“汉克亚伦”在项214c中,等等。也示出了每个词在文档1中出现的次数212b和相应的词频值212c。这里也为这些词复制IDF值212d,所述IDF值212d对应于信息200中的相同值202d。此外,基于词频值212c和IDF值212d,每个项214包括TF-IDF值212e。例如,在项214a中的词“邦德”被指示在文档1中出现了35次,这导致了该项在1500字的文档中的频率是2.33%。如对应于信息200的项204d的信息202d一样,词“邦德”的IDF值212d是1.10;在这个示例中,在项214a中邦德的TF-IDF值212e是2.559。在这个示例中,以递减TF-IDF值的顺序示出了项214,这表示,词“邦德”是最能描述所示出的这个文档的,而其它诸如分别在项214i和214j的“the”和“控告”之类的词是不能描述这个文档的(比如,由于词“the”出现在文集的所有文档中,因此具有的IDF值是零;以及由于词“控告”没有出现在这个示例文档中,因此具有的词频值212c是零)。为了解释的原因,虽然在这个示例的文档1中包含词“控告”,但是在其它实施例中,因为该词并未出现在文档1中,所以该词将不包含在信息210中。在其它地方包含关于计算TF和TF-IDF的附加细节。
表220、230、240和250分别包含针对示例文档2、3、4和5的相似信息。特别地,示例文档2是巴里邦德的传记纵览,焦点在于邦德的多种成就,包括各个项224中所示出的相应词222a。示例文档3是关于控告邦德可能滥用类固醇相关的新闻文章,包括各个项234所示出的相应词232a。示例文档4对应于一个事件,该事件发生在邦德的控告之前在 大联盟棒球中发动的一些类固醇相关的争论;特别地,该示例文档4对应于前棒球大联盟运动员乔斯坎塞科在国会有关棒球大联盟中使用所谓的类固醇的证词;该示例文档4具有在各个项244中所示出的相应词242a。示例文档5是来自2008年棒球大联盟赛季中间的新闻文章,焦点在于旧金山巨人队的目前状态,具有各个项254中所示出的相应词252a,邦德在007赛季之后将退役。如参考附图2C-2M更详细地讨论,针对这个示例的棒球相关领域,根据确定的相关多词主题和其它词间关系,以及根据针对特定词的确定的相关文档,使用这些示例文档的示例词信息来显示一些所描述的技术。
图2C和2D示出了由用户指定的搜索查询的示例,其中,DSRD服务可以使用图2A和2B中所示出的针对文集中示例文档1-5的示例词分析信息来确定与该查询相关的特定信息。特别地,在这个示例中,图2C示出了由用户指定的查询,该查询包括查询词265a“邦德”和“类固醇”。所示出的各种信息261a表示该两个词中的每个相对于每个示例文档1-5的所评价的相关度,包括关于每个示例文档262的所生成的归一归一化总计的文档相关性得分或数264x。如以下更详细地描述,可以为每个词264和每个文档262生成归一化化文档相关性数;以及在这个示例中,基于这两个查询词的组合,平均有关文档中每个词的归一化得分来生成针对该文档的文档相关性数264x。特别地,在这个示例中,词对文档的相关性部分依赖于针对该词和该文档的TF-IDF值,以及部分地使用针对文集中所有文档的该词的最大和最小TF-IDF值来归一化该词对文档的相关性。虽然至少在一些实施例中,可以不向指定这个查询的用户示出这些信息267和/或表261a,但是,在这个示例中,示例267a-267d示出了针对这两个查询词的示例最小和最大TF-IDF值。下文包括了关于生成示例文档相关性数的附加细节。
在这个示例中,因为关于邦德的类固醇相关的控告的文档3的内容是与这两个查询词265a高度相关的,所以对于所述查询词,示例文档3具有最高的所生成文档的相关性值。如对于文档1的列262a和对于文档4的列262d、信息261a的项264a和264b中所示出的一样,根据示例文档1和4之一是与查询词之一高度相关而仅与另一词些微地相关(即是说, 文档1是高度相关于词“邦德”以及仅些微地相关于词“类固醇”,示例文档4是高度相关于词“类固醇”以及仅些微地相关于词“邦德”),示例文档1和4的每一个都中等相关于查询词265a的组合。其它示例文档2和5与查询词265a的相关度比其它三个示例文档低。
如前所述,可以在多种实施例中以多种方式确定特定文档对诸如作为主题部分的多个相关词之类的一个或多个指定词(比如词是搜索查询的一部分)的相关性。作为一个特定的示例,可以各种方式组合对于每个特定词和文档的每一个的TF-IDF得分,比如生成平均数或和。特别地,至少在一些实施例中,生成对于各种指定词的TF-IDF得分的平均数,以及还可以归一化该平均数(比如,表示相关性百分比或在0和1之间的其它数),以使得产生对于该指定词的归一化的文档相关性(“DR”)得分,以方便文档之间的比较和人们理解DR得分。至少在一些实施例中,可以按照如下公式来确定对于文档d相对于一个或多个指定词i的组g的DR得分:
其中,对g中的每个词i执行求和,NTerms(g)反映了组g中词i的数量,以及对于跨越领域中所有文档k中的特定词i,该特定词i的最小和最大TF-IDFi的得分分别反映了最低和最高的分数。
图2D示出了信息260的示例,响应于图2C中所示出的查询词265a“邦德”和“类固醇”,向用户展示或否则提供该信息260给用户。例如,信息260可以是产生的网页的一部分,或者可以是提供给用于显示的用户的客户设备,或否则可以是呈现给用户的信息屏幕的一部分。
特别地,在这个示例中,信息260包括指定查询词265a的可视指示266,以及对应于搜索结果的列表269以相关性的顺序示出。此外,在这个示例中,在列表269中的每个项不仅包括对应于相关文档的指示(比如,名称或其它文档标识符可以显示成用户可选的链接,可以由用户选择该链接来访问该文档),还包括对应于文档的所生成的归一化文档相关性数的指示,比如,向用户提供信息来评定是获得其它关于特定文档的信息,还 是选择与查询词265a相关的文档。虽然在其它实施例中,可以仅示出一个(或两者都不)归一化文档相关性数和相关联的文本评估(textualassessment),但是在这个示例中,每个所指示的归一化文档相关性数也包括该归一化文档相关性数的相关度的文本评估。此外,可以在多种实施例中以多种方式选择和示出特定的搜索结果,包括示出指定数量的查询结果、示出在指定最小文档相关性值之上的一些或所有查询结果,等等。
此外,虽然在其它实施例中未示出附加信息,但是,在这个示例中,提供了附加信息和用户可选控件268,用于用户的可能的选择。在这个示例中,附加信息268询问用户他/她是否想要扩展先前指定的搜索查询以进一步描述针对该领域的相关主题,以便通过指定更特别或不同的主题来提高搜索结果的准确性,该更特别或不同的主题比查询词265a更好地表示了用户的兴趣。作为一个可能的示例,如先前参考示例文档1和4所讨论的每个文档虽然与指定的查询词之一高度相关、但是仅与另外一个指定的查询词略微相关,通过澄清用户是否主要对棒球大联盟中的类固醇相关的争议(比如,当该争议不仅属于邦德,也属于其它运动员的时候)感兴趣或者可替换地通过澄清用户是否主要对关于邦德的信息(比如,邦德创造了职业本垒打记录)感兴趣,其中,该信息仅部分与邦德所声称的使用类固醇相关,用户可以提高搜索结果的准确性。更一般地,通过识别与用户的当前兴趣特别相关的附加词,合成的扩展查询词可以更好地消除与初始查询中的词相关联的各种可能主题的歧义。
参考图2E和2F更详细地描述这个示例,选择图2D的信息268中的用户可选的“是”控件可以提示DSRD服务的各种附加动作。特别地,根据所确定的其它词274与指定的查询词265a的估计的相关度的指示,图2E示出了与指定查询词265a“邦德”和“类固醇”可能相关的其它词274的信息270。在其它实施例中,可以其它方式提示对中间词相关性信息的使用,比如,在一些或所有情形下对一些或所有用户自动地执行(比如,为了显示附加信息和关于一个或多个其它词的可能相关性的图2D的信息260,替代或除信息268之外)。
可以多种方式使用图2E中的多种信息270,比如,进一步部分地定义用于精确搜索查询中的特定主题,或否则识别用户的普通兴趣,其中, 该精确搜索查询是部分根据初始的指定查询词265a的。例如,虽然在所示出的实施例中,没有向用户显示信息270,但是在一些实施例中,可以向指定该查询词265a的用户示出一些或所有这些信息270。在这个示例中,信息270包括多个词项274a-274f,每个词项对应于与查询词265a可能的组合的候选附加词,以及文档列272a-272d指示所评估的这些词对示例文档1-4的相关度。列272e指示了关于查询词265a的每个项274中的候选词的集合的词相关性得分,以反映所评估的候选词相对于查询词265a代表的词组合的相关度。可以在多种实施例中以多种方式选择多种示例文档272和候选附加词274。例如,首先可以通过选择文集文档的子集,来选择候选附加词,所述文件文档的子集被确定位于查询词265a最相关,例如,根据图2C中示出的归一化文档相关性数264x来确定首先可以通过该子集选择该候选附加词。可以多种方式选择最相关的文档,比如,选择具有最大文档相关性数的指定数量的文档、选择具有最大文档相关性数的指定百分比的文档、选择文档的文档相关性数是大于指定阈值或否则满足一个或多个限定标准的一些或所有文档(比如,预定阈值,例如最小的文档相关性数阈值;或所动态确定的阈值,例如,如果将具有相似文档相关性数值的文档分成组,则提供一组最相关文档和其它文档之间的自然出现的阈值点),等等。在图2E的这个示例中,根据图2C中的用于项264x的列262所示,示例文档5的低文档相关性数2%,在这个例子中,没有选择文档5作为将来使用的最相关的文档,但是,其它的示例文档1-4被选来用作相关文档。
在这个示例中,一旦为查询词265a选择了最相关的文档,那么就至少部分地基于这些所选的文档,为查询词265a选择候选附加词。例如,可以根据所选文档中的词而不是根据与这些文档最相关的查询词265a来选择候选附加词,比如,根据所选文档的这些其它词的TF-IDF值,和/或,根据所选文档的这些其它词的词频值。在这个示例中,在针对每个词项274和示例文档272的信息270中所示出的数反映了针对该词和文档的TF-IDF值。例如,参见对应于词“本垒打”的项274a,对于示例文档1中该词的词相关性值272a被指示是TF-IDF值1.333(如先前在图2A的信息210的项214b和列212e所指示的),以及项274a中对于示例文档2 中的词“本垒打”的词相关性值272b被指示是TF-IDF值1.125(如先前在图2A的信息220的行224b和列212e所指示的)。
此外,在这个示例中,在整个选择的文档中集合用于每个词274的词相关性值,例如,通过将这些单独的TF-IDF的特定文档值进行平均、以及在列272e中反映针对每个候选词274合成的所确定的集合词相关性得分或数量。在这个示例中,以候选词274确定的针对查询词265a的集合相关性值的递减顺序示出该候选词274,使得项274a中的候选词“本垒打”被确定为是与该指定查询词最相关的候选附加词,以及使得项274f中的候选附加词“坎塞科”被确定为是与所示出的指定查询词最不相关的候选附加词。根据所选文档组的考虑来选择特定候选附加词可以多种方式识别;比如,通过使用指定数量的来自每个文档或来自被确定是最可能相关的所有文档的其它词(比如,通过使用TF-IDF值,词频值,或其它独立文档词相关性值);通过使用指定百分比的来自每个文档或所有文档的最可能相关的其它词;通过使用一些或所有其它词,该其它词的TF-IDF值(或者其它独立文档词相关性值)是大于所指定的阈值或否则满足一个或多个限定标准(比如,预定阈值,比如最小相关性数阈值;或所动态确定的阈值,比如,如果将具有相似词相关性数值的词分成组,则提供在一组最相关的词和其它词之间的自然生成的阈值),该所指定的阈值针对至少一个所选文档、或所有所选文档、或所指定的最相关文档的一些最小子集;等等。在其它实施例中,可以其它方式选择候选附加词和/或相关文档,以及可以其它方式确定独立词相关性值和/或集合词相关性值。包括与生成示例词相关性得分或其它值相关的附加细节。
图2F继续图2A-2E的示例,并示出了信息275的示例。可以显示信息275,或者否则向用户提供信息275,信息275包括有关可能用于选择其它词的信息以及使用先前所指示的查询词265a,该信息以图2D中的可视指示266示出以及以图2F中的可视指示276示出。如前所述,可以多种方式提示对信息275的供应,比如,响应于图2D中信息260的信息268的选择“是”用户可选控件,或替换地以其它方式。此外,以与图2D的信息260相似的方式,可以各种方式向用户提供所示出的信息275,例如,作为网页的一部分被生成以及被提供给用户的客户端设备以用于显示,或 否则,作为信息屏幕的一部分呈现给用户(比如,作为在用户的计算机设备上执行的软件应用的GUI的一部分,比如,DSRD服务的操作者提供的软件应用程序用于利用DSRD服务;或替换地,由第三方提供)。
在这个示例中,信息屏幕275包括针对指定查询词265a的可能的其它相关词的列表279,比如,在这个示例中,根据至少一些图2E的候选附加词274生成该列表279。特别地,与其它词279相关的示例包括几个项279a-279e,根据在指定查询词265a和候选附加词274之间的词间关系,将项279a-279e选作是用户最可能感兴趣的,并且,根据图2E的集合相关性得分272e,以递减所确定的中间词相关性值的顺序示出项279a-279e。此外,虽然在其它实施例中,可以不包括或以其它方式示出这种中间词相关性信息,但是,在这个示例中,示出了每个所包含的可能其它词的中间词相关性的指示——在这个示例中,将来自图2e的列272e的所确定的词相关性的分转换到0到10的范围;被确定是最相关的可能的其它词具有可能的值10;以及被确定是不相关的可能的其它词具有较低值。虽然此处未示出,但是每个可能的其它词可以是用户可选的链接或否则具有一个或多个相关联的用户可选控件以允许该用户选择或指定该词是感兴趣的,比如,指定包括所选词,该所选词作为所修订查询的一部分,或否则将该所选词当作是用户感兴趣的词。在其它实施例中,可以其它方式显示中间词相关性信息,比如,指示来自图2E的所实际确定的词相关性得分272e以显示这个词相关性得分的归一化版本(以与先前参考图2D描述的文档相关性的分的相似方法),等等。此外,虽然没有以与图2D中词相关性值相似的方法在图2F中示出这些词相关性值的文本描述,但是在其它实施例中可以示出该词相关性值。
图2G和2H继续图2A-2F的示例,以及特别地,对应于用户可以通过诸如选择图2F中所指示的附加相关词或以其它方式之类的方式指定的两个备选的观念或主题。特别地,例如,图2G对应于示例,其中,根据对图2F中的列表279的项279a和279c的选择,用户选择附加其它词“本垒打”和“汉克亚伦”与在先词“邦德”和“类固醇”一起用作一组扩展的查询词265b。以与先前参考图2C的信息261a所讨论的相似的方法,图2G也包括附加信息261b,该信息指示多种示例文档1-5对所扩展的查 询词265b的相关性。可以多种方式使用图2G的多种消息261b,比如,确定新搜索结果,该搜索结果包括与所扩展查询265b最相关的文集文档,可以显示该新搜索结果或否则提供给用户(比如,以与图2D的结果相似的方法,比如部分基于附加查询词,向用户提供建议)。此外,虽然在所示出的实施例中,未向用户显示信息261b,但是在一些实施例中,可以向指定该扩展查询词265b的用户示出一些或所有这种信息261b。
在这个示例中,信息261b包括关于图2C信息261a的附加项264c和264d,该信息261a被添加到对应的这两个附加查询词中。因此,根据图2C的项264x中的在先文档相关性数,更新项264y中合成的集合归一化文档相关性数以反映增加了两个附加词。虽然在其它实施例中,可以其它方式(比如,使用加权平均)计算集合归一化文档相关性得分,但是在这个示例中,项264y中的集合归一化文档相关性信息继续依据针对四个所扩展的查询词265b中每一个的独立词相关性数的平均值。在这个示例中,增加的两个附加搜索词减少了所确定的对于示例文档3的相关性,该文档3先前被确定是图2C中与初始查询词265a最相关的文档。特别地,如信息261b的列262c和项264y所示,所修改的对于文档3的文档相关性得分从先前值84%减少到了当前值47%。此外,如信息261b的列262a和262b所示,相对于图2C的信息,示例文档1和2的相对相关性增加了,以使文档1被确定是与所扩展的查询词265b最相关的文档,以及文档2被确定是与所扩展的查询词265b次级最相关的文档。
在这个示例中,可以根据示例文档的总话题和使用所扩展查询词指定的主题,直觉地理解文档相关性数的变化。特别地,相对于图2C的两个初始查询词265a,图2G的所扩展查询词265b显得与棒球大联盟中的总体类固醇相关争议较少相关,以及与对巴里邦德和他所获得的本垒打记录特定的信息更多地相关。因此,现在与邦德创造本垒打记录相关的示例文档1的新闻文章变成与所扩展的查询最相关的文档,以及更一般地,与类固醇争议相关的示例文档4变成更不相关的。示例文档2和3至少继续与所扩展的查询词265b适度相关,如示例文档2关于邦德的传记和示例文档3关于邦德的控告均包括了对本垒打记录的讨论,以及示例文档2提及了前记录保持者汉克亚伦。虽然在这个示例中,示出的用户具有所选 的两个附加查询“本垒打”和“汉克亚伦”,但是在其它实施例和情形中,可以根据附加查询词与这两个原始查询词“邦德”和“类固醇”之间的词间关系,自动将这些附加词选作用户可能的兴趣,以及,如果是这样的话,当自动生成针对该用户的特定用户建议时,可以将与所扩展的查询词265b特别地相关的文档(比如文档1)提供给用户。
图2H示出了图2G中示出的方案的备选,其中,以不同的方式扩展图2C的初始查询词265a,以指定一组所扩展的查询词265c,该词265c包括附加查询词“控告”和“坎塞科”以及在先词“邦德”和“类固醇”。例如,这种所扩展的查询词265c可以反映用户感兴趣的概念或主题,相对于图2G中所扩展的查询265b,查询词265c与邦德所声称的类固醇使用和棒球大联盟中总类固醇相关争议更相关;以及与关于邦德的特定信息不太相关,该特定信息是邦德与他所声称的类固醇使用不相关。因此,图2H的信息261c与图2C的261a和图2G的信息261b相似,但是包括与这两个查询词对应的附加项264g和264h;以及新项264z反映了所修改的文档相关性数,该文档相关性数基于新扩展查询词265c生成。如直觉上期望的,示例文档3和4分别涉及邦德类固醇相关的控告和坎塞科类固醇相关的作证,它们是示例文档中最相关的文档,但是不专用于类固醇争议的示例文档1和2的相关性已明显地下降。在这个示例中,当用户可以选择两个附加查询词“控告”和“坎塞科”的时候,在其它实施例和情形中,根据附加查询词和两个原始查询词“邦德”和“类固醇”之间地词间关系,可以自动将这种附加词选作用户可能的兴趣,以及,如果是这样的话,当为用户自动生成用户特定建议的时候,可以向用户提供与所扩展的查询词265c尤其相关的文档(比如文档3)。
以与图2G相似的方式,至少在一些实施例中,可以不向用户展示所示出的信息261c,但是,可以向用户展示与图2D的信息相似的其它信息,以基于新查询词265c示出相关文档的所修改列表。此外,至少可以在其它示例中以其它方式使用图2G和2H中示出的由用户通过选择附加查询词提供的反馈,包括:使用反馈修改所确定的特定文档相关性和/或针对特定词的词间关系,该特定词与图2C的初始查询词265a相关。
因此,如参考图2G和2H以及其它地方所讨论的,可以多种方式识 别特定词彼此之间的相关性和/或更一般的概念,包括:基于对领域文档的分析和/或基于与特定词相关的用户反馈。图9N提供了图975示出的各种概念,该概念可以被识别以及被用于特定的感兴趣领域,该领域在这个示例中继续是棒球,包括棒球大联盟(“MLB”)。在这个示例中,自动识别多个概念977和978,并在图9N中示出;每个概念包括文本摘要或其它标签、以及一个或多个相关词。因此,例如,概念977具有文本标签977a“在MLB中滥用类固醇”,而概念978具有文本标签978a“MLB本垒打记录”。如以上所讨论的,概念977和978总体上分别对应于图2H和2G的示例。此外,概念977包括多种相关词977b,而概念978包括多种相关词978b,虽然在其它情形下,所述概念978可以仅具有单个词和/或可以不具有与其它概念重叠的词,但是在这个示例中,包括一些重叠(比如“邦德”和“类固醇”),以及每个概念包括多个词。应该理解地是大量附加概念(比如成百,成千,等等)可以被识别及用于领域中。
此外,在先前所讨论的示例中,以相对简单的方式指定了示例查询词265a-265c,其中,在没有任何所指示的逻辑组合操作或其它相对加权或使用的其它指示的情况下,列出了该词。在其它实施例中,可以为这种搜索查询指定其它类型的信息,以及可以各种方式使用该信息。例如,在一些其它实施例中,用户不仅能够指示感兴趣的查询词(或其中,他们具有正面兴趣),还能够指示不感兴趣的查询或主题(或其中,他们具有负面兴趣);以及也可以允许用户以各种其它方式修改初始查询。例如,以与图2E和2F所示出的相似的方法,可以基于初始查询词265a确定信息以反映最小相关的其它词,以及可以向用户相似地展示这种最小相关词信息以允许选择排除在所扩展查询之外的词。在这种情形下,可以多种方式组合感兴趣的词与被指示排斥的词或否则不感兴趣的词。例如,参考图2C和2D的示例,可以指示查询词“邦德”和“类固醇”是兴趣,但是可以指定具有被指示为排除的词“坎塞科”的所扩展查询词。如图2H的信息261c的项264h所示,在这个示例中,词“坎塞科”仅与示例文档1-5中的文档4相关,以及特别地,相对于文档4具有0.97的文档相关性数。可以基于所扩展的查询词将这种信息与图2C的信息261a组合,以将所排除词“坎塞科”相对于每个文档的相关性当作是为这些文档减少了 全部的文档相关性数,比如,通过将所排除的词相对为文档的词相关性值当作是所包括词的词相关性值的负值(以及,将归一化文档相关性数的可能值范围扩展到-1到1之间)。如果是这样的话,在这个示例中,通过将“邦德”和“类固醇”的独立词相关性数0.04和0.97以及“坎塞科”的负词相关性数“-0.97”平均,可以为文档4和所扩展的查询词生成所修改的文档相关性数0.01。应该理解地是可以在其它实施例中以其它方式使用关于所排除词和非兴趣的其它词的相关信息,并将该相关信息与兴趣词相关性信息组合。
此外,以与图2D相似的方法,在一些实施例中,可以允许用户指定被其看作是与查询词265a特别相关的一个或多个文档,例如,用于确定与查询词265a相关的其它词和/或与所指定的文档相关的其它文档(比如,请求与所指定的文档相似的文档)。替换地,可以向用户显示一个或多个先前限定的多词主题以用于可能的选择和识别另外的相关文档,而不是以图2F中示出的方式向用户列出特定的其它可能词。可以多种方式指定这种其它限定主题,包括文本标签(比如,“邦德职业本垒打记录”),和/或,使用特定词,该特定词是所限定主题的一部分(比如,“邦德、类固醇、本垒打、汉克亚伦”)。如果基于所限定主题与初始查询词265a的相关性来选择特定主题,那么可以至少不基于初始指定的查询词265a之一来选择至少一些所限定主题,比如,基于诸如“邦德、本垒打、汉克亚伦”而没有“类固醇”之类的词以及相似于查询265c主题的其它限定主题来指示所限定的主题。相似地,在用户选择附加查询词以用作所扩展查询词的一部分的情形下,如果想要的话,用户还可以去除一个或多个在先查询词,比如去除图2G示例中的词“类固醇”,或者指示这种词应该如先前所讨论地一样被排除。可以在其它实施例中以多种其它方式相似地使用所确定的词相关性和文档相关性信息。
如其它示出示例一样,与以上所描述的用于查询词扩展或其它修改的技术相似的技术也可以用于初始指定查询词是拼错的或否则是非标准或非典型形式(比如,基于是单数或复数形式、基于动词是在特定的时态中、基于是在不同的语言中,等等)的情形中。因此,例如,如果图2F的查询词276替换“邦德”和“类固醇”(比如,基于用户输入这些词但 是由于将“类固醇”拼错成“staroids”以及“邦德”未加大写而引入的不确定性),那么可以扩展候选其它词279或否则修改该其它词279以包括与表达用户指定词中不确定性相关的附加词。例如,关于“staroids”,一个最相关的附加词可以是词“类固醇”,比如用于替代或排除“staroids”。虽然在其它实施例中,先前所讨论的中间词相关性技术可以用于:基于先前所识别的词“staroids”和“类固醇”之间的关系(比如,如果“staroids”是最普通的用户对“类固醇”的拼错词)和/或基于先前所识别的词“邦德”和“类固醇”之间的关系,将“类固醇”识别成用作替代物或补充词的可能或合适的候选,但是在一些实施例中,可以仅基于字典搜索未认出的字“staroids”来识别附加词“类固醇”(比如,可选地,以及其它所建议的代替词,比如“小行星”、“环行室”等等)。以相似的方式努力消除词“邦德”的歧义,例如,基于先前所识别的词“邦德”和其它附加词之间的关系,附加词可以包括诸如“巴里邦德”、“股票”、“利率”、“博比邦德”等之类的选择。
如前所述,在一些实施例中,至少部分基于使用TF-IDF值或其它与词频相关的信息来初始确定特定词对特定文档的相关性和/或特定词对特定其它词的相关性。在其它实施例中,可以其它方式确定这种相关性信息。作为一个示例,可以将特定词对一个或多个文档的相关性表示为概率分布或其它分布,以及将对于两个或多个这种词的各自的分布进行比较以确定这些分布如何相似以作为衡量各自的词如何相关。相似地,可以将每个特定文档表示成跨越多个词的分布,以及将对于两个或多个这种文档的各自的分布进行相似的比较以确定这些文档如何相似。因此,例如,具有一个或多个词的搜索查询和文档可以表示成在所期望和所包含的文档词之上的一对概率分布,以及将为文集中的一些或所有文档实现的这些概率进行比较,以使得可以确定具有与该查询相关的最多统计信息的文档。作为执行在两个分布之间进行比较的一个示例,可以计算Kullback-Leibler差异统计测量以提供在这两个分布之间的相似性凸度量(convex measure),而在其它实施例中,可以使用统计信息平均信息量的差异来对这两个分布进行比较。在下文中包括关于执行这种比较示例的附加细节,以及应该理解地是:可以在其它实施例中以其它方式执行这种比较。
特别地,在一些实施例中,可以利用在两个文档相关或词相关的分布之间的Kullback-Leibler差异来确定两个分布之间的相似性。可以将对于两个分布P和Q的Kullback-Leibler差异表示如下:
其中,Pi和Qi是离散概率分布P和Q的值(比如,对于文档P的文档相关分布,每个Pi可以表示文档中匹配词i的字的百分比,可以表示特定词i相对于文档P的相关度,可以表示词i是文档P中最相关词的概率,等等)。其它实施例可以使用其它统计测量来比较两个分布,比如,两个统计信息平均信息量测量之间的差异是否替换或排除诸如来自Kullback-Leibler差异之类的相似性测量。概率分布的统计平均信息量是对概率分布差异的测量。可以将概率分布P的统计平均信息量表示如下:
其中,Pi是离散概率分布P的值。于是可以通过计算平均信息差异测量来测量两个统计平均信息量测量之间的差异。两个概率分布P和Q之间的平均信息量差异测量可以表示为随机变量之间的共有信息,如
其中p(p)和p(q)分别表示P和Q的边际分布,以及p(p,q)表示P和Q的联合分布。可替换地,两个概率分布P和Q之间的平均信息量差异测量可以表示为
EM=||H(P)-H(Q)||2
其中,如以上所描述的,H(P)和H(Q)分别是概率分布P和Q的平均信息量。
此外,如前所讨论的,图2A-2H示出了示例,该示例是:确定针对特定示例组文档的文档相关的相关性信息和中间词主题相关的相关性信息,以及以多种方式使用相关性信息。如其它地方所讨论的,在一些实施例中,可以多种特定方式表示至少一些所确定的相关性相关的信息,以及可以更新该信息以反映用户的反馈或其它变化。图2I-2L示出了特定示例,该示 例是:以多种方式,特别地在这些示例中通过生成和更新神经网络,表示和修改所确定的文档相关性信息和词相关的相关性信息。所述神经网络表示所确定的相关性相关的信息。
特别地,图2I示出了示例神经网络295a,该网络表示特定文档对特定词的相关性。在这个示例中,神经网络295a包括多种输入节点280、多种输出节点和一层或多层内部节点285,所述输入节点280对应于为文集文档识别的词,所述输出节点表示文集中的文档,所述内部节点表示计算,该计算基于特定输入词280被执行以生成特定输出文档290的文档相关性数。应该理解地是:为了简化的目的,虽然图2I中仅示出了单个集合的内部节点285,但是一些这种神经网络可以具有附加内部节点。此外,节点之间的链接表示这些节点之间的关系,以及可以包括下文所讨论的相关权重。
如先前参考图2C所讨论的,指定搜索查询包括两个查询词265a,这些查询词是“邦德”和“类固醇”。图2I中的节点280a和280c表示在所生成的神经元网络中的这些词,以及为了识别的目的以粗体示出。此外,在图2C的示例中,为包括示例文档1-4的文集中的多种文档确定归一化文档相关性数264x,以及在这个示例中,这些示例文档1-4具有相应的节点291-294。此外,在这个示例中,基于这个示例的两个查询词265a,示出信息297以显示针对这些示例文档1-4的归一化文档相关性数,所述两个查询词265a涉及简写的“AC”以反映相关联的内部节点285a和285c,该内部节点对应于针对这些词的节点280a和280c。因此,例如,如先前在图2C的项264x的列262a中所示出的,基于查询词265a,对于文档1的所示出的归一化文档相关性值297a是值0.48。为示例文档2-4示出相似信息297b-297d。
在这个示例中,将在所生成的神经网络中对输出文档290的文档相关性数的计算分成两个部分,该两部分对应于输入词280和内部节点285之间的链接282,以及内部节点285和输出文档290之间的链接。此外,示出信息287a和287b以反映所示出的关于多种链接287的信息,包括:基于所初始确定的文档相关性信息指示与每个链接相关联的初始权重。例如,相对于内部节点A 285a和对应于示例文档1的输出节点291之间的 链接(涉及信息287a中简写的链接“A-D1”),如信息287b中所示,初始的链接的权重是0.000518或5.18×10-4。相似地,相对于内部节点C 285c和输出节点291之间的链接(涉及信息287a中简写的链接“C-D1”),初始的信息287b中的这个链接的权重是0.000053。此外,如下文更详细地描述的一样,基于图2C中所描述的示例词相关性信息,在输入节点280a和内部节点285a之间的链接、在输入节点280c和内部节点285c之间的链接可以分别用于确定值1,641和2,075。因此,基于这两个链接A-D1和C-D1、以及基于内部节点285a和285c、以及基于输入节点280a和内部节点285a之间的链接、以及输入节点280c和内部节点285c之间的链接,可以从神经网络确定基于查询词285a和280c针对文档1的归一化文档相关性值297a(比如,计算2075*0.000518=0.85以作为词“邦德”的文档相关性数,计算2075*0.000053=0.11以作为词“类固醇”的文档相关性数,以及,如图2C的信息261a中所示出的它们的平均值是0.48)。下面是关于生成这种神经网络的一个示例实施例的附加细节,包括参考下面的等式1-5。
特别地,一旦确定了特定词对特定文档的相关性(比如,如对于这些文档和这些词的组合在DR得分中反映的一样),可以多种方式表示这个信息,包括使用可以基于用户的反馈更新的神经网络和以其它方式。相似地,一旦确定了来自特定词的词间关系对其它组的一个或多个词的相关性(比如,部分地基于对于一些或所有这些词的相关文档),可以多种方式表示和更新这个信息,包括使用可以基于用户的反馈更新的相似神经网络和以其它方式。然后可以修改权重和/或这个神经网络(特定的链接)的其它方面以反映反馈或不时获得的其它附加信息,比如,改善由神经网络不时提供的相关性信息以反映从反馈和可以获得的其它附加信息中的自动学习。下面示出了生成这种神经网络以及在这种神经网络中更新权重的一个特定示例,以及其它实施例可以使用其它相关技术。
如前所述,至少在一些实施例中,可以如下确定文档d相对于一组g的一个或多个指定词i的DR得分(下面也叫做“HDR得分”):
可以使用该DR公式来表示一组神经网络权重,该权重表示TF.IDF值的线性组合和正偏置(plus bias),用于查询中的独立词i,该查询具有一个或多个这种词i的组g,这种词i对应于依下列等式的特定文档j,
其中,
以及
这种基于所计算的DR得分的神经网络权重可以用于初始化所生成的对应于所计算的DR得分的神经网络。
此外,使用TF.IDF的定义,其中,Xij是文档j中的词i的词频,一个TF.IDF值可以表示如下:
其中,σ(x)是海维赛德(Heaviside)函数(如果自变量x是负,那么σ(x)的值是零,以及如果自变量x是零或正,那么σ(x)的值是一),以及N是文集中文档的数目。
因此,代入HDR(j)导致以下结果:
对于具有一个或多个词t的组g的查询,文档中的词频可以看作是这些词的权重映射到了每个文档中,对于给定的查询,是可以定义一组权重Uij=βij*xij和系数αi,因此,可以总体上将相关性神经网络表示如下:
以及初始化权重,以使该等式可以实现TF.IDF查询相关性得分,其中,
以及,
这些权重U总体上对应于图2I的权重287b,用于内部节点285和输出文档节点290之间的链接287。
此外,如前所述,可以更新这种所生成的神经网络以反映反馈和其它信息,该其它信息指示针对领域的附加的相关性相关信息。例如,二次误差函数可以如下用在一组训练示例{t,h}上:
通过随机梯度下降来更新网络权重来获得反向传输规则。因此,可以如下计算关于模型的权重的导数E:
可以在多种实施例中以多种方式开发训练案例,包括:通过使用用户选择的指定文档来设置目标值hj等于当前最相关文档的值或设置一些百分比大于当前最相关文档的值。
当扩展所生成神经网络以反映诸如可以用于消除多个重叠主题或否则相关主题之间的歧义之类的词之间的关系时,可以在多种实施例中以多种方式执行学习。图2K的示例神经网络295c示出了这种所扩展的神经网络,其中,示出了基于词的新输出节点283以及基于文档的节点290和基于词的新输出节点283之间的新链接296。例如,在这种情况下,或者可能选择保持词频权重V固定,或者可能替代为通过反向传述适应权重U和V。如前所述,根据图2I中示出示例权重287b,权重U总体上对应内部节点285和文档节点290之间的链接287,以及根据图2K中示出的示例权重296b,权重V总体上对应文档节点290和基于词的输出节点283之间的链接296。
在这种情况下,一个另外的前馈步骤用于基于文档的节点290和基于词的新输出节点283之间的链接,为了消除d的歧义的目的,如下:
在权重V是固定的情况下,可以转化权重V并将之用于新d中以获得适当的反馈值h。可替换地,可以用更新的误差函数E(d)修改权重U、V、αl和γl,误差函数如下:
然后,梯度下降学习规则具有如下形式:
此外,至少在一些实施例中,可以通过实现“权重衰减”规则夹限制所学习参数的范围。同样地,这会导致将二次词添加到U、V、αl和γl中的E和E(d)中。因此,不同权重上的派生词将导致:在没有误差信号的情况下,基于目标值h或d的差,权重E和E(d)中的梯度中的线性词将引起梯度下降以影响和以指数衰减权重E和E(d)。因此,对于w(任何网络权重U、V、αl和γl),附加词
可以添加到梯度中,其中ε是参数。
应该理解地是:虽然描述了用于生成和更新这种神经网络的实施例的特定细节,但是可以在其它实施例中以其它方式生成和/或更新其它神经网络。
回到之前参考图2A-2I描述的示例,图2J继续这些示例,并且 特别地示出了针对图2I的神经网络的变化,该变化可以基于反馈不时地发生,所述反馈涉及使用针对文集的所确定的相关性信息。特别地,图2J中示出了所修改的神经网络295b,其中,对针对查询词280a和280c的示例文档1的归一化文档相关性值进行修改。例如,这种变化可以基于示例文档1被用户重复选择,用于在指定查询词280a和280c之后检查或其它用途,例如,反应明确的用户反馈,即示例文档1是相应于这些指定词最相关的文档,或来自用户的明确反馈指示了示例文档1的这种相关性。因此,在这个示例中,修改对于示例文档1的文档相关性数297a,因此,基于用户的反馈,文档1是所有示例文档中最相关的文档;比如,在这个示例中,通过指定的差数(比如,在这个示例中以0.01)将归一化文档相关性数修改为等于或大于最相关的其它文档的相关性数。此外,为了反映较高的归一化文档相关性数297a,如在所修改的信息287c中所示出的一样,修改链接A-D1和C-D1的值。在这个示例中,为了方便起见,以粗体示出所修改的链接权重和文档相关性数297a,以及链接A-D1和C-D1的可视表示。应该理解地是:反映渐增的文档相关性值297a的用于链接A-D1和C-D1的权重的修改可以多种方式分布在这些链接之间,比如,通过相等地增加链接的权重或按照对应于渐增的文档相关性数的比例增加链接的权重。可替换地,在其它实施例中,学习可以引起更新特定的链接权重,但所更新的文档相关性数可以不对应这些更新的链接权重而产生。
此外,虽然在图2J中未示出,但是在一些实施例中,对示例1的文档相关性得分的修改和/或对链接A-D1和C-D1的链接权重的修改还可以引起对其它所生成的文档相关性数的修改和/或对链接权重的修改。例如,当对于指定词280a和280c,示例文档1的相关性增加的时候,关于这些指定词280a和280c,可以降低其它示例文档2-4的相关性以反映较低的相对相关性值。如果是这样的话,可以多种方式(比如按照比例)降低所确定的文档相关性数297b-297d,以及相应地,可以降低对于内部节点285a和285c与这些其它示例文档2-4之间的链接权重。虽然在图2J中没有调整该示例值,但是为了方便 起见,在这个示例中以斜体示出了可以降低的这些其它信息。此外,应该理解地是:在一些情况下,可以确定特定词与特定示例文档不相关,比如,由输入节点280e和示例文档1表示的词“控告”,如对于这个词和文档,在图2A中行214j中的值212e所反映的一样。如果是这样的话,可以不显示内部节点285e和对应于示例文档1节点291之间的链接,或替换地,可以显示但是得具有权重值0。在这个示例中,使用虚线示出具有0值权重并可以不显示的链接287。应该理解地是:虽然可以初始确定诸如E-D1之类的特定链接具有权重0,以及与诸如示例文档1之类的特定文档不相关,但是对于领域所确定的相关性信息不时地学习和其它修改,可以指示在该词和该文档之间确实存在相关性,以及如果是这样的话,可以修改在所修改的神经网络中的相应链接和相关联的权重以反映这个修改的所确定相关性。
此外,虽然未在此示出,但是在一些实施例中,在创建诸如图2I和2J的295a和295b之类的神经网络之后,可以其它方式修改它们。例如,在一些实施例中,如果在生成和/或更新对于文集的神经网络之后,有关文集的附加文档变为可用,在某些实施例中,将附加文档并入到现有神经网络中,而不用重新生成整个神经网络。作为一个示例,可以为这个新文档创建新输出节点290,以及可以在内部节点285和输出文档节点290之间生成新链接287。此外,可以多种方式确定分配给新链接287的权重;比如,通过基于为现有词对该新文档初始确定的相关值来初始化这些权重;通过将神经网络已有的相应链接权重平均,或否则基于一些或所有现有链接权重来生成新链接权重;通过确定最相似的其它现有文档(比如,如先前所讨论的,通过使用Kullback-Leibler差异统计测量来评估文档;或替换地,以其它方式),以及基于该最相似的其它现有文档,初始化对于新文档的链接权重和/或文档相关性值(比如,将对于最相似的其它现有文档的相应值平均)。
图2K示出了示例神经网络295c,该网络与图2I的神经网络295a相似,但是反映了附加的所确定的主题相关的文集的相关性信息。特别地,在这个示例中,神经网络295c包括与词对应的相似输入节点 280、内部节点285和与基于输入词确定的对于文档的归一化相关性数对应的文档节点290,但是还包括与文集的词对应的附加输出节点283,以及在文档相关的节点290和词相关的新输出节点283之间的附加链接296。如在其它地方更详细地讨论一样,在一些实施例中,确定一个或多个第一词和一个或多个其它词之间的相关性可以至少部分基于被确定是与第一个词相关的文档,例如,使用这些文档识别可能的其它相关词。在这个示例中,以与先前参考图2I描述的方法相似的方法,示出附加信息296a和296b来反映链接296的权重。
这个示例神经网络295c的初始状态对应于图2E的示例,其中,基于示例的初始查询词265a来确定其它词的相关性。因此,例如,图2K中所示出的信息298包括基于输入词280a和280c确定的特定其它输出词283的相关性表示(为方便起见,以粗体示出),比如,与图2E中的项274c的信息272e对应的对于输出词“汉克亚伦”的词相关性数298b。词相关性数298d和298e相似地指示基于输入词280a和280c确定的输出词“本垒打”283d和“控告”283e的词相关性数。
以与图2J的方法相似的方法,图2L示出了所修改的神经网络295d,该网络示出了与已知的特定输出词对特定输入词的相关性变化相对应的图2K的神经网络295k的变化。在这个示例中,当前兴趣的输入词继续是与输入节点280a和280c对应的查询词265a,以及修改所确定的输出词“汉克亚伦”283b和“本垒打”283d的相关性以反映在这些输出词对这些输入词的相关性中已知的增长。例如,如图2G中所示出的,多个用户可以选择附加词“汉克亚伦”和“本垒打”以用于扩展具有词“邦德”和“类固醇”的查询,这与先前参考图2G的示例所讨论的一样。在这个示例中,为输出节点283b和283d分别选择所修改的词相关性数298b和298d,在这个示例中,基于这两个输入词,所述词相关性数298b和298d在对于这两个输出词的相关性数方面增长了50%。此外,据此修改相应的链接权重,在这个示例中,所述链接权重对应于来自文档子集的每个文档到所影响的输出词节点283b和283d的链接,该文档子集(在这个示例中,该文档 子集包括图2C和2D中所描述的示例文档1-4)被确定是与输入词280a和280c最相关的。为方便起见,以粗体示出词相关性数298和在这个示例中修改的链接296。
此外,在一些实施例中,可以简单地对与一些链接287相关联的权重进行修改以替换或者排除对链接296的修改,比如,增加对于内部节点285a和285c与一个或多个示例文档1-4之间的链接的权重以适应一些或所有关于输出词283b和283d对输入词280a和280c的渐增相关性。此外,应该注意地是:虽然在其它实施例中,可以不增加这种具有0值的权重,但是,在这个示例中,链接D3-B和D4-B的权重从图2K中的具有0值增加到了具有较小相关联权重。
图2M示出了GUI205的一个示例,在一些实施例中,GUI205可以用来通过诸如这个示例中的DSRD服务或替换的相关服务之类服务向用户提供关于所确定的对于一个或多个感兴趣领域的相关性信息的信息。例如,如先前参考图2D、图2F和其它地方所讨论的,在一些实施例中,基于已知用户的偏好可以向用户提供建议,例如,包括用户也可能喜欢的确定的附加词和/或包括与这些可能的附加词相关的内容项。在图2M的示例中,基于已知的和推测的用户偏好,向特定用户提供GUI205,以及在这个示例中,特定用户是先前参考图9H-9I所讨论的用户X。如先前所讨论的,关于棒球领域,已知用户X对词“汉克亚伦”和“本垒打”具有正面偏好,而对词“巨人”具有负面偏好。从这些已知偏好中,可以推测与棒球领域相关的其它偏好,比如关于词“邦德”。此外,可以基于已知的和推测的棒球领域中的偏好,为用户X相似地推测其它领域的偏好,比如,参考图9J中的美国电影领域所更详细地讨论的领域。
特别地,在图2M的示例中,GUI205包括向用户X显示的面板205a,该面板包括关于多种已知的和推测的对于各种分类或领域207的词偏好208的信息。在这个所示出的示例中,目前,对应于用户X的正面偏好的用户可选标签206a是被选择了的,以使得目前在面板205a的较低部分206e中的信息包括关于这种正面偏好的信息。如果替换成选择用户可选的标签206b,那么在较低部分206e中的信息将 被更新以示出关于用户X已知的和推测的负面偏好的信息。此外,为了扩展,可以在较低部分206e中选择一个或多个分类/领域207以示出用户X对于这个分类/领域已知的和推测的偏好,比如,当前所示出的较低部件206e是关于“运动”分类/领域207c的。特别地,在这个示例中,为“运动”分类/领域207c示出了四个已知的和推测的正面词偏好208,包括分别对于词“汉克亚伦”、“本垒打”和“旧金山49人”的已知偏好208-208d,以及对于词“邦德”所推测建议的偏好208a(在这个示例中,以阴影或否则以高亮的形式示出,比如,在使用多种颜色的GUI中,一个不同的颜色指示用户它是所建议的偏好)。此外,在这个示例中,用户X可以使用用户可选的文本输入控件206c和选择控件206d来指定其它偏好,或否则使用用户可选控件206h和206i来修改和操控偏好。应该理解地是:其它GUI可以广泛多样的方式和使用广泛多样的用户接口控件和操控技术来显示相同或其它信息。作为一个示例,可以向用户X提供一种机制来选择或否则指示所建议的对于词“邦德”的词偏好是否是实际的正面或负面偏好,或否则从当前视窗中去除所建议的词偏好。此外,一些实施例和情况可以包括不同大小的GUI屏幕,该GUI屏幕可以显示不同量的信息,比如在单一时间显示更多的词偏好(不论已知的建议还是推测的建议)。
此外,在图2M的示例中,所示出的附加信息205b对应其它服务(在这个示例中,具有关于电影信息的在线服务,使用假设的“American-Movie-Info.com”网页领域),所述其它服务与DSRD服务交互来交换关于用户X的已知和推测的词偏好的信息。在一些实施例中,可以将信息205b示作DSRD服务的GUI205的附加面板,比如,与面板205a同时地或连续地示出。在其它实施例中,替换地,可以不显示信息205b或通过其它服务以不同于GUI205的方式向用户X呈现信息205b,或者替换地,可以将一些或所有附加信息205b作为面板205a的一部分(比如,通过扩展面板205a的分类/领域207d)显示给用户,以使得通过其它电影相关的服务向DSRD服务提供所示出的信息。此外,在一些实施例和情形中,多个这种其它服务可以 是可用的和附属于DSRD服务的,以及如果是这样的话,可以使用用户可选的下拉控件209a、选择控件209b或以其它方式选择该多个这种其它服务。
在这个示例中,附加信息205b示出了对于电影“愤怒的公牛”用户X的已知偏好211a(比如,基于DSRD服务先前或动态地提供给其它服务的信息,基于其它服务先前从用户X或其它源获得的信息,等等),以及示出了基于已知偏好211a和其它DSRD服务可用的偏好信息所推测建议的三个偏好211b-211d。例如,图9J提供了附加的示例细节,该细节关于如何至少部分基于对于用户X的电影相关的偏好信息208来确定这种偏好。因此,在这种方式中,提供诸如GUI205之类的GUI的服务可以提供和获得对于各种用户的偏好相关的信息,以及可以使用这种信息向用户和服务提供各种益处。应该理解地是:以与面板205a的方式相似的方法,其它GUI可以广泛多样的方式和使用广泛多样的用户接口控件和操控技术来显示诸如信息205b之类的相同信息或其它信息,包括变化的信息量。
也应该理解地是:为了叙述的目的,提供所示出的对于示例神经网络295a-295d的各种权重、相关性数以及其它信息,以及这些信息可以具有其它形式并且可以在其它示例中以其它方式被修改。此外,仅为了解释的目的,提供了在图2A-2M的示例中示出的信息,以及应该理解地是可以在其它实施例中以其它方式执行所描述的各种动作。此外,为了便于理解,以摘要的方式示出各种其它细节或者不示出该细节。此外,如在其它地方更详细地讨论的一样,在多种实施例中,DSRD服务可以提供和使用多种其它类型的功能。也应该理解地是:虽然示出了小数量的词、文档和神经网络节点,但是在实际的实施例中,实际的量可以是更大的,比如包括成千上百的词和上百万的文档,以及相应数量的神经网络节点。
虽然图2A-2M的示例是基于分析以文本文档或其它内容项显示的词,但是应该理解的是所描述的技术可以用于其它方式和使用其它类型的内容。特别地,可以分析具有其它类型内容的内容项文集以识别其它类型的可识别特征或性质或其它属性,该属性是这些内容项内 容的一部分或否则是与这些内容项相关联,以及可以与讨论文本词的这些方法相似的方法,确定特定属性相对于内容和/或其它的这种属性的相关性。这种内容项属性的非唯一的列表包括以下几项:内容项的类型(比如,音频流或文件,视频流或文件,图像,等等);内容项的源;图像或视频内容中的特定对象;流或文件内容项中的特定图案的信息;与内容项相关的特定类型的元数据;等等。可以将这些属性中的每个属性当作是词以提供搜索结果,该结果与所指定的属性相关,和/或定义了主题或其它一个或多个相关属性的组。
此外,虽然图2I-2L的示例使用神经网络和反向传述学习方法来不时地改善所确定的相关性信息,但是在其它实施例中,可以替换为使用其它类型的机器学习技术或自适应系统。作为一个示例,在一些其它实施例中,可以使用概率贝叶斯神经网络表示所初始确定的相关性信息,所述概率贝叶斯神经网络具有与图2I-2L的示例中所讨论的网络相似的结构,但是节点值表示基于来自网络中的前一个链接节点的相应输入值的条件概率,信任传播概率(probabilistic beliefpropagation)用于确定特定相关性值,以及学习包括不时地对应于反馈更新条件概率值。
此外,虽然先前参考用户指定的查询词或偏好信息讨论示例,但是可以在多种实施例中以多种方式使用其它类型的信息。例如,可以自动地分析一组对于用户特定的信息,以及用于确定对于该用户的偏好信息,然后,所述对于用户特定的信息可以自动用于确定与该偏好信息相关的其它内容。可以分析这种特定用户信息,该信息的非唯一示例包括成组的电子邮件和其它通信信息(比如,一些或所有特定时间周期内用户发送和/或接收的电子邮件,一些或所有在用户的博客或其它记录集合中的项,等等)、各种类型的用户动作的日志或历史(比如,执行搜索的历史和/或与生成的搜索结果交互的历史)、关于用户社交网络和其它关系的信息,等等。备选地,在一些实施例中,可以替换地将一个或多个这种特定用户的信息组当作是该用户(和/或其它人)感兴趣的文档的文集,比如,基于对这种特定用户信息的分析,自动确定用户感兴趣的主题,和/或允许提取与该用户当前兴 趣相关的这种特定用户信息的特定信息片。
例如,用户可以访问文档,以及来自该文档的上下文信息可以用于识别其它相关内容项(通过该用户的计算系统,通过因特网或其它外部网络或数据仓库,等等)。作为一个特定的示例性示例,用户某约翰可以编辑他/她的简历,以及期望获得相关的工作历史数据或其它来自用户的电子邮件仓库和网页的相关数据。例如,电子邮件存储器可以具有与用户过去为公司1和公司2所做工作相关的邮件,以及这些邮件的标题包括各自公司的名称。用户的数据存储器(不论本地或远程)也可以包括一个或多个用户的过去简历或简历示例,以及与工作相关的社交网站可以具有用户过去工作的历史。在这种情况下,特定用户具有公开简历的上下文可以用于自动扩展或补充用户指定了查询词“某”的搜索,比如,添加一个或多个附加查询词“约翰”、“公司1”、“公司2”、“简历”、工作头衔或来自该简历的描述信息、来自该简历或来自其它所存储的档案的用户地理位置信息或来自用户的偏好,等等。然后所扩展的查询可以识别各种类型的相关文档或其它信息,比如,与用户为公司1和公司2过去所做工作相关的电子邮件、其它与公司1和公司2相关的所存储的文档、过去的简历或简历示例、来自与工作相关的社交网站的雇佣历史信息,等等。
在2008年12月12日申请的美国专利申请号为12/334389,题目是“电子档案发展、存储、使用以及系统”;2008年12月12日申请的美国专利申请号为12/334416,题目为“基于电子档案信息的广告选择和显示;2009年2月25日申请的美国专利申请号为12/392933,题目为“为感兴趣的领域确定相关信息”;2009年2月25日申请的美国专利号为12/392908,题目为“电子档案发展、存储、使用和采取动作的系统”;2009年2月25日申请的美国专利申请号为12/392900,题目为“使用模板化自动生成的用户数据的集合、通信、规则估计及组合”中,关于确定与感兴趣领域相关信息的示例和关于可能使用这种所确定的相关信息的附加细节是可用的,在此一并作为参考。
此外,如在其它地方更详细地描述一样,所描述的技术可以用 于非识别或提取相关内容项的情形中。例如,对第一组内容项的自动分析可以用于识别与第一组内容项中的类型或分类数据对应的主题(比如,基于具有匹配形式或相似图案的数据),以及这些所识别的主题可以用于分类,或否则用于确定用作查询词的其它数据项的类型。作为一个示例性示例,可以分析各种类型的加密数据,以使得所识别的主题对应于加密方案的类型。如果稍后提供或否则指定所加密的文件或其它所加密的数据段,DSRD服务可以自动地用于识别一个或多个最可能的用于加密所指定数据段的加密方案。更一般地,来自第一组内容项的所识别的主题可以是与目标领域相关的有效解决方案的类型,以使得稍后的查询可以引起一些数学类型的问题或其它问题,对应于所识别主题的一个或多个问题可以自动地被确定是可能的解决方案。应该理解地是:可以多种其它方式使用所描述的技术。
图3示出了系统的示例实施例的方块图,该系统适合于执行技术以确定与感兴趣领域相关的相关信息。特别地,图3示出了计算系统300,适合于执行DSRD系统340的实施例,以及各种用户计算系统和其它计算系统360、370和380。在所示出的实施例中,所述计算系统300具有组件,该组件包括CPU305、各种I/O组件310、存储器320和内存330。所示出的I/O组件包括显示器311、网络连接312、计算机可读介质驱动器313,以及其它I/O设备315(比如,键盘、鼠标、扬声器,等等)。此外,虽然一些细节未示出(比如,特定I/O组件),所示出的用户计算系统350具有与服务器计算系统300的组件相似的组件,包括CPU351、I/O组件352、存储器354,和内存357。其它的计算系统360、370和380中的每一个也可以包括与计算系统300示出的一些或所有组件相似的组件,但是为了简洁起见,在这个示例中未示出这些组件。
DSRD系统340可以包括CPU305在内存330中可执行的软件指令以提供DSRD服务的实施例。特别地,DSRD系统340通过网络390(比如,通过因特网和/或万维网,通过私有蜂窝网络、等等)与一个或多个计算系统350、360、370和380交互以获得信息和请求,并提供响应信息。例如,在这个示例中,所述DSRD系统340从各 种与用户计算系统350交互的用户(未示出)接收诸如提供所请求的搜索结果和/或关于所确定的主题或其它对于领域的词间关系信息之类的请求,以及据此响应该请求。在一些实施例中,所述DSRD系统340还可以接收代表特定用户的特定用户建议的请求(不论直接来自用户还是来自代表用户的其它系统),以及至少部分基于所确定的特定领域相关性信息提供相应的特定用户建议,而在其它实施例中,可以替换成一个或多个其它系统335和/或365以使用由DSRD系统340提供的所确定的特定领域相关性信息来生成和提供这种特定用户建议。此外,如在其它地方更详细地描述的,一个或多个用户计算系统350可以与DSRD系统340交互以执行各种其它类型的动作以提供关于用户动作的各种类型的反馈。其它计算系统350可以执行作为与DSRD系统340交互的一部分的各种软件。比如,每个用户计算系统350可以在内存中执行网页浏览器或其它软件以与DSRD系统340交互,比如与DSRD系统340提供的DSRD服务的基于网页的GUI交互。
为了确定特定领域相关信息,所述DSRD系统340从一个或多个源获取特定领域文档或其它内容,以及分析这些信息以自动地确定特定领域的相关性信息。在多种实施例中,源中的特定领域内容可以改变,比如,可选地包括在本地存储器320上的与领域相关的信息322、在其它远程计算系统370上的可选领域信息375、由来自用户计算系统350和/或来自其它计算系统360上的可选其它系统365中的一个或多个用户提供用于分析的信息;等等。在其它计算系统360上的可选其它系统365和/或在内存330上执行的可选其它系统335可以在多种实施例中具有多种形式,比如辅助服务,该服务从DSRD系统340获取所确定的相关性信息以及以各种方式(比如与用户计算系统350的用户交互)使用该获得的信息;和/或内容供应服务,该服务向DSRD系统提供用于分析的内容。例如,特定可选其它系统365可以保持,以及向DSRD系统340提供用于分析的领域信息,以及获取和使用来自DSRD系统340的合成的所确定的相关性信息,但是被DSRD系统340用来确定相关性信息(比如,文本分析信息、 所生成的神经网络,等等)的至少一些信息被存储在计算系统300中,并不提供给其它系统360。备选地,在其它实施例中,DSRD系统340可以生成或使用所确定的对于一个或多个领域的相关性信息,而不与与任何这种可选的其它服务交互。此外,一个或多个可选的其它第三方可以使用一个或多个其它计算系统380和以各种其它方式与DSRD服务交互。
可以将有关DSRD系统操作的各种信息存储在存储器320中或其它地方(比如,在远程的存储在一个或多个其它计算系统380中),比如,关于一个或多个兴趣领域的信息322(比如,将要被分析或已经被分析的特定领域内容)、关于对特定领域内容进行分析后的结果的信息324(比如,特定领域相关性信息,比如所生成的神经网络数据结构、包括了词间关系概率表示的贝叶斯网络数据结构、所生成的决策树结构,该决策树结构代表了概率表示信息的子集;所确定的得分和关于特定词和主题和文档的其它信息;等等)、反映了关于用户与各种特定领域信息和其它反馈信息交互的信息的信息326,以及各种用户信息328(比如,对特定词的偏好或其它兴趣,或更一般地,关于通信信息或交互机制的偏好)。在其它实施例中,由DSRD系统340使用和生成的一些或所有信息可以其它方式存储,包括存储在其它计算系统380中或其它存储节点/系统中(未示出)。DSRD系统340可以多种方式获得反馈信息326,比如,通过基于DSRD系统340与来自可选其它系统335和/或365的用户的交互生成的信息(比如,当向用户提供所确定的相关性信息的时候)、通过一个或多个系统与用户交互以生成反馈信息,等等;所述可选其它系统335和/或365与用户交互,以及向这些用户提供所确定的来自DSRD系统340相关性信息。
应该理解地是:计算系统300、350、360、370和380仅仅是示例性的,并不旨在限制本发明的范围。替换地,每个计算系统可以包括多个交互计算系统或设备,以及计算系统可以与未示出的其它设备连接,包括:通过一个或多个诸如因特网的网络、通过网页、或通过私有网络(比如,移动通信网络)等等。更一般地,计算系统可以包 括任何可以交互与执行所描述类型功能的硬件或软件的组合,包括但没有限制于:桌上型电脑或其它计算机、数据库服务器、网络存储设备以及其它网络设备、PDA、蜂窝电话以及无线电话以及其它电话系统、寻呼机、电子管理器、因特网装置、基于电视的系统(比如,使用机顶盒盒/或个人/数字视频记录器)、广播系统,以及各种其它消费产品,该消费产品包括使用任何适当的通信协议的适当通信能力。此外,如在其它地方更详细地描述的一样,在一些实施例中,所示出的DSRD系统340提供的功能可以分布在多个模块中。相似地,在一些实施例中,可以不提供DSRD系统340的一些功能,和/或,其它附加功能可以是可用的。
也应该理解的是,虽然当所示出的各种项被使用的时候,其被存储在内存或存储器中,但是,为了内存管理和数据完整性的目的,可以在内存和其它存储器设备之间传输这些项或其部分。备选地,在其它实施例中,一些或所有软件模块和/或系统可以在内存和其它设备中执行,以及可以通过中间计算机通信系统与所述计算系统通信。此外,在一些实施例中,可以其它方式实现或提供一些或所有系统和/或模块,比如,至少部分是以固件和/或硬件的方式,包括但是不限制于,一个或多个特定应用的集成电路(ASIC)、标准集成电路、控制器(比如,通过执行适当的指令,以及包括微控制器和/或嵌入式控制器)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD),等等,以及采用RFID技术的设备。一部分或所有模块、系统和数据结构也可以存储在计算机可读介质上上,比如,硬盘、内存、网络、或适当的驱动或通过适当的连接可读的便携式媒介物品(包括被编码成的一个或多个条码,或,存储在一个或多个这种计算机可读介质上以及适当阅读器设备可读的其它相关编码)。也可以将系统、模块和数据结构作为所生成的数据信号(比如,作为载波的一部分)在多种计算机可读传输介质上传送,包括基于无线的和有线的/基于电缆的介质;以及所述系统、模块和数据结构可以具有多种形式,或更一般地,可以介于任意计算机可读介质之上。这种计算机程序产品也可以在其它实施例中具有其它形式。因此,本发明可以在其它计算机系统 配置上使用。
图4是DSRD服务例程示例实施例的流程图。例如,图1A-1C的DSRD服务105和/或图3的DSRD系统340的执行可以提供该例程,以管理对关于感兴趣领域的相关性信息的确定以及于用户或其它实体的相应交互。在所示出的实施例中,该例程时时分析关于一个或多个感兴趣领域的信息,以对关于特定领域的信息进行预处理(比如,DSRD服务的人工操作者发送指令、第三方实体请求,等等),基于这个信息响应稍后的请求,至少确定一些类型的特定领域相关性信息,或替换地,在至少一些情形下,响应于来自用户或其它实体的请求,动态地生成至少一些类型的特定领域相关信息。
在所示出的实施例中,例程在块405处开始,其中,接收到请求或其它信息的指示。例程往下到块410,确定是否接收请求来确定对于所指示领域的与相关性相关的信息或确定是否提供了需要分析的特定领域内容,以及如果是的话,往下到块415。在块415-450,为了确定对于该领域的与相关性相关的信息,该例程于是分析特定领域信息,并将该信息存储以在将来使用。此外,虽然示出的块415-450被看作是执行对感兴趣领域的与相关性相关的信息的初始确定,但是至少在一些实施例中,可以相似地执行一些或所有块415-450以修改先前确定的相关性信息,比如,基于用户的反馈修改先前所确定的相关性信息和/或基于新的可用特定领域内容扩展先前所确定的相关性信息。
特别地,例程在块415中基于诸如块405中当前所接收的文档、先前所接收的和所存储的以在稍后使用的文档、从在块405中所接收的请求中所指示的外部位置抽取的文档、等等之类的文档,获得需要分析的文档或该领域的其它特定领域信息。在块415之后,例程往下到块420,执行领域分析管理者例程以分析可用特定领域内容的词信息,以及参考图5示出该领域分析管理例程的一个示例。在块420之后,例程往下到块430以执行中间词相关性确定管理例程来确定相关的针对该领域(比如,基于块420产生的数据)的词间关系(比如,与主题相关的信息),以及参考图6示出该中间词相关性确定管理例 程的一个示例。在块430之后,例程往下到块440以执行相关联文档确定管理例程来确定与特定词和主题相关的特定的领域文档(比如,基于块420生成的数据),以及参考图7示出该相关联文档确定管理者例程的一个示例。在块440之后,例程往下到块445以执行词关系建议产生管理例程来生成领域特定词之间关系的概率表示(比如,基于块430和/或440生成的数据),该概率表示稍后用于至少部分基于该词间关系生成特定用户的建议,以及参考图8A-8B示出该词关系建议产生管理例程的一个示例。在块445之后,例程往下到块447以选择地执行例程,或否则执行操作以识别与涉及需要被分析领域的特定兴趣词相关的内容项(比如,基于诸如块445的词关系建议产生管理例程之类,将附加词内容项识别成对于其它所指示词的特定兴趣),比如,可以由参考图1A讨论的可选模块127来执行(比如,稍有用于至少部分基于这种所指示的词和/或附加词,生成特定用户建议),即使在一些实施例中,不在这个时候或完全不执行这种内容项识别。比如,如果响应于请求动态地确定信息或提供信息以采纳先前的请求,那么在块447之后,例程往下到块450以存储来自块420-445的所确定的相关性信息,和/或,可选地向请求者提供一些和所有该确定的相关性信息。可以多种方式存储来自块420-445的所确定的相关性信息,包括在易失内存和/或非易失存储器中,以及如在其它地方更详细地讨论一样,可以各种形式存储所述信息(比如,神经网络、贝叶斯网路、决策树、等等)。
可替换地,如果在块410中确定所接收的另一类型的请求或信息,那么例程替换成往下到块460以确定是否已经接收到请求来提供对于所指定领域的所确定的相关性信息。可以诸如响应于搜索请求、或作为帮助用户指定关于一个或多个感兴趣主题的信息的一部分之类的各种理由、不同时间以及多种方式(比如,作为网页的一部分或提供给用户用于显示的其它信息屏幕或在用户的客户端设备上的其它表示、响应于对另一服务所要使用的信息的请求的该服务,等等)提供这种所确定的相关性信息。如果在块460中确定已经接收到请求以提供所指示领域的所确定相关性信息,或者如果动态地生成一些或所有所请求的相关性信息,那么例程往下 到块465以确定,是否已经确定所请求的相关性信息以及是否将其存储以便稍后在块415-450中使用。在其它实施例中,比如,如果先前经常确定和存储了响应于这种请求而提供的相关性信息,或经常动态地确定了该信息,或如果请求指定了是提供所存储的信息还是动态地确定信息,那么可以不进行对所请求的相关性的确定。在所示出的实施例中,如果在块465中确定使用所存储的相关性信息,那么例程往下到块470以从先前确定和存储的信息中获得所请求的相关性信息。
此外,可以在多种实施例中以多种方式执行块470的动作。例如,在一些实施例中,一些类型的所确定的相关性信息仅对于用户或被授权接收该信息的其它实体的子集可以是可用的,以及,如果是这种情况的话,对于一个或多个块460-475的动作还可以包括:确定是否授权请求者接收所请求的信息(比如,提供适当的费用以用于有偿的访问该信息;具有特定的标识,该标识被证实有权接收秘密的所请求信息;等等)此外,可以接收请求以及可以多种方式提供信息,包括:在电子消息中或通过使用一个或多个由DSRD服务、诸如辅助服务之类的服务提供的API进行的程序交互。备选地,可以从用户接收基于网页的请求(比如基于网页的信息搜索GUI或其它由DSRD服务或其它辅助服务提供的其它GUI),以及可以将所请求的信息作为响应于该请求而发送的一个或多个所生成的网页的一部分提供给用户。
替换地,如果在块465中确定动态地获得至少一些所请求的相关性信息,那么替换地,例程往下到块475以执行动态地获取信息。特别地,如示例例程400中所示出的,块475的执行可以包括执行对应于块420-445(以及如果存在,还包括可选块447)的一个或多个其它例程,以及从例程获得作为结果信息。此外,虽然此处未示出,但是在一些实施例中,块475的执行还可以包括获得文档或要被分析的其它内容,比如像块415的初始执行一样;或替换地,可以在块405中接收要被使用的这些内容以及向对应于块420-445(和/或可选块447)的一个或多个例程提供该内容以作为块475执行的一部分。在块470或475之后,例程往下到块480以向用户或其它请求者提供所获得的信息;如在其它地方更详细地讨论一样,可以在多种实施例中以多种方式执行块480。此外,应该理解地是:在至 少一些情形下,块480的执行可以包括与用户或其它请求者的多次交互,比如,初始地提供一些信息,以及,在初始提供信息之后,基于用户或其它请求者所采取的措施,稍后提供附加信息或执行与用户或其它请求者的其它交互。在块480之后,例程往下到块485,可选地从使用用户或其它请求者所提供的相关性信息中获得或确定反馈,以及,如果获得或确定了,那么在所示出的示例中,维持该反馈以在稍后用于执行学习动作以提高先前所确定的相关性信息——在其它实施例中,替换地,例程在至少一些情形下可以立即使用任何的这种所获得的反馈,比如,使用该反馈信息,重新执行对应于一个或多个块420-445的例程。
替换地,如果在块460中确定没有接收到请求来提供对于所指定领域的所确定的相关性信息,那么替换地,例程往下到块462,确定是否从用户或代表用户(比如,从与用户交互的其它服务)接收到请求,该请求涉及基于一个或多个所指定领域所确定的相关性信息向用户提供特定用户建议。如果确定接收到了请求,那么例程往下到块464,执行词关系建议产生管理例程,基于诸如先前参考块445生成的概率表示或替换地响应于当前请求动态地生成的概率表示之类的领域的特定词之间关系的概率表示,为用户生成所指定领域的特定用户建议。在其它实施例中,替换地,其它服务可以使用DSRD服务生成的概率表示信息来提供这种特定用户建议,以使在块445中执行的例程可以仅生成在稍后使用的词间关系信息的概率表示以及向其它服务提供所生成的信息(比如,相对于一个或多个块450、480、490等等)。在块464之后,例程往下到块480,向请求者提供所生成的建议信息。
替换地,如果在块462中确定没有接收到请求以基于所指定领域的所确定相关性信息提供建议,那么替换地,例程往下到块490,如果合适,执行一个或多个其它所指示的操作。例如,可以在块490接收特定领域的内容,以及存储该内容以用于稍后的分析,比如,要被分析的新领域信息;和/或,新的或所更新的领域的信息,该领域的相关性信息是在先确定的。备选地,可以在块490中接收和使用诸如与使用先前确定的相关性信息相关的反馈信息之类的其它类型的信息,以及可以多种方式使用该信息。例如,如果在块490中接收的反馈和/或在块485中存储的反馈满足一个或 多个预定的标准(比如,基于所获得的最小或最大的反馈、自先前确定相应相关性信息之后的最小或最大时间段,等等)。如在其它地方更详细地讨论一样,为了学习和更新先前确定的相关性信息,使用反馈信息触发对应于一个或多个块420-445的附加执行例程。此外,可以在块490接收和处理其它类型的请求,比如更新先前确定的相关性信息(基于后续的反馈信息,可用的后续附加的特定领域内容)、来自用户或与DSRD服务交互的其它实体或DSRD服务的人工操作者的请求。
在块450、485或490之后,例程往下到块495,确定在接收到明确的终止指示之前是否继续。如果确定继续,那么例程回到块405,以及如果确定不继续,那么例程往下到块499和结束。
图5是领域分析管理例程500的示例实施例流程图。例如,图1A的DSRD服务105的领域分析管理者模块110和/或图3的DSRD系统340的模块的执行可以提供该例程,例如,该例程为了确定对特定文档中和跨越了所有文档的组的特定词的使用,对特定领域的文档进行分析。此外,在至少一些情形下,可以基于执行图4的块420来执行例程500。在这个示例中,根据对领域的特定领域内容进行初始分析来执行例程500,但是在其它示例中,可以相似地执行例程500来更新先前分析的信息,比如,在完成对其它文档的在先分析之后,对领域内变为可用的附加文档进行分析。此外,以与其它例程的方式相似的方式,例程500可以在使用所确定的信息以及动态地响应于对这个信息的请求之前,确定领域的词分析信息。
所示出的例程实施例在块505开始,其中,接收要被分析的领域文档的指示或其它请求。例程往下到块510,确定是否接收到了要被分析的文档。如果接收到了,例程往下到块515,对每个文档进行分析以确定文档中存在的词。此外,如在其它地方更详细地讨论一样,对文档的词进行确定可以包括:在多种实施例中对词进行多种处理,比如,归一化词(比如,使用词缀组合相关联的词)、去除共用词(比如,“the”、“a”、“an”、“of”、“and”,等等)或其它所专用词、为了稍后的分析将多个字聚合在一起成为单个词、在生成文档中的词索引,等等。在块515之后,例程往下到块520,对每个文档的词,执行对词频的确定,以及在块530中,对 跨越了所有文档的每个词,执行逆文档频率的确定。在块540中,基于在块520和530中生成的信息,例程然后确定对于每个词和文档组合的TF-IDF得分。在块540之后,例程往下到块560,存储用于稍后使用的所确定信息,以及可选地,提供所确定的信息作为输出(比如,作为对例程500对所确定信息的动态调用的响应,比如参考图4的块475;或者,由图6的相关主题确定管理例程600和图7的相关文档确定管理700使用,比如对应于图4的块430和/或440)。
替换地,如果在块510中确定没有接收到要被分析的文档,那么替换地,例程往下到块585,适当的执行一个或多个专用操作。例如,其它操作可以包括接收和响应:对先前所生成的文档词分析信息的请求。对更新先前所确定的文档分析信息以反映新可用特定领域内容的请求、来自DSRD服务的人工操作者的管理请求,等等。如在其它地方更详细地讨论一样,当更新先前所确定的文档分析信息以反映新可用特定领域的文档的时候,在一些实施例中,例程可以为这些新文档执行步骤515-560,但是在其它实施例中,可以其它方式(比如,通过基于一个或多个相似测量来识别一个或多个其它先前所分析的文档,新文档与该所分析的文档最相似;以及通过平均或否则使用对于其它所识别文档的所分析相关性信息以表示新文档,比如,使用对于其它所识别文档中词的所确定的TF-IDF得分以表示新文档)分析或合并这种新文档。
在块560或585之后,例程往下到块595,确定在接收到明确终止指示之前是否继续。如果确定继续,那么例程回到块505,以及如果确定不继续,那么例程往下到块599和结束。应该理解地是:可以在多种实施例中以多种方式执行图5的各种块,包括通过串行或并行的方式(比如,在多计算系统上的分布式方法)分析不同文档。
图6是中间词相关性确定管理例程600的示例实施例流程图。例如,图1A的中间词相关性确定管理模块130和/或图3的DSRD系统340的模块可以提供该例程的执行,比如,该例程包括使用对于领域文档的文档词分析信息以确定词(该词包括可能的对于领域的中间词主题)之间的关系。例如,可以由图4的块430的执行或以其它方式启动例程600。此外,所示出的例程实施例描述了对领域的相关联词间关系信息的初始确定,以 及描述了更新先前所确定的词间关系信息以反映后续反馈和/或其它关于领域的可能主题的信息。此外,以与其它例程的方式相似的方式,在使用所确定的相关性信息以及动态地响应于对这个信息的请求之前,例程600可以确定该领域的相关性信息。
此外,虽然在其它实施例中,可以其它方式确定与文档相关的相关性信息,但是在所示出的实施例中,在图6中所示出的确定对词间关系相关性信息是作为与图7中对领域的这种类型的相关性信息的确定分离地被执行的。例如,在特定的实施例中可以仅确定一个词间关系相关性信息和与文档相关地相关性信息,可以将对领域的词间关系相关的相关性信息和中间词文档相关的相关性信息的确定一起执行,作为单个例程的部分。共用于两种类型的确定的信息可以被执行一次,以及随后在两个不同的例程之间共享,等等。
所示出的例程实施例在块605处开始,其中,接收对于领域文档的文档词分析信息(比如,作为图5的例程500的输出、作为动态确定的请求的一部分的信息,等等),或接收其它请求。例程往下到块610,确定是否接收到文档词分析信息,如果接收到,那么往下到块615。在所示出的实施例中,执行块615-650,对于感兴趣领域的每组中的一个或多个词,确定其与主题相关的信息。例如,可以通过使用存在于任何文档中的每个词来选择要被分析的词(可选地,排除共用词和/或其它所指示词)。备选地,例如,要被分析的一组词可以包括,两个词之间的组合或其它所指定数量的存在于领域文档中的词之间的每个组合、两个词之间的组合或其它所指定数量的被确定是彼此足够可能相关(比如,大于所指定阈值)的词之间的每个组合,等等。此外,可以重复执行块615-650以评估或修改关于多词的中间关联性的信息,比如,初始为每个词独立地执行块615-650,接下来执行对至少一些两个词的组合的确定(比如,对这些词独立地执行块615-650,以基于来自该执行的可用信息),接下来执行至少一些三个词组合的确定(比如,对于与先前所选择的两个词的组合足够相关的特定词执行块615-650,以基于来自该执行的可用信息),等等。备选地,在一些实施例中,替换地,对于要考虑的一些或所有组的一个或多个词,可以并行的方式执行块615-650的一部分或全部。
特别地,在所示出的实施例中,例程在块615中选择要被考虑的一个或多个词的下一个组(从第一个组开始),以及在块620相似地选择要被考虑的下一个文档(从第一个领域文档开始)。在块625中,基于平均或否则聚合对于所选文档的所选词的归一化TF-IDF得分,例程确定所选词对所选文档的归一化平均相关性。在块635,于是例程确定是否还有需要分析的文档,如果有,那么回到块620。否则,例程往下到块640,基于在块625中确定的相关的得分,确定与当前所选的词最相关的文档。接下来,在块645中,基于所识别文档中的这些其它词的词频或这些其它词对所识别文档的相关性的其它指示,例程识别一个或多个所确定的最相关文档,以及使用所识别的文档来确定与所选词潜在最相关的其它词。
此外,在一些实施例中,可选地,为了可能用作主题和/或可能稍后参考块615-650对所组合的这些词的组进行分析,被确定是与所选词最相关的其它词可以与一个或多个所选词组合,可选地比如发现可以与所组合的组相关的其它附加词。可以多种方式执行对附加其它词与当前所选词的可能关系的持续分析,比如,通过独立地将所选词的组与每个最相关的其它词相组合、将所选词的组与所有最相关的其它词相组合、将所选词的组与一些或所有最相关的其它词的子组合相组合,等等。备选地,在其它实施例中,可以其它方式将一些或所有最相关的其它词与一些或所有所选词相组合以识别可能的主题,和/或,来自用户对词一起使用的后来反馈可以用于精调哪组词一起被相关作为领域的主题。
在块645之后,例程往下到块650,确定是否还有需要考虑的一个或多个词的组,以及如果有的话,那么回到块615。否则,在所示出的实施例中,例程往下到块660,例如,部分基于参考块625、640和645所生成的信息,生成神经网络来反映领域中的词与领域中的其它词之间的相关性。如对块680所讨论的一样,也可以稍后基于反馈更新这种所生成的神经网络以精调对领域特定词的中间关联性的确定,比如以并行的方式对一些或所有输入词和/或输出词的确定。在块660之后,例程往下到块670,存储所确定的与主题相关的相关信息以及生成的神经网络,以及可选地,如果合适,提供一些或所有的所确定信息作为输出(比如,作为对动态生成该信息的请求的响应)。
替换地,如果在块610中确定没有接收到文档词分析信息,替换地,例程往下到块675,基于对先前所确定的和所提供的相关性信息的使用,确定是否接收到反馈信息或反馈信息是否是可确定的。如在其它地方更详细地讨论一样,如果是的话,例程往下到块680,使用反馈信息更新先前所生成的与该反馈对应的神经网络。块680的执行还存储所更新的神经网络信息,以及可选地,将所更新的信息提供给请求者作为例程的输出。替换地,如果在块675中确定没有接收到反馈信息,例程往下到块685,如果合适,执行一个或多个所指示的其它操作。例如,这种所指示的其它操作可以包括:接收关于提供针对领域的在先所确定的与主题相关的信息的请求(比如,在神经网络更新之后,来自在先生成的对于领域的特定神经网络的当前版本的与主题相关的信息)、接收用户反馈信息以便稍后用于精调对于领域的所确定的与主题相关的信息(比如,特定的词组,被一起选择来表示主题)、接收来自用户或其它实体或其它人工操作者关于执行对在先所确定的与主题相关的信息的更新的请求(比如,基于用户反馈和/或领域可用的附加特定领域内容)、接收来自DSRD服务的人工操作者的其它管理请求,等等。可以多种方式处理用于稍后使用的所接收的反馈信息。例如,如果反馈满足一个或多个预定的标准(比如,基于所获得的最小或最大量的反馈、自先前确定相应相关性信息之后的最小或最大时间段,等等),块685的执行可以触发例程600的后续执行,其中,提供反馈信息以用在块680中。
在块670、680或685之后,例程往下到块695,确定在接收到了明确的终止指示之前是否继续。如果确定继续,例程回到块605,以及如果不继续,往下到块699和结束。
图7是相关文档确定管理例程700的示例实施例的流程图。例如,图1A的相关文档确定管理模块120和/或图3的DSRD系统340的模块可以提供该例程的执行,比如,该例程包括使用对于领域文档的文档词分析信息以确定对于领域的词和文档之间的关系。例如,可以由图4的块440的执行或替换地以其它方式启动例程700,此外,所示出的例程实施例描述了初始确定对于领域的与文档相关的相关信息,以及更新所在先确定的与文档相关的相关性信息来反映随后的反馈和/或关于领域的文档的 其它信息。此外,以与其它例程的方式相似的方式,在使用所确定的相关性信息以及动态地响应于对这个信息的请求之前,例程700可以确定该领域的相关性信息。
所示出例程的实施例在块705处开始,接收对于领域文档的文档词分析信息(比如,作为图5的例程500的输出,作为以动态确定的请求的一部分提供的信息),或接收其它请求。例程往下到块710,确定是否接收到文档词分析信息,如果接收到,往下到块715。在所示出的实施例中,执行块715-745,以诸如与图6的块615-650相似的方法,为感兴趣领域的一个或多个词的每一组确定与文档相关的信息。例如,可以使用每个存在于任何文档中的词或以如参考图6所详细描述的其它方法,选择要被分析的词。
特别地,在所示出的实施例中,在块715中的例程选择要考虑的一个或多个词的下一组,从第一组开始,以及在块720中的例程相似地选择要考虑的下一个文档,从第一文档开始。在块725中,基于平均或否则集合对于所选文档的所选词的归一化TF-IDF得分,例程然后确定所选词与所选文档的归一化平均相关性。在块735中,例程然后确定是否还有需要分析的文档,如果有,那么回到块720。否则,例程往下到块740,基于在块725中确定的相关得分,确定与当前所选的词最相关的文档。接下来,在块745中,例程确定是否还有更多的一个或多个词的组要被考虑,如果是,回到块715。以与相对图6所讨论的方法相似的方法,可以重复执行块715-745来评估和修改关于多词和多文档的相关性信息,比如,初始为每个词独立地执行块715-745,接下来,执行对至少一些两个词的组合确定(比如,对这些词独立地执行块715-745,以基于来自该执行的可用信息),接下来执行对至少一些三个词组合的确定(比如,对于与先前所选择的两个词的组合足够相关的特定词执行块715-745,以基于来自该执行的可用信息),等等。备选地,在一些实施例中,替换地,对于要考虑的一些或所有组的一个或多个词,可以并行的方式(比如以在多计算系统上的分布式方法)执行块715-745的一部分或全部。
否则,在所示出的示例中,例程往下到块750,部分基于参考块725和740所生成的信息,生成神经网络来反映领域中的词与领域中的文档之 间的相关性。如参考块780所讨论的一样,也可以稍后基于反馈更新这种所生成的神经网络以精调对领域的特定词与领域的特定文档之间相关性的确定,比如以并行的方式对一些或所有的词和/或文档的确定。在块750之后,例程往下到块755,存储所确定的与文档相关的相关信息以及所生成的神经网络,以及可选地,如果合适,提供一些或所有的所确定信息作为输出(比如,作为对动态生成该信息的请求的响应)。
替换地,如果在块710中确定没有接收到文档词分析信息,替换地,例程往下到块775,基于对先前所确定的和所提供的相关性信息的使用,确定是否接收到反馈信息或反馈信息是否是可确定的。如在其它地方更详细地讨论一样,如果是的话,例程往下到块780,使用反馈信息更新先前所生成的与该反馈对应的神经网络。块780的执行还存储所更新的神经网络信息,以及可选地,将所更新的信息提供给请求者作为例程的输出。替换地,如果在块775中确定没有接收到反馈信息,例程往下到块785,如果合适,执行一个或多个所指示的其它操作。例如,这种所指示的其它操作可以包括:接收关于提供针对领域的在先所确定的与文档相关的信息的请求(比如,在神经网络更新之后,来自在先生成的对于领域的特定神经网络的当前版本的与文档相关的信息)、接收用户反馈信息以便稍后用于精调对于领域的所确定的与文档相关的信息(比如,特定的文档,被选择来用于与所指定的主题或其它词组对应)、接收来自用户或其它实体或其它人工操作者关于执行对在先所确定的与文档相关的信息的更新的请求(比如,基于用户反馈和/或领域可用的附加的特定领域的内容)、接收来自DSRD服务的人工操作者的其它管理请求,等等。可以多种方式处理用于稍后使用的所接收的反馈信息。例如,如果反馈满足一个或多个预定的标准(比如,基于所获得的最小或最大的反馈、自先前确定相应相关性信息之后的最小或最大时间段,等等),那么块785的执行可以触发例程700的后续执行,其中,提供反馈信息以用在块780中。
在块755、780或785之后,例程往下到块795,确定在接收到了明确终止指示之前是否继续。如果确定继续,例程回到块705,以及如果不继续,往下到块799和结束。
图8A-8B示出了词关系建议产生管理例程800的示例实施例流程图。 例如,图1A词关系建议产生管理模块125和/或图3的DSRD系统340的模块的执行可以提供该例程,例如,该例程生成对于一个或多个领域的词之间关系的概率表示,和/或,使用所生成的词间关系的概率表示信息向用户提供特定用户建议或其信息。例如,可以由图4的块445和/或464的执行或以其它方式启动例程800。
虽然在其它实施例中,例程800可以使用词间关系数据的其它类型的表示(比如,非概率表示),和/或可以非基于对领域文档的分析的其它方式确定词间关系信息,但是在所示出的实施例中,基于由其它模块生成的词间关系信息(比如,通过图1A的模块130和如参考图6所描述的,比如基于对于领域文档的文档词分析信息),例程800生成贝叶斯网络的概率表示数据结构和可选的相应决策树。此外,虽然在其它实施例中,生成和使用这两种类型的功能可以被分离到不同的例程中(是否由DSRD服务的实施例执行两种功能,或由其它服务执行一种或两种功能),但是,在所示出的实施例中,例程800一起执行生成词间关系信息的概率表示以及随后使用所生成的词间关系信息概率表示来向用户提供建议。虽然所示出的例程实施例描述了初始生成对于领域的词间关系信息概率表示,但是没有明显地讨论更新这种所在先生成的信息以反映后续的反馈和/或其它关于领域的词间关系的信息,例程的其它实施例可以执行这种更新,或替换地,相对于例程使用的潜在的词间关系信息任何这种更新可能不会发生,该例程可以生成对于领域的新词间关系信息概率表示以反映所更新的潜在信息。此外,以与其它例程的方式相似的方式,在使用所生成信息以及动态地响应于对这个信息的请求之前,例程800可以生成对于领域的词间关系信息概率表示。
此外,虽然在其它实施例中,可以其它方式执行生成和确定的动作,但是在所示出的实施例中,在图8中所示出的生成对于领域的中间词相关性信息概率表示是作为与图6中对领域的潜在的词间关系相关性信息的确定分离地被执行的。例如,在特定的实施例中,可以仅生成或否则确定一个潜在词间关系相关性信息和词间关系信息的概率表示。可以将对于领域的与关系相关的潜在中间词信息和词间关系信息的概率表示的确定一起来加以执行作为单个例程的部分。共用于两种类型的动作的信息可以被 执行一次,以及随后在两个不同的例程之间共享,等等。
所示出的例程实施例在块805处开始,其中,接收指示以生成对于感兴趣的一个或多个领域的词间关系概率表示,或接收其它请求。在一些实施例中,例程可以接收输入(例如,当例程作为图4的块445的一部分被执行时,接收由块430生成的数据作为输入),该输入包括关于潜在的所确定的中间词相关性信息的信息;可以接收关于特定用户的与词相关的特定偏好的信息,该信息用于基于相关联的词确定特定用户的建议;等等。例程往下到块810,确定是否生成了词间关系的概率信息(比如,基于明显的请求、基于接收到的所确定的潜在的中间词相关性信息,等等),以及,如果生成了该概率信息,往下到块815。在所示出的实施例中,执行块815-835以生成在将来使用的词间关系概率表示数据,以及执行块850-870以使用所在先生成的词间关系概率表示来向用户确定和提供特定用户建议。
特别地,参考块815,基于诸如在块805中所接收的信息,通过检索所存储的由例程600生成的信息和/或通过动态地与例程600交互获得的这种信息,该例程获得潜在的所确定的关于一个或多个兴趣领域的词间关系的相关性信息。例程往下到块820,分析该潜在的相关性信息以确定重要的词间关系,每个该关系包括一个或多个第一词,该第一词影响一个或多个第二词(比如,第二词有原因地被依赖或否则第二词依赖第一词)。例程于是往下到块820,生成一个或多个定向图(比如,DAG,或定向非循环图),其中,与领域的所选词中的偏好或兴趣相对应的随机变量节点表示该所选词,以及这些节点之间的定向链接或边缘表示了依赖性或其它影响。于是例程往下到块825,确定用于所生成的定向图中的概率信息,包括对于这些节点的条件概率表,所述节点依赖于一个或多个其它节点,以及可选地,在先概率值代表了这些节点的不确定性,其不依赖于其它节点。如在其它地方所更详细地讨论的,可以在多种实施例中以多种方式对定向图中的词间关系模型进行确定以及对图节点的概率信息进行确定,包括:至少部分地基于来自领域文档分析的所确定的相关性信息和/或基于用户的反馈进行的学习或其它修改。此外,虽然在其它实施例中,多个定向图将不用于表示领域,但是在一些实施例中,如果创建的多个定向图是 独立的,那么多个图将被组合成单个较大的定向图。
在块825之后,例程往下到块830,从定向图和所确定的概率信息生成一个或多个对于领域的相关词间关系的贝叶斯网络概率表示。应该理解地是,在至少一些实施例中,所生成的贝叶斯网络可以具有成百上千或上百万的节点和相应数量的中间节点边缘来表示特定感兴趣领域。此外,在至少一些实施例中,例程还在块830中生成一个或多个(比如,成百或成千或成百上千)决策树,每个所述决策树表示一个所生成贝叶斯网络的子集;与使用整个贝叶斯定理网络相比,决策树使得稍后的运行处理时间可以更快的方式执行。如在其它地方所更详细地讨论一样,可以在多种实施例中以多种方式执行生成贝叶斯网络和决策树。例如,在一些实施例中,在识别出关于用户词偏好和一个或多个感兴趣的目标词信息之后(比如,如参考块877-888所讨论的),(如果需要)可以例示部分贝叶斯网络和/或一个或多个部分决策树,其对应贝叶斯网络的一部分并与词偏好和目标词相连接,例如还包括证据节点或关于词偏好和对于目标词的特定用户词相关性信息的其它证据信息。在块830之后,例程往下到块835以存储稍后使用的所生成信息,以及可选地,也提供一些或所有所生成的信息作为输出(比如,响应于对特定所生成信息的请求,执行生成该信息)。
替换地,如果在块810中确定没有生成词间关系的概率表示,那么替换地,例程往下到块845,确定是否确定和提供了特定用户建议(比如,基于明确的请求、基于对用户所指定的与词相关的偏好的接收,等等),以及如果是的话,例程往下到块850。在块850中,例程获取关于目标用户在来自一个或多个所指示领域的一个或多个特定词中的偏好或其它兴趣,比如,可以在块805中接收、从所存储的用户偏好信息中检索、通过动态地与用户交互来确定(或直接地,或通过中间服务),等等。在块855中,例程检索所存储的与用户领域或所指示的偏好对应的概率表示信息,比如参考块830在先生成和存储的一个或多个决策树,或替换地,参考块830和835在先生成和存储的整个贝叶斯网络。在其它实施例中,替换地,例程可以动态的初始化一个和多个块815-835的执行以获得想要的词间关系概率信息。
在块855之后,例程往下到块860,基于用作证据的关于目标用户已 知兴趣的可用信息,识别和选择一个和多个附加特定用户目标词,该目标词非常有可能是该目标用户的兴趣。如在其它地方所讨论的,可以多种方式识别这种目标词,比如以下几项:确定一个和多个目标兴趣词的概率,该目标兴趣词在请求中指示以及从一个和多个目标兴趣词中选词;确定目标用户对所生成的贝叶斯网络模型中的一些和所有词的兴趣(比如,其它词不是直接地和非直接地独立于已知证据兴趣词),以及选择具有所确定的最高概率的这些词的子集;等等。
在块860之后,例程往下到块865,至少部分基于所选择的附加目标词,确定对于目标用户的一个和多个建议;以及在块870中,向目标用户提供所确定建议的指示(比如,直接地、通过一个和多个中间件服务,等等)。例如,在一些实施例中,所生成的建议可以包括一个和多个领域文档,以及如果是这样的话,例程在块860中还可以检索关于各种候选文档的信息(比如,关于各种候选文档相对于所选目标词的相关性的信息),以及基于这些具有与所选目标词(或所选目标词和目标用户感兴趣的已知证据词的组合)最相关的文档,确定用于建议的特定候选文档。在一些实施例中,可以其它方式生成建议,和/或该建议可以具有其它形式。例如,可以将一些或所有候选文档作为请求的一部分来提供,和/或,一些或所有候选文档可以与领域相关联,而不与已知的与目标用户已知兴趣词相对应(比如,如果已知目标用户感兴趣的已知证据词与一个或多个第一感兴趣领域相对应,那么识别附加目标词,所述附加目标词被确定是与一个或多个其它第二领域的感兴趣的已知证据词相关,例如,以使在第二领域中的建议是可能的,所述第二领域中没有关于目标用户的兴趣的信息和/或关于任何用户的兴趣的信息是可用的)。此外,在至少一些实施例中,可以确定将所选附加目标词用作所提供的建议一部分或全部,比如将其提供给目标用户以用于可能的选择或其它识别作为是目标用户的实际兴趣或否则是与目标用户的当前动作相关的这些词。此外,在其它实施例中,可以其它方式使用所选附加词和/或所确定的对于用户的建议,替换或排除将它们提供给目标用户和/或使用它们来生成建议;而是诸如将所选附加词作为目标用户可能的或实际的兴趣来存储以在将来使用、即使目标用户没有请求建议也主动向目标用户推送所确定的建议、基于所选附加目标词 来识别广告或目标用户可能感兴趣的其它第三方信息,等等。
替换地,如果在块845中确定没有确定和提供特定用户建议,那么替换地,例程往下到块875,确定是否以特定用户的方式(比如,基于明确的请求、基于对所指定的与词相关的用户偏好和/或感兴趣的目标词的接收)来确定对于特定用户的一个或多个所指示目标词的相关性,以及如果是的话,例程往下到块877。可以多种方式初始化这种请求,比如通过与DSRD服务交互的第三方服务来确定是否特定用户可能对一个或多个与第三方服务的内容相关的特定词感兴趣、通过DSRD服务或其它服务来确定是否特定用户可能对与一个或多个目标词相关的广告感兴趣,等等。在块877中,例程获得关于一个或多个感兴趣目标词的信息,特定用户可能偏好或感兴趣的所述一个或多个感兴趣目标词要被确定;以及在块879中获得关于特定用户对一个或多个领域中的一个或多个特定词的偏好或其它兴趣的信息。可以在多种实施例中以多种方式获得在块877和/或879中的信息,比如,通过在块805中接收。从所存储的对于特定所识别用户的偏好信息中检索、通过动态地与特定所识别的用户交互来确定,等等。此外,在一些实施例和情形下,可以识别特定用户,而在其它实施例中,所接收的请求可以指示特定用户偏好的词但是不识别特定用户(比如,对于请求者是已知但在请求中未被识别的特定用户,比如,如果替换地请求者为未识别用户提供偏好信息;对于匿名用户,偏好信息是可用的,以及可选地具有关于请求者指示的匿名用户的可能偏好或与匿名用的可能偏好相关的其它上下文信息的信息;对于具有假定词偏好的假定用户;等等,)。此外,在一些实施例中,被确定与目标词相关的用户指单个人,而在其它实施例中,用户可以具有其它形式(比如,非人实体,比如商业或组织;多人集合或组,比如俱乐部或其它具有至少一些共用偏好或否则聚集偏好的聚合体;等等)。在块881中,例程于是检索所存储的与相关领域对应的概率表示信息,比如。参考块830和835所在先生成或存储的一个或多个决策树,或替换地,参考块830和835所在先生成或存储的一个或多个完整贝叶斯网络。在其它实施例中,替换地,例程可以动态地初始化一个或所有块815-835的执行以获得想要的词间关系概率信息。
在块881之后,例程往下到块883,确定是否所检索的概率表示信息 示出了诸如将一个或多个词偏好与目标词连接的贝叶斯网络的一个或多个路径之类的用户词偏好和目标词之间的关系。如果在块885中确定所检索的概率表示信息没有示出这种关系,例程往下到889,向请求者提供没有相关性信息的指示,以确定特定用户的可能偏好,该偏好对于所指定的用户当前词偏好的目标词。否则,例程往下到块886,可选地生成或选择与用户词偏好和目标词之间的关系对应的概率表示信息的子集,比如贝叶斯网络的子图,和/或一个或多个决策树,所述贝叶斯定理网络包括从词偏好到目标词的一个或多个路径,所述决策树与词偏好和目标词之间的影响相对应。在其它实施例中,在没有生成对特定用户来说特定的任何新数据结构的情况下,可以使用现有贝叶斯网络和/或决策树。
在块886之后,例程往下到块887,基于可选地所生成的概率表示信息子集或其它所在先生成的概率表示信息,确定特定用户对诸如每个独立地目标词和/或多个目标词的组合之类的目标词偏好或感兴趣的概率或其它可能性。在块888中,例程于是向请求者提供所确定的目标词可能性的指示。
替换地,如果在块875中确定:没有确定和提供对于特定用户的一个或多个所指示的目标词的特定用户相关性,那么替换地,例程往下到块890,如果合适执行一个或多个其它所指示的操作。例如,在一些实施例中,例程可以接收关于所在先生成的概率表示信息的更新请求(比如,对潜在中间词相关性信息的更新、来自用户反馈或与中间词相关性的其它学习的更新,等等),以及如果是这样的话,例程可以选择地修改所在先生成的概率表示信息以反映该更新,和/或可以初始化新概率表示信息的生成以反映该更新。此外,在一些实施例中,例程可以对提供所在先生成的概率表示信息的请求进行接收和响应;基于凡是当前的潜在中间词相关性信息是可用的,周期性地初始化生成新概率表示信息(比如,在领域文档和其它内容项可以改变的实施例中,可以基于用户反馈改变所确定的中间词相关性信息,等等);执行多种定期的家务管理操作;等等。
在块835、870或890之后,例程往下到895,确定在接收到明确的终止指示之前是否继续。如果确定继续,例程回到块805,以及如果不继续,例程往下到块899和结束。
应该理解地是:在一些实施例中,可以备选的方式提供上文所讨论的由例程提供的功能,比如分开在多个例程中或合并成较少的例程。相似地,在一些实施例中,所示出的例程可以提供比所描述的功能多或少的功能,比如,当其它所示出的例程缺乏或不包括这种功能时,或当所提供的功能数量改变的时候。此外,当各种操作可以示作以特定方式和/或以特定顺序被执行时(比如,串行或并行),本领域普通技术人员应该理解:在其它实施例中,可以其它顺序和其它方式执行该操作。本领域普通技术人员也应该理解:上文所讨论的数据结构可以不同的方式构建,比如通过将单个数据结构分割成多个数据结构,或通过将多个数据结构合并成单个数据结构。相似地,在一些实施例中,所示出的数据结构可以存储比所描述的数据结构多或少的信息,比如,当其它所示出的数据结构不缺乏或包括这种信息的时候,或当所存储的信息数量和种类改变的时候。
通过上文,应该理解地是:虽然为了解释说明的目的,此处描述了特定的实施例,但是在没有背离本发明的精神和范围之内可以进行各种改变。因此,本发明除指定的权利要求书及其中记载的单元之外没有限制。此外,当本发明的特定方面有时以特定权利形式存在时,本发明人意欲使本发明的各个方面以任何可用的权利形式存在。例如,在特定的时间,当本发明的一些方面仅被描述为内嵌在在计算机可读介质中时,其它方面也可以进行这样的内嵌。
Claims (41)
1.一种基于自动确定的关系提供信息的计算机实现方法,方法包括:
在一个或多个计算系统的控制下,所述计算系统被配置成基于自动确定的词之间的关系提供建议信息;
接收多个内容项的组的一个或多个指示,所述内容项的内容表示感兴趣主题区域,所述内容包括多个词;
自动地分析组中的多个内容项,以识别多个词中至少一部分词之间的关系,所识别的第一关系指示多个词中的一个或多个第一词相对于多个词中的一个或多个其它的第二词的评估相关度;
获得与第一用户所偏好的一个或多个指示词有关的信息,所述指示词包括至少一个第一词但不包括任何第二词;
对于一个或多个第二词中的每个第二词,至少部分地基于包括在指示词中的至少一个词以及基于一个或多个第一词相对于一个或多个第二词的评估相关度,自动地确定第一用户对第二词感兴趣的可能性;以及
提供一个或多个第二词中的所选择的至少一个第二词的指示,以使得能够基于至少一个第二词向第一用户提供一个或多个建议,其中,至少一个第二词是基于一个或多个确定的标准来选择的,所述一个或多个确定的标准用于评估至少一个第二词的所确定的可能性。
2.如权利要求1所述的方法,其中,通过自动分析而识别的关系包括在多个词的至少两个词之间的多个词间关系,其中,自动分析还包括对于多个词间关系中的每个词间关系,自动评估在该词间关系的至少两个词之间的初始相关度,其中,对所述组的多个内容项的自动分析还包括:对于至少一些所识别的关系,至少部分基于评估相关度生成多个词间关系中的至少一些词间关系的概率表示,所述概率表示包括对于至少一些词间关系中的每一个词间关系,与该词间关系的至少两个词之间的关系的可能性相关的信息,其中,为一个或多个第二词中的每个第二词自动确定可能性是基于对包括在概率表示中的信息的使用。
3.如权利要求2所述的方法,其中,所述概率表示包括具有所包括的信息的贝叶斯网络,所包括的信息为至少一些词间关系的每一个词间关系指示在该词间关系的至少两个词之间的影响的方向,以及为至少一些词间关系的每一个词间关系指示条件概率信息。
4.如权利要求3所述的方法,还包括,在提供了至少一个所选第二词的指示之后:
从用户获得与多个词相关的反馈;
至少部分基于获得的附加反馈,自动地更新包括在用于一个或多个词间关系的贝叶斯网络中的信息指示的条件概率信息;以及
使用包括在贝叶斯网络中的更新的条件概率信息,自动地确定一个或多个附加用户对于多个词中的一个或多个附加词感兴趣的可能性。
5.如权利要求2所述的方法,其中,所述包括一个或多个决策树,每个决策树表示至少一些词间关系中的一个或多个词间关系,并包括至少一个决策节点和多个端节点,每个端节点表示用户对所表示的一个或多个词间关系之一的至少一个词感兴趣的概率。
6.如权利要求5所述的方法,还包括,在提供了至少一个所选第二词的指示之后:
从用户获得与多个词相关的反馈;
至少部分基于所获得的附加反馈,自动地更新由一个或多个决策树的一个或多个端节点表示的概率;以及
使用一个或多个决策树的更新的所表示的概率,自动地确定一个或多个附加用户对于多个词中的一个或多个附加词感兴趣的可能性。
7.如权利要求2所述的方法,其中,自动分析还包括:生成词相关神经网络,所述词相关神经网络表示了用于多个词间关系的至少两个词之间的初始评估相关度,并基于从执行了对应多个词的选择的用户获得的反馈,重复地更新由所述词相关性神经网络表示的多个词间关系的评估相关度;其中,生成至少一些词间关系的概率表示是基于至少一些识别的关系的更新的评估相关度。
8.如权利要求7所述的方法,还包括,在提供了至少一个所选第二词的指示之后:
从用户获得与多个词相关的附加反馈;
至少部分基于获得的附加反馈,自动地识别一个或多个附加词间关系;
自动地生成新的词相关神经网络,所述词相关性神经网络表示所识别的一个或多个附加词间关系的初始评估相关度,以及表示多个词间关系中的一个或多个词间关系的更新的评估相关度;
自动地生成至少一些词间关系和至少一个附加词间关系的新概率表示;以及
使用包括在生成的新概率表示中的信息,自动地确定一个或多个附加用户对多个词中的一个或多个附加词感兴趣的可能性。
9.如权利要求2所述的方法,还包括,在至少部分基于至少一些识别的关系的评估相关度生成至少一些词间关系的概率表示之后:
从用户获得与多个词相关的反馈;
通过将所获得的附加反馈与通过对所述组的多个内容项进行自动分析而得到的评估相关度相组合,自动地更新包括在所生成的一个或多个词间关系的概率表示中的信息;所述组合包括对获得的附加反馈与通过对所述组的多个内容项进行自动分析的而得到的评估相关度使用不同的权重;以及
使用更新的所包括的信息,自动地确定一个或多个附加用户对于多个词中的一个或多个附加词感兴趣的可能性。
10.如权利要求9所述的方法,还包括,在所述使用所更新的所包括的信息,自动地确定一个或多个附加用户对于多个词中的一个或多个附加词感兴趣的可能性之后:
从用户获得与多个词相关的附加反馈;
自动确定使用来自用户的获得的附加反馈,而不使用通过对组中的多个内容项进行自动分析而得到的评估相关度,作为自动确定一个或多个其它用户对于一个或多个词感兴趣的另外可能性的一部分。
11.如权利要求2所述的方法,还包括:至少部分基于所获得的与多个用户的实际偏好有关的信息,自动地生成至少一些词间关系中的一个或多个词间关系的第二概率表示,所述第二概率表示包括针对一个或多个词间关系中的每个词间关系,与该词间关系的至少两个词之间的关系的可能性有关的信息,其中,自动确定一个或多个第二词中的至少一个第二词的可能性还基于对包括在第二概率表示中信息的使用。
12.如权利要求1所述的方法,其中,第一用户所偏好的一个或多个指示词是由第一用户指定的搜索词,其中,提供至少一个所选第二词的指示包括:至少部分地基于至少一个所选第二词生成搜索结果,向第一用户提供用于显示的生成的搜索结果;提供的生成的搜索结果包括一个或多个建议。
13.如权利要求12所述的方法,其中,生成的搜索结果包括所述组的多个内容项中的一个或多个内容项。
14.如权利要求12所述的方法,其中,所生成的搜索结果包括一个或多个内容项,所述一个或多个内容项与感兴趣主题区域相关,但不是内容项的组的部分。
15.如权利要求1所述的方法,其中,第一用户所偏好的一个或多个指示词由第一用户指定,其中,一个或多个建议包括至少一个所选第二词中的一个或多个第二词;其中,提供至少一个所选第二词的指示包括:向第一用户提供用于显示的至少一个所选第二词,使得第一用户能将至少一个所选第二词中的一个或多个选作第一用户的其它偏好。
16.如权利要求1所述的方法,其中,第一用户所偏好的一个或多个指示词由第一用户指定,其中,一个或多个建议包括至少一个所选第二词中的一个或多个,其中,提供至少一个所选第二词的指示包括:向第一用户提供用于显示的至少一个所选第二词,使得第一用户能将至少一个所选第二词中的一个或多个选作具有感兴趣主题区域的一个或多个指示词的共用多词主题的部分。
17.如权利要求1所述的方法,其中,自动确定第一用户对一个或多个第二词感兴趣的可能性是基于通过对多个内容项进行自动分析而得到的一个或多个第一词相对于一个或多个第二词的评估相关度,以及是在没有使用与跟一个或多个第二词相关的任何用户的任何实际偏好有关的信息的情况下执行的。
18.如权利要求1所述的方法,还包括:
自动地分析第二组的多个内容项以识别与第二感兴趣主题区域相关的一个或多个附加词间关系,所述第二感兴趣主题区域与所述第二组的多个内容项相关,第二感兴趣主题区域与感兴趣主题区域不同,第二组的多个内容项与组的多个内容项不同,所识别的附加关系包括在一个或多个第一词与一个或多个其他的第三词之间的第二关系,所述第三词不是多个词的部分;以及
提供所选的至少一个第三词的指示,以使得能够基于至少一个第三词向第一用户提供一个或多个附加建议,所述至少一个第三词是在没有使用与跟所述一个或多个第三词相关的任何用户的任何实际偏好有关的任何信息的情况下选择的。
19.如权利要求1所述的方法,还包括:
自动地分析与第二感兴趣主题区域相关的第二组多个内容项,以识别多个内容项中与所选的至少一个第二词相关的一个或多个内容项;以及向第一用户提供一个或多个建议,所述一个或多个建议包括所识别的与所选的至少一个第二词相关的一个或多个内容项。
20.如权利要求1所述的方法,其中,选择至少一个第二词以表示第一用户的未表述偏好。
21.如权利要求1所述的方法,其中,一个或多个所确定的标准是基于以下项目中的至少一个项目:针对至少一个第二词的所确定的可能性的、限定的阈值,以使所选的一个或多个第二词具有大于限定的阈值的所确定的可能性;至少一个第二词的限定的数量,以使所选的一个或多个第二词是在所述限定的数量内,并具有比其它未选择的第二词大的所确定的可能性;至少一个第二词的限定的百分比,以使所选的一个或多个第二词是在所述限定的百分比内,并具有比其它未选择的第二词大的所确定的可能性。
22.如权利要求1所述的方法,其中,组的内容项包括至少一个文本文档,所述文本文档的文本包括多个词、音频信息、图像信息、视频信息、生物信息、字母数字数据结构、符号数据结构以及数学数据结构之中的至少一些;其中,所配置的一个或多个计算系统是相关性确定系统的一部分,所述相关性确定系统基于自动确定的词之间的关系来提供建议信息。
23.一种计算机可读介质,该介质的内容配置相关性确定系统的计算系统通过执行包括如下步骤的方法来基于自动确定的关系提供信息:
在配置的计算系统的控制下,
自动地分析多个相关的内容项的内容以识别包括在内容中的多个词中至少一些词之间的关系,所识别的第一关系指示多个词中的第一词相对于多个词中的一个或多个其它第二词的评估相关度;
获得与第一用户感兴趣的一个或多个指示词有关的信息,所述指示词包括第一词但不包括任何第二词;
至少部分地基于第一词相对于一个或多个第二词的评估相关度,自动地确定第一用户对第二词之一感兴趣的可能性;以及
提供一个第二词和确定的可能性的指示,以使得能够基于所述一个第二词为第一用户确定一个或多个建议。
24.如权利要求23所述的计算机可读介质,其中,多个相关内容项的内容表示感兴趣主题区域,其中,一个或多个词被第一用户指示为第一用户的偏好,其中,为多个第二词中的每个第二词执行可能性的自动确定;其中,基于评估多个第二词的确定的可能性的一个或多个确定的标准来选择所述一个第二词,其中,提供一个第二词和确定的可能性的指示包括基于所述一个第二词确定一个或多个建议,以及将至少一个所确定的提议作为建议提供给第一用户。
25.如权利要求24所述的计算机可读介质,其中提供的建议是所述一个第二词。
26.如权利要求23所述的计算机可读介质,其中,所述计算机可读介质是计算系统的用于存储内容的存储器,其中,所述内容是指令,当执行所述指令时,使计算系统执行所述方法。
27.一种计算系统,被配置为基于自动确定的关系提供信息,包括:
一个或多个处理器;以及
相关性确定系统,被配置为,当由所述一个或多个处理器中的至少一个处理器执行时,通过以下操作,基于自动确定的关系提供信息:
自动地分析与感兴趣主题区域相关的多个内容项,以识别与多个内容项相关的多个词之间的词间关系,每个词间关系指示多个词中的至少一个第一词相对于多个词中的至少一个其它第二词的评估的相关性;
至少部分地基于所选词间关系的评估相关性,自动地生成所选词间关系的概率表示,所述概率表示包括针对每个所选词间关系,与至少一个第一词和至少一个第二词之间的关系的确定的可能性相关的信息;以及
提供针对至少一个所选词间关系的与至少一个第一词和至少一个第二词之间的关系的确定的可能性相关的信息,以使得能够为用户确定一个或多个建议,所述用户对至少一个所选词间关系的至少一个第一词感兴趣。
28.如权利要求27所述的计算系统,其中,多个相关内容项表示感兴趣主题区域,多个词包含在多个相关内容项的内容中,其中,提供针对至少一个所选词间关系的与至少一个第一词和至少一个第二词之间的关系的确定的可能性相关的信息包括:
在获得与用户对所述至少一个所选词间关系的至少一个第一词感兴趣有关的信息之后,使用包括在所生成概率表示中的信息,至少部分地基于至少一个所选词间关系的确定的可能性,自动地确定至少一个所选词间关系的至少一个第二词也是用户感兴趣的;
至少部分地基于至少一个所选词间关系的至少一个第二词,为用户确定一个或多个建议;以及
向用户提供确定的一个或多个建议。
29.如权利要求27所述的计算系统,还包括:一个或多个系统,被配置为:接收所提供的针对至少一个所选词间关系的与至少一个第一词和至少一个第二词之间的关系的确定的可能性相关的信息;以及对于多个用户中的每一个用户:
获得与用户指示为用户偏好的一个或多个词有关的信息;
至少部分地基于接收到的所提供的信息,自动地确定用户可能感兴趣的一个或多个第二词;
至少部分地基于确定的一个或多个第二词,为用户自动地确定一个或多个建议;以及
向用户提供确定的一个或多个建议。
30.如权利要求29所述的系统,其中,对于多个用户中的一个用户,自动确定所述一个用户可能感兴趣的一个或多个第二词包括:对于多个第二词中的每个第二词,确定所述一个用户对第二词感兴趣的概率,以及,基于用于评估多个第二词的确定概率的一个或多个确定的标准,从多个第二词中选择确定的一个或多个第二词。
31.如权利要求27所述的计算系统,其中,相关性确定系统包括由至少一个处理器执行的软件指令。
32.如权利要求27所述的计算系统,其中,所述相关性确定系统包括基于自动确定的关系提供信息的装置:
自动地分析与感兴趣主题区域相关的多个内容项,以识别与多个内容项相关的多个词之间的词间关系,每个词间关系指示多个词中的至少一个第一词相对于多个词中的至少一个其它第二词的评估相关性;
至少部分地基于所选词间关系的评估相关性,自动地生成所选词间关系的概率表示,所述概率表示包括针对每个所选词间关系,与至少一个第一词和至少一个第二词之间的关系的确定的可能性相关的信息;以及
提供针对至少一个所选词间关系的与至少一个第一词和至少一个第二词之间的关系的确定的可能性相关的信息,以为用户确定一个或多个建议,所述用户对至少一个所选词间关系的至少一个第一词感兴趣。
33.一种基于自动确定的关系提供信息的计算机实现方法,所述方法包括在被配置为提供相关性确定服务的一个或多个计算系统的控制下,通过以下步骤来自动地确定与建议相关信息:
自动地分析与第一感兴趣领域相关的多个文档的内容,以识别出现在文档内容中的多个词中的至少一些词之间的多个词间关系,每个识别的关系指示至少一个词和至少一个其它词之间的初始评估相关性;
自动地生成对所识别的关系的评估相关性加以模拟的词相关性神经网络,并基于从执行对应于多个词的选择的用户获得的反馈,重复地更新由词相关性神经网络模拟的评估相关性,其中所述词相关性神经网络初始模拟评估初始相关性;
基于至少一些所识别关系的更新的评估相关性,自动地生成概率贝叶斯网络,所述概率贝叶斯定理网络包括对多个词中的至少一些词之间关系的概率加以指示的信息;以及
对于多个用户中的每个用户,使用包括在概率贝叶斯网络中的信息,通过以下步骤来提供与第一领域相关的建议:
获得与多个词中用户表示出偏好的第一组一个或多个词有关的信息;
对于多个词中不在所述第一组中的一个或多个目标词中的每个目标词,自动地确定用户对该目标词未表示出偏好的概率,确定的概率是基于用户对于第一组中的一个或多个词的偏好,以及是基于第一组中的一个或多个词与目标词之间的一个或多个关系,所述一个或多个关系由包括在所述概率贝叶斯网络中的信息所指示;以及
向用户提供与第一领域相关的一个或多个建议,所述一个或多个建议基于所选择的第二组至少一个目标词,第二组中的目标词是基于用户对这些目标词未表示出偏好的所确定的概率来选择的,其中,用于多个用户中的至少一个用户的所选第二组的目标词与用于多个用户中的至少一个其它用户的所选第二组的目标词不同。
34.如权利要求33所述的方法,其中,自动地生成概率贝叶斯网络包括:对于至少一部分所识别关系中的每个关系,确定所识别关系的至少一个词和至少一个其它词之间的影响方向;以及,确定一个或多个条件概率,所述条件概率表示了所识别关系的至少一个词和至少一个其它词之间的影响强度,其中,包括在概率贝叶斯网络中的信息包括所确定的影响方向和所确定的条件概率。
35.如权利要求34所述的方法,其中,自动地生成概率贝叶斯网络还包括生成多个决策树,每个决策树与包括在所述概率贝叶斯网络中的信息的部分相对应;其中,使用所生成的多个决策树为多个用户之一自动确定每个目标词的概率。
36.如权利要求33所述的方法,其中,
使用包括在概率贝叶斯网络中的信息向多个用户提供与第一领域相关的建议还包括,在使用包括在概率贝叶斯定理网络中的信息向多个用户中的一个或多个用户提供与第一领域相关的建议之后:获得有关附加用户与多个词相关的实际偏好的信息,所述附加用户与多个用户不同;以及更新包括在概率贝叶斯网络中的信息,以反映所获得的与附加用户的实际偏好有关的信息;并且
其中,使用包括在概率贝叶斯理网络中的信息向除了所述一个或多个用户以外的多个用户提供与第一领域相关的建议包括:使用更新的信息。
37.如权利要求33所述的方法,还包括:
自动地生成第二概率贝叶斯网络,所述第二概率贝叶斯网络指示用于第一领域的多个词之间的第二概率,并且基于获得的用于多个词的与多个用户的实际偏好有关的信息;以及
对于多个用户中一个或多个用户当中的每个用户,在获得与用户已经表示偏好的第一组一个或多个词有关的信息之后,使用第二概率贝叶斯网络,自动地为一个或多个目标词中用户未表示偏好的每个词确定第二概率;确定的用于至少一个目标词的第二概率与基于使用词相关性神经网络生成的概率贝叶斯网络确定的用户的该目标词的概率不同;以及
其中,用于向一个或多个用户中的至少一个用户提供建议的使用所选择的第二组目标词还包括至少一个目标词,所述至少一个目标词是基于所确定的来自第二概率贝叶斯网络的第二概率而选择的,而并非是基于来自使用词相关性神经网络生成的概率贝叶斯网络的所确定的概率而选择的。
38.如权利要求33所述的方法,其中,自动地确定与建议相关的信息还包括:
自动地分析与第二感兴趣领域相关的其它文档的内容,以识别存在于其它文档的内容中的第二多个词之间的多个附加关系,所述第二多个词包括一个或多个第一词以及一个或多个第二词,所述一个或多个第一词是与第一领域相关的文档的内容中存在的多个词的一部分,所述一个或多个第二词不是与第一领域相关的文档的内容中存在的多个词的一部分,所识别的多个附加关系指示了一个或多个第一词相对于一个或多个第二词的初始评估相关性;
自动地更新概率贝叶斯网络以包括附加信息,所述附加信息指示与至少一个附加关系对应的概率,其中,至少部分地基于一个或多个第一词相对于一个或多个第二词的初始评估相关性,在没有与对于一个或多个第二词的任何用户偏好有关的任何信息的情况下,执行自动更新;
在获得与第一用户所偏好的但不包括任何第二词的第一组一个或多个词有关的信息之后,基于至少一个第二词,向第一用户提供一个或多个建议,其中,所述至少一个第二词是基于第一用户对所述至少一个第二词未表示出偏好的所确定的概率而自动选择的,第一用户对所述至少一个第二词未表示出偏好的所确定的概率是基于包括在更新的概率贝叶斯网络中的附加信息而确定的。
39.如权利要求33所述的方法,其中,对于多个用户中的一个用户,因为没有信息能识别与所述一个用户相似的任何其它用户,以使得相关性确定服务能基于与所述其它用户相关的可用信息,向与所述第一领域相关的所述一个用户提供建议,所以所述相关性确定服务具有冷启动建议问题,以及其中,所述相关性确定服务使用通过对与所述第一领域相关的文档内容进行自动分析而识别的关系来克服关于向所述一个用户提供所述一个或多个建议的所述冷启动建议问题。
40.如权利要求39所述的方法,其中,向所述一个用户提供的一个或多个建议包括:与第一领域相关的多个文档中的一个或多个文档,和/或为所述一个用户的选择的第二组中的一个或多个目标词。
41.如权利要求33所述的方法,其中,
用户可以通过一个或多个附属服务来访问所述相关性确定服务,使得为所述多个用户至少提供一些建议包括:将这些建议提供给所述附属服务,所述附属服务进一步基于这些建议向这些用户提供信息;并且
其中,所述相关性确定服务是收费服务,其向所述附属服务和/或这些用户收取费用。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12228208P | 2008-12-12 | 2008-12-12 | |
US61/122,282 | 2008-12-12 | ||
PCT/US2009/067778 WO2010068931A1 (en) | 2008-12-12 | 2009-12-11 | Providing recommendations using information determined for domains of interest |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102326144A true CN102326144A (zh) | 2012-01-18 |
CN102326144B CN102326144B (zh) | 2015-06-17 |
Family
ID=42241728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980156646.6A Expired - Fee Related CN102326144B (zh) | 2008-12-12 | 2009-12-11 | 使用感兴趣领域确定的信息提供建议 |
Country Status (7)
Country | Link |
---|---|
US (2) | US8429106B2 (zh) |
EP (1) | EP2377011A4 (zh) |
JP (1) | JP5379239B2 (zh) |
CN (1) | CN102326144B (zh) |
CA (1) | CA2746675C (zh) |
MX (1) | MX2011006340A (zh) |
WO (1) | WO2010068931A1 (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015043389A1 (zh) * | 2013-09-30 | 2015-04-02 | 北京奇虎科技有限公司 | 一种基于视频搜索的分词信息推送方法和装置 |
CN104809165A (zh) * | 2015-04-02 | 2015-07-29 | 海信集团有限公司 | 一种多媒体文件相关度的确定方法及设备 |
CN104885081A (zh) * | 2012-12-27 | 2015-09-02 | 触摸式有限公司 | 搜索系统和相应方法 |
CN105247566A (zh) * | 2013-06-23 | 2016-01-13 | 英特尔公司 | 基于上下文关系信息的对用户信息的选择性共享,例如用于给接收方众包感兴趣的礼物 |
CN107918778A (zh) * | 2016-10-11 | 2018-04-17 | 阿里巴巴集团控股有限公司 | 一种信息匹配方法及相关装置 |
CN108140203A (zh) * | 2015-08-18 | 2018-06-08 | 万事达卡国际股份有限公司 | 用于通过性质图形模型生成关系的系统和方法 |
CN108648010A (zh) * | 2012-09-18 | 2018-10-12 | 北京点网聚科技有限公司 | 用于向用户提供内容的方法、系统及相应介质 |
CN110619075A (zh) * | 2018-06-04 | 2019-12-27 | 阿里巴巴集团控股有限公司 | 一种网页识别方法与设备 |
CN110825972A (zh) * | 2019-11-12 | 2020-02-21 | 重庆邮电大学 | 一种基于领域差异化的热点话题关键用户发现方法 |
US10664657B2 (en) | 2012-12-27 | 2020-05-26 | Touchtype Limited | System and method for inputting images or labels into electronic devices |
CN111310882A (zh) * | 2018-12-11 | 2020-06-19 | 北京京东尚科信息技术有限公司 | 用于生成信息的方法和装置 |
CN111444334A (zh) * | 2019-01-16 | 2020-07-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、文本识别方法、装置及计算机设备 |
TWI724515B (zh) * | 2019-08-27 | 2021-04-11 | 聯智科創有限公司 | 機器學習服務提供方法 |
CN114036403A (zh) * | 2022-01-07 | 2022-02-11 | 智者四海(北京)技术有限公司 | 用户兴趣探测方法、装置和存储介质 |
US11586817B2 (en) * | 2018-02-12 | 2023-02-21 | Tencent Technology (Shenzhen) Company Limited | Word vector retrofitting method and apparatus |
Families Citing this family (158)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090216639A1 (en) * | 2008-02-25 | 2009-08-27 | Mark Joseph Kapczynski | Advertising selection and display based on electronic profile information |
JP5351182B2 (ja) * | 2008-02-25 | 2013-11-27 | アティジオ リミテッド ライアビリティ カンパニー | 関心領域についての関連情報の決定 |
US20090216563A1 (en) * | 2008-02-25 | 2009-08-27 | Michael Sandoval | Electronic profile development, storage, use and systems for taking action based thereon |
US9563616B2 (en) * | 2008-11-07 | 2017-02-07 | Workiva Inc. | Method and system for generating and utilizing persistent electronic tick marks and use of electronic support binders |
US9443209B2 (en) * | 2009-04-30 | 2016-09-13 | Paypal, Inc. | Recommendations based on branding |
US8180783B1 (en) * | 2009-05-13 | 2012-05-15 | Softek Solutions, Inc. | Document ranking systems and methods |
US8781990B1 (en) * | 2010-02-25 | 2014-07-15 | Google Inc. | Crowdsensus: deriving consensus information from statements made by a crowd of users |
CN102169566A (zh) * | 2010-02-26 | 2011-08-31 | 国际商业机器公司 | 在陌生领域中生成推荐项目的方法和装置 |
US20110231387A1 (en) * | 2010-03-22 | 2011-09-22 | Yahoo! Inc. | Engaging content provision |
US8392435B1 (en) | 2010-04-14 | 2013-03-05 | Google Inc. | Query suggestions for a document based on user history |
EP2567343A4 (en) | 2010-05-06 | 2018-01-31 | Atigeo Corporation | Systems, methods, and computer readable media for security in profile utilizing systems |
US10216831B2 (en) * | 2010-05-19 | 2019-02-26 | Excalibur Ip, Llc | Search results summarized with tokens |
US10540660B1 (en) | 2010-05-19 | 2020-01-21 | Adobe Inc. | Keyword analysis using social media data |
US9710555B2 (en) * | 2010-05-28 | 2017-07-18 | Adobe Systems Incorporated | User profile stitching |
US8655938B1 (en) | 2010-05-19 | 2014-02-18 | Adobe Systems Incorporated | Social media contributor weight |
US8751520B1 (en) * | 2010-06-23 | 2014-06-10 | Google Inc. | Query suggestions with high utility |
US20120016817A1 (en) * | 2010-07-19 | 2012-01-19 | Smith S Alex | Predicting Life Changes of Members of a Social Networking System |
TW201205307A (en) * | 2010-07-30 | 2012-02-01 | Ibm | Method, apparatus and computer program product for efficiently sharing information |
US10216393B2 (en) | 2010-07-30 | 2019-02-26 | International Business Machines Corporation | Efficiently sharing user selected information with a set of determined recipients |
CN102346894B (zh) * | 2010-08-03 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 推荐信息的输出方法、系统及服务器 |
KR101722687B1 (ko) * | 2010-08-10 | 2017-04-04 | 삼성전자주식회사 | 객체간 또는 객체와 유저간에 정보 제공 방법, 그 방법을 수행할 수 있는 유저 디바이스, 및 저장 매체 |
CN103038768B (zh) * | 2010-08-16 | 2018-05-25 | 意大利希思卫电子发展股份公司 | 用于选择至少一个项目的方法和设备 |
US8683389B1 (en) * | 2010-09-08 | 2014-03-25 | The New England Complex Systems Institute, Inc. | Method and apparatus for dynamic information visualization |
US8548988B2 (en) | 2010-11-22 | 2013-10-01 | SRM Institute of Science and Technology | System and method for comparing universities based on their university model graphs |
US8606775B2 (en) * | 2010-12-17 | 2013-12-10 | Audible, Inc. | Graphically representing associations between referents and stories |
US8560678B2 (en) | 2010-12-22 | 2013-10-15 | Facebook, Inc. | Providing relevant notifications based on common interests between friends in a social networking system |
KR101274419B1 (ko) * | 2010-12-30 | 2013-06-17 | 엔에이치엔(주) | 사용자 그룹별로 키워드의 순위를 결정하는 시스템 및 방법 |
US8719692B2 (en) * | 2011-03-11 | 2014-05-06 | Microsoft Corporation | Validation, rejection, and modification of automatically generated document annotations |
US8533146B1 (en) | 2011-04-29 | 2013-09-10 | Google Inc. | Identification of over-clustered map features |
US8700580B1 (en) | 2011-04-29 | 2014-04-15 | Google Inc. | Moderation of user-generated content |
US8862492B1 (en) | 2011-04-29 | 2014-10-14 | Google Inc. | Identifying unreliable contributors of user-generated content |
FR2975553B1 (fr) * | 2011-05-17 | 2014-05-16 | Alcatel Lucent | Aide a la recherche de contenus videos sur un reseau de communication |
JP5248655B2 (ja) * | 2011-05-18 | 2013-07-31 | 株式会社東芝 | 情報処理装置およびプログラム |
US9530167B2 (en) * | 2011-08-12 | 2016-12-27 | Facebook, Inc. | Coefficients attribution for different objects based on natural language processing |
CN102955781B (zh) * | 2011-08-19 | 2016-04-20 | 腾讯科技(深圳)有限公司 | 一种人物搜索方法及装置 |
US8838589B1 (en) * | 2011-08-19 | 2014-09-16 | Reverb Technologies, Inc. | Technique for building a user profile based on content consumption or production |
US10789526B2 (en) | 2012-03-09 | 2020-09-29 | Nara Logics, Inc. | Method, system, and non-transitory computer-readable medium for constructing and applying synaptic networks |
US8732101B1 (en) | 2013-03-15 | 2014-05-20 | Nara Logics, Inc. | Apparatus and method for providing harmonized recommendations based on an integrated user profile |
US10467677B2 (en) | 2011-09-28 | 2019-11-05 | Nara Logics, Inc. | Systems and methods for providing recommendations based on collaborative and/or content-based nodal interrelationships |
US8170971B1 (en) | 2011-09-28 | 2012-05-01 | Ava, Inc. | Systems and methods for providing recommendations based on collaborative and/or content-based nodal interrelationships |
US11151617B2 (en) | 2012-03-09 | 2021-10-19 | Nara Logics, Inc. | Systems and methods for providing recommendations based on collaborative and/or content-based nodal interrelationships |
US11727249B2 (en) * | 2011-09-28 | 2023-08-15 | Nara Logics, Inc. | Methods for constructing and applying synaptic networks |
WO2013059904A1 (en) | 2011-10-28 | 2013-05-02 | Research In Motion Limited | Factor-graph based matching systems and methods |
US8688793B2 (en) | 2011-11-08 | 2014-04-01 | Blackberry Limited | System and method for insertion of addresses in electronic messages |
US8463295B1 (en) * | 2011-12-07 | 2013-06-11 | Ebay Inc. | Systems and methods for generating location-based group recommendations |
US20130159254A1 (en) * | 2011-12-14 | 2013-06-20 | Yahoo! Inc. | System and methods for providing content via the internet |
US8666836B2 (en) | 2011-12-15 | 2014-03-04 | Facebook, Inc. | Targeting items to a user of a social networking system based on a predicted event for the user |
US9075498B1 (en) * | 2011-12-22 | 2015-07-07 | Symantec Corporation | User interface for finding similar documents |
US8832116B1 (en) | 2012-01-11 | 2014-09-09 | Google Inc. | Using mobile application logs to measure and maintain accuracy of business information |
US9015086B2 (en) * | 2012-03-23 | 2015-04-21 | Sap Se | Learnable contextual network |
US20130346424A1 (en) * | 2012-06-21 | 2013-12-26 | Microsoft Corporation | Computing tf-idf values for terms in documents in a large document corpus |
US9396179B2 (en) * | 2012-08-30 | 2016-07-19 | Xerox Corporation | Methods and systems for acquiring user related information using natural language processing techniques |
US8977622B1 (en) * | 2012-09-17 | 2015-03-10 | Amazon Technologies, Inc. | Evaluation of nodes |
US20150170160A1 (en) * | 2012-10-23 | 2015-06-18 | Google Inc. | Business category classification |
US20140129973A1 (en) * | 2012-11-08 | 2014-05-08 | Microsoft Corporation | Interaction model for serving popular queries in search box |
CN103870000B (zh) * | 2012-12-11 | 2018-12-14 | 百度国际科技(深圳)有限公司 | 一种对输入法所产生的候选项进行排序的方法及装置 |
US9147168B1 (en) * | 2012-12-20 | 2015-09-29 | Emc Corporation | Decision tree representation for big data |
US8996436B1 (en) | 2012-12-20 | 2015-03-31 | Emc Corporation | Decision tree classification for big data |
US10129596B2 (en) * | 2013-01-21 | 2018-11-13 | Netflix, Inc. | Adaptive row selection |
CN104111935B (zh) * | 2013-04-17 | 2017-02-01 | 腾讯科技(深圳)有限公司 | 一种推送微博的方法及系统、服务器 |
US9547698B2 (en) | 2013-04-23 | 2017-01-17 | Google Inc. | Determining media consumption preferences |
US9699019B2 (en) | 2013-06-14 | 2017-07-04 | Microsoft Technology Licensing, Llc | Related content display associated with browsing |
US20160012511A1 (en) * | 2013-06-25 | 2016-01-14 | Kobo Incorporated | Methods and systems for generating recommendation list with diversity |
US9276951B2 (en) * | 2013-08-23 | 2016-03-01 | The Boeing Company | System and method for discovering optimal network attack paths |
CN103488787B (zh) * | 2013-09-30 | 2017-12-19 | 北京奇虎科技有限公司 | 一种基于视频搜索的在线播放入口对象的推送方法和装置 |
CN103491205B (zh) * | 2013-09-30 | 2016-08-17 | 北京奇虎科技有限公司 | 一种基于视频搜索的关联资源地址的推送方法和装置 |
US9779722B2 (en) * | 2013-11-05 | 2017-10-03 | GM Global Technology Operations LLC | System for adapting speech recognition vocabulary |
US9679018B1 (en) | 2013-11-14 | 2017-06-13 | Google Inc. | Document ranking based on entity frequency |
US10474747B2 (en) * | 2013-12-16 | 2019-11-12 | International Business Machines Corporation | Adjusting time dependent terminology in a question and answer system |
US9778817B2 (en) | 2013-12-31 | 2017-10-03 | Findo, Inc. | Tagging of images based on social network tags or comments |
US9483738B2 (en) * | 2014-01-17 | 2016-11-01 | Hulu, LLC | Topic model based media program genome generation |
US10217058B2 (en) | 2014-01-30 | 2019-02-26 | Microsoft Technology Licensing, Llc | Predicting interesting things and concepts in content |
US9965521B1 (en) * | 2014-02-05 | 2018-05-08 | Google Llc | Determining a transition probability from one or more past activity indications to one or more subsequent activity indications |
US20150286650A1 (en) * | 2014-04-03 | 2015-10-08 | Kurt Stump | Decision Making and Activity Recommendations Engine via Online Persona |
CN105095202B (zh) * | 2014-04-17 | 2018-10-30 | 华为技术有限公司 | 消息推荐方法及装置 |
US10325205B2 (en) | 2014-06-09 | 2019-06-18 | Cognitive Scale, Inc. | Cognitive information processing system environment |
US9846836B2 (en) | 2014-06-13 | 2017-12-19 | Microsoft Technology Licensing, Llc | Modeling interestingness with deep neural networks |
US10133250B2 (en) | 2014-06-20 | 2018-11-20 | Veritone Alpha, Inc. | Managing construction of decision modules to control target systems |
WO2016009410A1 (en) * | 2014-07-18 | 2016-01-21 | Maluuba Inc. | Method and server for classifying queries |
KR102348084B1 (ko) * | 2014-09-16 | 2022-01-10 | 삼성전자주식회사 | 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체 |
US9984166B2 (en) | 2014-10-10 | 2018-05-29 | Salesforce.Com, Inc. | Systems and methods of de-duplicating similar news feed items |
US10592841B2 (en) | 2014-10-10 | 2020-03-17 | Salesforce.Com, Inc. | Automatic clustering by topic and prioritizing online feed items |
US9558244B2 (en) * | 2014-10-22 | 2017-01-31 | Conversable, Inc. | Systems and methods for social recommendations |
US10671601B2 (en) * | 2014-12-08 | 2020-06-02 | International Business Machines Corporation | Platform for consulting solution |
US20180246938A1 (en) * | 2015-02-20 | 2018-08-30 | Ent. Services Development Corporation Lp | Personalized profile-modified search for dialog concepts |
CN104657487B (zh) * | 2015-03-05 | 2017-12-22 | 东方网力科技股份有限公司 | 一种基于用户车牌查询行为的车牌推荐方法及装置 |
US10311408B2 (en) * | 2015-04-10 | 2019-06-04 | Soliton Systems K.K. | Electronic mail wrong transmission determination apparatus, electronic mail transmission system, and recording medium |
US9774692B2 (en) * | 2015-04-16 | 2017-09-26 | Mediatek Inc. | Method and system of automatic recording and portable application of lifestyle related data |
US10984056B2 (en) * | 2015-04-30 | 2021-04-20 | Walmart Apollo, Llc | Systems and methods for evaluating search query terms for improving search results |
EP3093803A1 (en) * | 2015-04-30 | 2016-11-16 | Tata Consultancy Services Limited | Systems and methods for contextual recommendation of learning content |
US10210218B2 (en) * | 2015-06-16 | 2019-02-19 | Salesforce.Com, Inc. | Processing a file to generate a recommendation using a database system |
US10089108B1 (en) | 2015-06-17 | 2018-10-02 | Amazon Technologies, Inc. | Archival format for incremental deployments and version control |
US10223393B1 (en) * | 2015-06-25 | 2019-03-05 | Amazon Technologies, Inc. | Efficient processing of source code objects using probabilistic data structures |
US10803391B2 (en) * | 2015-07-29 | 2020-10-13 | Google Llc | Modeling personal entities on a mobile device using embeddings |
CN105245609A (zh) * | 2015-10-23 | 2016-01-13 | 小米科技有限责任公司 | 推送信息的方法、装置、设备及系统 |
US10191988B2 (en) * | 2015-10-28 | 2019-01-29 | Sony Mobile Communications Inc. | System and method for returning prioritized content |
US10521410B2 (en) * | 2015-11-20 | 2019-12-31 | International Business Machines Corporation | Semantic graph augmentation for domain adaptation |
US11456885B1 (en) | 2015-12-17 | 2022-09-27 | EMC IP Holding Company LLC | Data set valuation for service providers |
US10572519B2 (en) * | 2016-01-04 | 2020-02-25 | Facebook, Inc. | Systems and methods to search resumes based on keywords |
US20170271984A1 (en) | 2016-03-04 | 2017-09-21 | Atigeo Corp. | Using battery dc characteristics to control power output |
US10528522B1 (en) | 2016-03-17 | 2020-01-07 | EMC IP Holding Company LLC | Metadata-based data valuation |
US10838946B1 (en) | 2016-03-18 | 2020-11-17 | EMC IP Holding Company LLC | Data quality computation for use in data set valuation |
CN105912685B (zh) * | 2016-04-15 | 2019-08-23 | 上海交通大学 | 基于跨领域的机票个性化推荐系统及推荐方法 |
US10671483B1 (en) | 2016-04-22 | 2020-06-02 | EMC IP Holding Company LLC | Calculating data value via data protection analytics |
US10838965B1 (en) | 2016-04-22 | 2020-11-17 | EMC IP Holding Company LLC | Data valuation at content ingest |
US10789224B1 (en) | 2016-04-22 | 2020-09-29 | EMC IP Holding Company LLC | Data value structures |
US9818406B1 (en) * | 2016-06-23 | 2017-11-14 | Intuit Inc. | Adjusting user experience based on paralinguistic information |
US10445356B1 (en) * | 2016-06-24 | 2019-10-15 | Pulselight Holdings, Inc. | Method and system for analyzing entities |
US9645999B1 (en) * | 2016-08-02 | 2017-05-09 | Quid, Inc. | Adjustment of document relationship graphs |
US10210551B1 (en) * | 2016-08-15 | 2019-02-19 | EMC IP Holding Company LLC | Calculating data relevance for valuation |
US11042574B2 (en) * | 2016-10-05 | 2021-06-22 | International Business Machines Corporation | Contextual enhancing of content participation in search results |
US10510088B2 (en) * | 2016-10-07 | 2019-12-17 | Bank Of America Corporation | Leveraging an artificial intelligence engine to generate customer-specific user experiences based on real-time analysis of customer responses to recommendations |
US10621558B2 (en) | 2016-10-07 | 2020-04-14 | Bank Of America Corporation | System for automatically establishing an operative communication channel to transmit instructions for canceling duplicate interactions with third party systems |
US10476974B2 (en) | 2016-10-07 | 2019-11-12 | Bank Of America Corporation | System for automatically establishing operative communication channel with third party computing systems for subscription regulation |
US10135989B1 (en) | 2016-10-27 | 2018-11-20 | Intuit Inc. | Personalized support routing based on paralinguistic information |
US10515632B2 (en) | 2016-11-15 | 2019-12-24 | At&T Intellectual Property I, L.P. | Asynchronous virtual assistant |
US10719480B1 (en) | 2016-11-17 | 2020-07-21 | EMC IP Holding Company LLC | Embedded data valuation and metadata binding |
US11037208B1 (en) | 2016-12-16 | 2021-06-15 | EMC IP Holding Company LLC | Economic valuation of data assets |
US10514833B2 (en) | 2016-12-30 | 2019-12-24 | Google Llc | Contextual paste target prediction |
US10339185B2 (en) * | 2017-01-10 | 2019-07-02 | International Business Machines Corporation | Efficient management of document corpus |
US11361235B2 (en) * | 2017-01-25 | 2022-06-14 | Pearson Education, Inc. | Methods for automatically generating Bayes nets using historical data |
US11182393B2 (en) * | 2017-02-21 | 2021-11-23 | International Business Machines Corporation | Spatial data analyzer support |
US10534825B2 (en) * | 2017-05-22 | 2020-01-14 | Microsoft Technology Licensing, Llc | Named entity-based document recommendations |
US10331402B1 (en) * | 2017-05-30 | 2019-06-25 | Amazon Technologies, Inc. | Search and knowledge base question answering for a voice user interface |
US11335466B2 (en) * | 2019-02-15 | 2022-05-17 | Tencent America LLC | Method for determining disease symptom relations using acceptance and rejection of random samples |
US10726072B2 (en) | 2017-11-15 | 2020-07-28 | Sap Se | Internet of things search and discovery graph engine construction |
US10642908B2 (en) * | 2017-11-15 | 2020-05-05 | Sap Se | Internet of things search and discovery dynamic alteration of results |
US10592732B1 (en) | 2017-12-14 | 2020-03-17 | Perceive Corporation | Probabilistic loss function for training network with triplets |
JP7031387B2 (ja) * | 2018-03-12 | 2022-03-08 | オムロン株式会社 | 情報処理装置、情報処理方法、および、情報処理プログラム |
US11995537B1 (en) | 2018-03-14 | 2024-05-28 | Perceive Corporation | Training network with batches of input instances |
US11586902B1 (en) | 2018-03-14 | 2023-02-21 | Perceive Corporation | Training network to minimize worst case surprise |
US10945012B2 (en) * | 2018-06-28 | 2021-03-09 | Pandora Media, Llc | Cold-start podcast recommendations |
US11250486B1 (en) * | 2018-08-03 | 2022-02-15 | Rentpath Holdings, Inc. | Systems and methods for displaying filters and intercepts leveraging a predictive analytics architecture |
US10853578B2 (en) * | 2018-08-10 | 2020-12-01 | MachineVantage, Inc. | Extracting unconscious meaning from media corpora |
US10666076B1 (en) | 2018-08-14 | 2020-05-26 | Veritone Alpha, Inc. | Using battery state excitation to control battery operations |
US20200134096A1 (en) * | 2018-10-30 | 2020-04-30 | Longsand Limited | Search results based on models derived from documents |
GB201818234D0 (en) | 2018-11-08 | 2018-12-26 | Polyal | A dialogue system and a dialogue method |
GB201818237D0 (en) * | 2018-11-08 | 2018-12-26 | Polyal | A dialogue system, a dialogue method, a method of generating data for training a dialogue system, a system for generating data for training a dialogue system |
CN109508421B (zh) * | 2018-11-26 | 2020-11-13 | 中国电子科技集团公司第二十八研究所 | 一种基于词向量的文献推荐方法 |
EP3660699A1 (en) * | 2018-11-29 | 2020-06-03 | Tata Consultancy Services Limited | Method and system to extract domain concepts to create domain dictionaries and ontologies |
US10452045B1 (en) | 2018-11-30 | 2019-10-22 | Veritone Alpha, Inc. | Controlling ongoing battery system usage while repeatedly reducing power dissipation |
US10816949B1 (en) | 2019-01-22 | 2020-10-27 | Veritone Alpha, Inc. | Managing coordinated improvement of control operations for multiple electrical devices to reduce power dissipation |
US11097633B1 (en) | 2019-01-24 | 2021-08-24 | Veritone Alpha, Inc. | Using battery state excitation to model and control battery operations |
US11048738B2 (en) * | 2019-01-31 | 2021-06-29 | EMC IP Holding Company LLC | Records search and management in compliance platforms |
US11069926B1 (en) | 2019-02-14 | 2021-07-20 | Vcritonc Alpha, Inc. | Controlling ongoing battery system usage via parametric linear approximation |
US11407327B1 (en) | 2019-10-17 | 2022-08-09 | Veritone Alpha, Inc. | Controlling ongoing usage of a battery cell having one or more internal supercapacitors and an internal battery |
US11036925B2 (en) | 2019-11-18 | 2021-06-15 | International Business Machines Corporation | Managing the distinctiveness of multimedia |
KR20210070623A (ko) * | 2019-12-05 | 2021-06-15 | 엘지전자 주식회사 | 사용자의 관심사를 추출하는 인공 지능 장치 및 그 방법 |
CN111125528B (zh) * | 2019-12-24 | 2023-04-28 | 腾讯科技(深圳)有限公司 | 信息推荐方法及装置 |
CN111368202B (zh) * | 2020-03-06 | 2023-09-19 | 咪咕文化科技有限公司 | 搜索推荐方法、装置、电子设备及存储介质 |
US11373210B2 (en) * | 2020-03-26 | 2022-06-28 | Adobe Inc. | Content interest from interaction information |
US11238113B2 (en) * | 2020-04-01 | 2022-02-01 | Grand Rounds Inc. | Systems and methods for machine learning models for search engine performance optimization |
CN111401046B (zh) * | 2020-04-13 | 2023-09-29 | 贝壳技术有限公司 | 房源标题的生成方法和装置、存储介质、电子设备 |
WO2022072894A1 (en) | 2020-10-01 | 2022-04-07 | Crowdsmart, Inc. | Infinitely scaling a/b testing |
US11935557B2 (en) * | 2021-02-01 | 2024-03-19 | Harman International Industries, Incorporated | Techniques for detecting and processing domain-specific terminology |
CN112783918A (zh) * | 2021-03-15 | 2021-05-11 | 北京百度网讯科技有限公司 | 搜索方法、搜索装置、电子设备、存储介质和程序产品 |
EP4109322A1 (en) | 2021-06-23 | 2022-12-28 | Tata Consultancy Services Limited | System and method for statistical subject identification from input data |
US11430446B1 (en) | 2021-08-12 | 2022-08-30 | PolyAI Limited | Dialogue system and a dialogue method |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6385602B1 (en) * | 1998-11-03 | 2002-05-07 | E-Centives, Inc. | Presentation of search results using dynamic categorization |
CN1476568A (zh) * | 2000-11-20 | 2004-02-18 | ���˹���Ѷ��� | 更新兴趣的方法 |
US20070130109A1 (en) * | 2005-12-05 | 2007-06-07 | Raymond King | Metadata collection within a trusted relationship to increase search relevance |
CN101031915A (zh) * | 2004-06-30 | 2007-09-05 | Google公司 | 利用基于用户信息和情境自动生成的链接的增强的文档浏览 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02224068A (ja) * | 1989-02-27 | 1990-09-06 | Toshiba Corp | 情報検索システム |
JPH03122769A (ja) * | 1989-10-05 | 1991-05-24 | Ricoh Co Ltd | キーワード連想検索装置 |
JPH0887508A (ja) * | 1994-09-14 | 1996-04-02 | Olympus Optical Co Ltd | 情報検索装置 |
US6807537B1 (en) * | 1997-12-04 | 2004-10-19 | Microsoft Corporation | Mixtures of Bayesian networks |
JP3645431B2 (ja) * | 1998-10-02 | 2005-05-11 | 富士通株式会社 | 情報検索支援装置および情報検索支援プログラム記憶媒体 |
US6560590B1 (en) * | 2000-02-14 | 2003-05-06 | Kana Software, Inc. | Method and apparatus for multiple tiered matching of natural language queries to positions in a text corpus |
US6687696B2 (en) * | 2000-07-26 | 2004-02-03 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
US20040054572A1 (en) * | 2000-07-27 | 2004-03-18 | Alison Oldale | Collaborative filtering |
US7356530B2 (en) | 2001-01-10 | 2008-04-08 | Looksmart, Ltd. | Systems and methods of retrieving relevant information |
US20030204496A1 (en) * | 2002-04-29 | 2003-10-30 | X-Mine, Inc. | Inter-term relevance analysis for large libraries |
EP1484693A1 (en) * | 2003-06-04 | 2004-12-08 | Sony NetServices GmbH | Content recommendation device with an arrangement engine |
DE60315647T2 (de) * | 2003-09-15 | 2008-04-10 | Philippe Baumard | Verfahren und System zur Interessenniveaumessung von digitalen Nachrichten |
JP2005135113A (ja) * | 2003-10-29 | 2005-05-26 | Sony Corp | 電子機器装置、関連語抽出方法及びプログラム |
US7392278B2 (en) * | 2004-01-23 | 2008-06-24 | Microsoft Corporation | Building and using subwebs for focused search |
JP4535765B2 (ja) * | 2004-04-23 | 2010-09-01 | 富士通株式会社 | コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置 |
CA2571509A1 (en) | 2004-06-24 | 2006-01-05 | Amir Lavi | System for facilitating search over a network |
JP2006085389A (ja) * | 2004-09-15 | 2006-03-30 | Kyoto Univ | 検索装置 |
US7428533B2 (en) | 2004-12-06 | 2008-09-23 | Yahoo! Inc. | Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies |
US8185523B2 (en) * | 2005-03-18 | 2012-05-22 | Search Engine Technologies, Llc | Search engine that applies feedback from users to improve search results |
US20080009268A1 (en) | 2005-09-14 | 2008-01-10 | Jorey Ramer | Authorized mobile content search results |
US20070078832A1 (en) * | 2005-09-30 | 2007-04-05 | Yahoo! Inc. | Method and system for using smart tags and a recommendation engine using smart tags |
JP2007241451A (ja) * | 2006-03-06 | 2007-09-20 | Fuji Xerox Co Ltd | 情報収集支援装置 |
JP2008065417A (ja) * | 2006-09-05 | 2008-03-21 | Hottolink Inc | 連想語群検索装置、システム及びコンテンツマッチ型広告システム |
JP2008077227A (ja) * | 2006-09-19 | 2008-04-03 | Access Co Ltd | リンク生成装置、ブラウザプログラム、リンク生成システム |
JP5351182B2 (ja) * | 2008-02-25 | 2013-11-27 | アティジオ リミテッド ライアビリティ カンパニー | 関心領域についての関連情報の決定 |
-
2009
- 2009-12-11 WO PCT/US2009/067778 patent/WO2010068931A1/en active Application Filing
- 2009-12-11 CA CA2746675A patent/CA2746675C/en not_active Expired - Fee Related
- 2009-12-11 JP JP2011540943A patent/JP5379239B2/ja not_active Expired - Fee Related
- 2009-12-11 CN CN200980156646.6A patent/CN102326144B/zh not_active Expired - Fee Related
- 2009-12-11 MX MX2011006340A patent/MX2011006340A/es active IP Right Grant
- 2009-12-11 US US12/636,630 patent/US8429106B2/en not_active Expired - Fee Related
- 2009-12-11 EP EP09832660.6A patent/EP2377011A4/en not_active Withdrawn
-
2013
- 2013-03-20 US US13/847,970 patent/US9607264B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6385602B1 (en) * | 1998-11-03 | 2002-05-07 | E-Centives, Inc. | Presentation of search results using dynamic categorization |
CN1476568A (zh) * | 2000-11-20 | 2004-02-18 | ���˹���Ѷ��� | 更新兴趣的方法 |
CN101031915A (zh) * | 2004-06-30 | 2007-09-05 | Google公司 | 利用基于用户信息和情境自动生成的链接的增强的文档浏览 |
US20070130109A1 (en) * | 2005-12-05 | 2007-06-07 | Raymond King | Metadata collection within a trusted relationship to increase search relevance |
Non-Patent Citations (1)
Title |
---|
ROBIN BURKE: "Hybrid recommender systems:Survey and experiments", 《USER MODELING AND USER ADAPTIVE INTERACTION》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648010B (zh) * | 2012-09-18 | 2021-11-05 | 北京一点网聚科技有限公司 | 用于向用户提供内容的方法、系统及相应介质 |
CN108648010A (zh) * | 2012-09-18 | 2018-10-12 | 北京点网聚科技有限公司 | 用于向用户提供内容的方法、系统及相应介质 |
US10664657B2 (en) | 2012-12-27 | 2020-05-26 | Touchtype Limited | System and method for inputting images or labels into electronic devices |
US11200503B2 (en) | 2012-12-27 | 2021-12-14 | Microsoft Technology Licensing, Llc | Search system and corresponding method |
CN104885081A (zh) * | 2012-12-27 | 2015-09-02 | 触摸式有限公司 | 搜索系统和相应方法 |
CN104885081B (zh) * | 2012-12-27 | 2020-07-07 | 触摸式有限公司 | 搜索系统和相应方法 |
CN105247566A (zh) * | 2013-06-23 | 2016-01-13 | 英特尔公司 | 基于上下文关系信息的对用户信息的选择性共享,例如用于给接收方众包感兴趣的礼物 |
CN105247566B (zh) * | 2013-06-23 | 2020-10-16 | 英特尔公司 | 基于上下文关系选择性地公开信息的方法、装置、介质 |
WO2015043389A1 (zh) * | 2013-09-30 | 2015-04-02 | 北京奇虎科技有限公司 | 一种基于视频搜索的分词信息推送方法和装置 |
CN104809165B (zh) * | 2015-04-02 | 2018-09-25 | 海信集团有限公司 | 一种多媒体文件相关度的确定方法及设备 |
CN104809165A (zh) * | 2015-04-02 | 2015-07-29 | 海信集团有限公司 | 一种多媒体文件相关度的确定方法及设备 |
CN108140203A (zh) * | 2015-08-18 | 2018-06-08 | 万事达卡国际股份有限公司 | 用于通过性质图形模型生成关系的系统和方法 |
CN108140203B (zh) * | 2015-08-18 | 2022-06-03 | 万事达卡国际股份有限公司 | 用于通过性质图形模型生成关系的系统和方法 |
CN107918778B (zh) * | 2016-10-11 | 2022-03-15 | 阿里巴巴集团控股有限公司 | 一种信息匹配方法及相关装置 |
CN107918778A (zh) * | 2016-10-11 | 2018-04-17 | 阿里巴巴集团控股有限公司 | 一种信息匹配方法及相关装置 |
US11586817B2 (en) * | 2018-02-12 | 2023-02-21 | Tencent Technology (Shenzhen) Company Limited | Word vector retrofitting method and apparatus |
CN110619075A (zh) * | 2018-06-04 | 2019-12-27 | 阿里巴巴集团控股有限公司 | 一种网页识别方法与设备 |
CN110619075B (zh) * | 2018-06-04 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 一种网页识别方法与设备 |
CN111310882A (zh) * | 2018-12-11 | 2020-06-19 | 北京京东尚科信息技术有限公司 | 用于生成信息的方法和装置 |
CN111444334A (zh) * | 2019-01-16 | 2020-07-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、文本识别方法、装置及计算机设备 |
CN111444334B (zh) * | 2019-01-16 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 数据处理方法、文本识别方法、装置及计算机设备 |
TWI724515B (zh) * | 2019-08-27 | 2021-04-11 | 聯智科創有限公司 | 機器學習服務提供方法 |
CN110825972A (zh) * | 2019-11-12 | 2020-02-21 | 重庆邮电大学 | 一种基于领域差异化的热点话题关键用户发现方法 |
CN114036403A (zh) * | 2022-01-07 | 2022-02-11 | 智者四海(北京)技术有限公司 | 用户兴趣探测方法、装置和存储介质 |
CN114036403B (zh) * | 2022-01-07 | 2022-03-25 | 智者四海(北京)技术有限公司 | 用户兴趣探测方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US8429106B2 (en) | 2013-04-23 |
US9607264B2 (en) | 2017-03-28 |
US20100153324A1 (en) | 2010-06-17 |
US20130325769A1 (en) | 2013-12-05 |
EP2377011A4 (en) | 2017-12-13 |
CN102326144B (zh) | 2015-06-17 |
JP5379239B2 (ja) | 2013-12-25 |
WO2010068931A1 (en) | 2010-06-17 |
CA2746675C (en) | 2015-03-31 |
CA2746675A1 (en) | 2010-06-17 |
EP2377011A1 (en) | 2011-10-19 |
JP2012512465A (ja) | 2012-05-31 |
MX2011006340A (es) | 2011-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102326144B (zh) | 使用感兴趣领域确定的信息提供建议 | |
US11334635B2 (en) | Domain specific natural language understanding of customer intent in self-help | |
US11580104B2 (en) | Method, apparatus, device, and storage medium for intention recommendation | |
Yin et al. | Joint event-partner recommendation in event-based social networks | |
CN102016787B (zh) | 计算机实现的方法,及确定所关注域的相关信息的计算机系统 | |
Selke et al. | Pushing the boundaries of crowd-enabled databases with query-driven schema expansion | |
Okazaki et al. | How to mine brand Tweets: Procedural guidelines and pretest | |
CN111886601B (zh) | 用于自适应问答的系统和方法 | |
Bai et al. | A rumor detection model incorporating propagation path contextual semantics and user information | |
Lee et al. | Sentiment analysis on online social network using probability Model | |
Tuomchomtam et al. | Community recommendation for text post in social media: A case study on Reddit | |
CN116541486A (zh) | 一种基于数据挖掘与深度学习的新闻信息聚合方法 | |
Bouchachia et al. | Online and interactive self-adaptive learning of user profile using incremental evolutionary algorithms | |
KR102454261B1 (ko) | 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법 | |
Kumar et al. | Classification of Mobile Applications with rich information | |
Ranjbar et al. | Explaining recommendation system using counterfactual textual explanations | |
Maleszka | A method for knowledge integration of ontology-based user profiles in personalised document retrieval systems | |
Saputra et al. | C4. 5 and naive bayes for sentiment analysis Indonesian Tweet on E-Money user during pandemic | |
Furlan et al. | A survey of intelligent question routing systems | |
Senadhira et al. | A deep learning based approach for classifying tweets related to online learning during the Covid-19 pandemic | |
Dufour et al. | LIA@ CLEF 2018: Mining events opinion argumentation from raw unlabeled Twitter data using convolutional neural network | |
Valentin | Answer ranking in Community Question Answering: a deep learning approach | |
Valentin Garcia | Answer ranking in Community Question Answering: a deep learning approach | |
Rahman | The Framework for Political Communication Text Mining Based on Twitter | |
KS | APPLICATION OF SENTIMENT ANALYSIS IN WEB DATA ANALYTICS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20170613 Address after: Wilmington, Delaware America 400 Sen District No. 2711 Tver road 19808 Patentee after: Atiqiao company Address before: Washington, USA Patentee before: Atigeo LLC |
|
TR01 | Transfer of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150617 Termination date: 20191211 |
|
CF01 | Termination of patent right due to non-payment of annual fee |